机器学习中最常见错误解决方案-电子发烧友网

当你构建第一个模型，注意避免这5个坑。

数据科学和机器学习正变得越来越流行，这个领域的人数每天都在增长。这意味着有很多数据科学家在构建他们的第一个机器学习模型时没有丰富的经验，而这也是错误可能会发生的地方。

近日，软件架构师、数据科学家、Kaggle 大师 Agnis Liukis 撰写了一篇文章，他在文中谈了谈在机器学习中最常见的一些初学者错误的解决方案，以确保初学者了解并避免它们。

以下为文章内容：

在机器学习领域，初学者避免这 5 个坑

1、在需要的地方没有使用数据归一化

对数据进行归一化操作，然后获取特征，并将其输入到模型中，让模型做出预测，这种方法是很容易的。但在某些情况下，这种简单方法的结果可能会让人失望，因为它缺少一个非常重要的部分。

一些类型的模型需要数据归一化，如线性回归、经典神经网络等。这类模型使用特征值去乘训练值的权重。在非归一化特征的情况下，一个特征值的可能范围可能不同于另一个特征值的可能范围。

假设一个特征的值在［0，0.001］范围内，另一个特征的值在［100000，200000］范围内。对于使两个特征同等重要的模型，第一个特征的权重将比第二个特征的权重大 1 亿倍。巨大的权重可能会给模型带来严重问题，比如存在一些异常值的时候。此外，估计各种特征的重要性变得困难，因为权重大可能意味着特征很重要，但也可能只是意味着其特征值很小

归一化后，所有特征的值都在相同的范围内，通常为［0，1］或［-1，1］。在这种情况下，权重将在相似的范围内，并与每个特征的实际重要性密切对应。

总的来说，在需要的地方使用数据归一化将产生更好、更准确的预测。

2、认为特征越多越好

有人可能会认为加入所有特征是一个好主意，认为模型会自动选择并使用最好的特征。实际上，这种想法很难成真。

模型的特征越多，过拟合的风险越大。即使在完全随机的数据中，模型也能够找到一些特征（信号），尽管有时较弱，有时较强。当然，随机噪声中没有真实信号。但如果我们有足够多的噪声列，则该模型有可能根据检测到的故障信号使用其中的一部分。当这种情况发生时，模型预测质量将会降低，因为它们一定程度上基于随机噪声。

现在有许多技术帮助我们进行特征选择。但你要记住，你需要解释你拥有的每一个特征，以及为什么这个特征会帮助你的模型。

3. 在需要外推的情况下，使用基于树的模型

基于树的模型易于使用，功能强大，这也是其受欢迎的原因。然而，在某些情况下，使用基于树的模型可能是错误的。

基于树的模型无法外推，这些模型的预测值永远不会大于训练数据中的最大值，而且在训练中也永远不会输出比最小值更小的预测值。

在某些任务中，外推能力可能非常重要。例如，如果该模型预测股票价格，那么未来股票价格可能会比以往任何时候都高。在这种情况下，基于树的模型将无法直接使用，因为它们的预测几乎会超过最高历史价格。

这个问题有多种解决方案，一种解决方案是预测变化或差异，而不是直接预测价值。另一种解决方案是为此类任务使用不同类型的模型。线性回归或神经网络就可以进行外推。

4、在不需要的地方使用数据归一化

之前文章谈到了数据归一化的必要性，但情况并非总是如此，基于树的模型不需要数据归一化。神经网络可能也不需要明确的归一化，因为有些网络内部已经包含归一化层，例如 Keras 库的 BatchNormalization 操作。

在某些情况下，即使是线性回归也可能不需要数据归一化，这是指所有特征都已处于类似的值范围，并且具有相同的含义。例如，如果模型适用于时间序列数据，并且所有特征都是同一参数的历史值。

5. 在训练集和验证集 / 测试集之间泄漏信息

造成数据泄漏比人们想象的要容易，考虑以下代码段：

数据泄漏的示例特性

实际上，这两种特征（sum_feature 和 diff_feature）都不正确。它们正在泄漏信息，因为在拆分到训练集 / 测试集后，具有训练数据的部分将包含来自测试的一些信息。这将导致更高的验证分数，但当应用于实际的数据模型时，性能会更差。

正确的方法是首先将训练集 / 测试集分开，然后才应用特征生成功能。通常，分别处理训练集和测试集是一种很好的特征工程模式。

在某些情况下，可能需要在两者之间传递一些信息 —— 例如，我们可能希望在测试集和训练集上使用相同的 StandardScaler。

总而言之，从错误中吸取教训是件好事，希望上述所提供的错误示例能帮助到你。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4788

浏览量
101483
数据

数据

+关注

关注
8

文章
7221

浏览量
90095
机器学习

机器学习

+关注

关注
66

文章
8458

浏览量
133342

原文标题：机器学习初学者易踩的5个坑

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

机器学习中最常见错误解决方案

评论

常见xgboost错误及解决方案

常见电位测量错误及解决方案

DFT的常见误区与解决方案

SSM开发中的常见问题及解决方案

EEPROM编程常见错误及解决方案

PCBA加工常见质量问题揭秘：焊接不良与解决方案

关于光耦合器的常见误解

常见的GND连接错误及解决方案

SQL错误代码及解决方案

aes加密的常见错误及解决方案

socket 常见错误与解决方案

SUMIF函数常见错误及解决方案

对电动汽车电池11大误解的解答

服务器错误是怎么回事？常见错误原因及解决方法汇总

功能测试覆盖中最常见的是什么方法