0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习中最常见错误解决方案

新机器视觉 来源:机器之心 作者:机器之心 2022-08-08 16:56 次阅读

当你构建第一个模型,注意避免这5个坑。

数据科学和机器学习正变得越来越流行,这个领域的人数每天都在增长。这意味着有很多数据科学家在构建他们的第一个机器学习模型时没有丰富的经验,而这也是错误可能会发生的地方。

近日,软件架构师、数据科学家、Kaggle 大师 Agnis Liukis 撰写了一篇文章,他在文中谈了谈在机器学习中最常见的一些初学者错误的解决方案,以确保初学者了解并避免它们。

以下为文章内容:

在机器学习领域,初学者避免这 5 个坑

1、在需要的地方没有使用数据归一化

对数据进行归一化操作,然后获取特征,并将其输入到模型中,让模型做出预测,这种方法是很容易的。但在某些情况下,这种简单方法的结果可能会让人失望,因为它缺少一个非常重要的部分。

一些类型的模型需要数据归一化,如线性回归、经典神经网络等。这类模型使用特征值去乘训练值的权重。在非归一化特征的情况下,一个特征值的可能范围可能不同于另一个特征值的可能范围。

假设一个特征的值在 [0,0.001] 范围内,另一个特征的值在 [100000,200000] 范围内。对于使两个特征同等重要的模型,第一个特征的权重将比第二个特征的权重大 1 亿倍。巨大的权重可能会给模型带来严重问题,比如存在一些异常值的时候。此外,估计各种特征的重要性变得困难,因为权重大可能意味着特征很重要,但也可能只是意味着其特征值很小

归一化后,所有特征的值都在相同的范围内,通常为 [0,1] 或 [-1,1]。在这种情况下,权重将在相似的范围内,并与每个特征的实际重要性密切对应。

总的来说,在需要的地方使用数据归一化将产生更好、更准确的预测。

2、认为特征越多越好

有人可能会认为加入所有特征是一个好主意,认为模型会自动选择并使用最好的特征。实际上,这种想法很难成真。

模型的特征越多,过拟合的风险越大。即使在完全随机的数据中,模型也能够找到一些特征(信号),尽管有时较弱,有时较强。当然,随机噪声中没有真实信号。但如果我们有足够多的噪声列,则该模型有可能根据检测到的故障信号使用其中的一部分。当这种情况发生时,模型预测质量将会降低,因为它们一定程度上基于随机噪声。

现在有许多技术帮助我们进行特征选择。但你要记住,你需要解释你拥有的每一个特征,以及为什么这个特征会帮助你的模型。

3. 在需要外推的情况下,使用基于树的模型

基于树的模型易于使用,功能强大,这也是其受欢迎的原因。然而,在某些情况下,使用基于树的模型可能是错误的。

基于树的模型无法外推,这些模型的预测值永远不会大于训练数据中的最大值,而且在训练中也永远不会输出比最小值更小的预测值。

在某些任务中,外推能力可能非常重要。例如,如果该模型预测股票价格,那么未来股票价格可能会比以往任何时候都高。在这种情况下,基于树的模型将无法直接使用,因为它们的预测几乎会超过最高历史价格。

这个问题有多种解决方案,一种解决方案是预测变化或差异,而不是直接预测价值。另一种解决方案是为此类任务使用不同类型的模型。线性回归或神经网络就可以进行外推。

4、在不需要的地方使用数据归一化

之前文章谈到了数据归一化的必要性,但情况并非总是如此,基于树的模型不需要数据归一化。神经网络可能也不需要明确的归一化,因为有些网络内部已经包含归一化层,例如 Keras 库的 BatchNormalization 操作。

在某些情况下,即使是线性回归也可能不需要数据归一化,这是指所有特征都已处于类似的值范围,并且具有相同的含义。例如,如果模型适用于时间序列数据,并且所有特征都是同一参数的历史值。

5. 在训练集和验证集 / 测试集之间泄漏信息

造成数据泄漏比人们想象的要容易,考虑以下代码段:

67499348-165a-11ed-ba43-dac502259ad0.png

数据泄漏的示例特性

实际上,这两种特征(sum_feature 和 diff_feature)都不正确。它们正在泄漏信息,因为在拆分到训练集 / 测试集后,具有训练数据的部分将包含来自测试的一些信息。这将导致更高的验证分数,但当应用于实际的数据模型时,性能会更差。

正确的方法是首先将训练集 / 测试集分开,然后才应用特征生成功能。通常,分别处理训练集和测试集是一种很好的特征工程模式。

在某些情况下,可能需要在两者之间传递一些信息 —— 例如,我们可能希望在测试集和训练集上使用相同的 StandardScaler。

总而言之,从错误中吸取教训是件好事,希望上述所提供的错误示例能帮助到你。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4788

    浏览量

    101483
  • 数据
    +关注

    关注

    8

    文章

    7221

    浏览量

    90095
  • 机器学习
    +关注

    关注

    66

    文章

    8458

    浏览量

    133342

原文标题:机器学习初学者易踩的5个坑

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    相关推荐

    常见xgboost错误解决方案

    XGBoost(eXtreme Gradient Boosting)是一种流行的机器学习算法,用于解决分类和回归问题。尽管它非常强大和灵活,但在使用过程中可能会遇到一些常见错误。以下
    的头像 发表于 01-19 11:22 875次阅读

    常见电位测量错误解决方案

    常见电位测量错误解决方案 1. 接触不良 错误描述: 在电位测量中,接触不良是最常见的问题之一。这可能是由于探针接触不良、氧化层、污垢或腐
    的头像 发表于 12-28 14:08 336次阅读

    DFT的常见误区与解决方案

    DFT(离散傅里叶变换)在信号处理领域具有广泛的应用,但在使用过程中也常会遇到一些误区。以下是对DFT常见误区的总结以及相应的解决方案常见误区 混叠现象 : 误区描述:在采样过程中,如果采样频率
    的头像 发表于 12-20 09:32 725次阅读

    SSM开发中的常见问题及解决方案

    在SSM(Spring + Spring MVC + MyBatis)框架的开发过程中,开发者可能会遇到一些常见问题。以下是对这些问题的详细分析以及相应的解决方案: 一、配置文件问题 问题描述
    的头像 发表于 12-17 09:16 729次阅读

    EEPROM编程常见错误解决方案

    EEPROM(电可擦可编程只读存储器)在编程过程中可能会遇到多种错误。以下是一些常见的EEPROM编程错误及其解决方案常见
    的头像 发表于 12-16 17:08 2125次阅读

    PCBA加工常见质量问题揭秘:焊接不良与解决方案

    的质量问题不仅会影响产品的性能和可靠性,还可能对厂家的声誉和利润造成重大影响。本文将深入探讨PCBA加工过程中常见的质量问题,并分析其产生的原因及可能的解决方案。 PCBA加工中的常见质量问题及
    的头像 发表于 12-13 09:28 316次阅读

    关于光耦合器的常见误解

    光耦合器以其提供电气隔离的能力而闻名,广泛应用于从电源到通信系统的各种应用。尽管光耦合器非常普遍,但人们对其特性和用途存在一些常见误解。本文将揭穿一些最常见误解,以帮助工程师和爱好
    的头像 发表于 12-06 10:04 218次阅读
    关于光耦合器的<b class='flag-5'>常见</b><b class='flag-5'>误解</b>

    常见的GND连接错误解决方案

    GND(接地)连接在电子设计和硬件开发中至关重要,错误的GND连接可能导致电路不稳定、信号干扰甚至设备损坏。以下是一些常见的GND连接错误及其解决方案: 一、GND网络未连接 问题描述
    的头像 发表于 11-29 16:02 2833次阅读

    SQL错误代码及解决方案

    在SQL数据库开发和管理中,常见错误代码及其解决方案可以归纳如下: 一、语法错误(Syntax Errors) 错误代码 :无特定代码,但
    的头像 发表于 11-19 10:21 3989次阅读

    aes加密的常见错误解决方案

    的归纳以及相应的解决方案常见错误 编码问题 : 在将字节数组转换成字符串时,如果使用了不同的编码格式,可能会导致解密后的数据出现乱码。 密钥长度问题 : AES算法支持128位、192位和256位三种密钥长度。如果加密和解密
    的头像 发表于 11-14 15:13 2597次阅读

    socket 常见错误解决方案

    在网络编程中,使用套接字(socket)是进行网络通信的基础。然而,在实际应用中,开发者可能会遇到各种错误。以下是一些常见的套接字错误及其解决方案: 1. 连接超时(ETIMEDOUT
    的头像 发表于 11-12 14:15 4040次阅读

    SUMIF函数常见错误解决方案

    SUMIF函数是Excel中一个非常实用的函数,用于根据给定条件对数据进行求和。然而,在使用过程中,用户可能会遇到一些常见错误。 1. 错误:范围不正确 错误描述: 用户可能没有正确设
    的头像 发表于 11-11 09:10 3211次阅读

    对电动汽车电池11大误解的解答

    近几年,电动汽车技术快速发展,尤其是其电池技术,本文将探索关于电动汽车(EV)电池——这一汽车行业中最具前景的新技术之一——的11个最常见误解,以及与无线电池管理系统(BMS)相关的内容。
    的头像 发表于 11-07 17:18 988次阅读

    服务器错误是怎么回事?常见错误原因及解决方法汇总

    服务器错误是怎么回事?最常见的原因分有六个,分别是:硬件问题、软件问题、网络问题、资源耗尽、数据库、文件权限问题。可以根据以下具体错误原因进行辨别,并选择适合的解决方法。关于常见服务器
    的头像 发表于 08-12 10:11 1717次阅读

    功能测试覆盖中最常见的是什么方法

    功能测试覆盖是软件测试过程中的一个重要环节,它主要关注软件产品的功能实现是否符合需求规格说明。在功能测试覆盖中,有多种方法可以采用,以确保测试的全面性和有效性。本文将详细介绍功能测试覆盖中最常见
    的头像 发表于 05-30 14:55 919次阅读