机器学习中的几种数据偏差-电子发烧友网

机器学习中的数据偏差是一种错误，其中数据集的某些元素比其他元素具有更大的权重和或表示。有偏见的数据集不能准确地表示模型的用例，从而导致结果偏斜，准确性水平低和分析错误。

通常，用于机器学习项目的训练数据必须代表现实世界。这很重要，因为这些数据是机器学习如何完成其工作的方式。数据偏差可能会发生在从人类报告和选择偏差到算法和解释偏差的一系列区域中。

解决机器学习项目中的数据偏差意味着首先确定它在哪里。只有在知道存在偏见的地方之后，你才可以采取必要的措施来纠正它，无论是解决数据不足还是改善注释过程的问题。考虑到这一点，请务必对数据的范围，质量和处理保持警惕，以免产生偏差。这不仅影响模型的准确性，而且还会涉及道德，公平和包容性问题。

下面，我列出了机器学习中最常见的7种数据偏见类型，以帮助你分析和了解其发生的位置以及你可以采取的措施。

数据偏差的类型

尽管并不详尽，但此列表包含了该领域中数据偏见的常见示例，以及其发生位置的示例。

样本偏差：当数据集不能反映模型将在其中运行的环境的实际情况时，就会发生样本偏差。这样的一个例子是某些主要在白人图像上训练的面部识别系统。这些模型对妇女和不同种族的人的准确度要低得多。此偏差的另一个名称是选择偏差。

排除偏差：排除偏差在数据预处理阶段最常见。通常，这是删除不重要的有价值数据的情况。但是，由于某些信息的系统排除，它也可能发生。例如，假设你有一个在美国和加拿大的客户销售数据集。98％的客户来自美国，因此你选择删除不相关的位置数据。但是，这意味着你的模型将不会因为加拿大客户的消费增加两倍多这一事实而受到影响。

测量偏差：当为训练而收集的数据与现实世界中收集的数据不同时，或者当错误的测量结果导致数据失真时，就会发生这种偏差。这种偏差的一个很好的例子出现在图像识别数据集中，其中训练数据是用一种类型的照相机收集的，而生产数据是用另一种照相机收集的。在项目的数据标记阶段，由于注释不一致也会导致测量偏差。

召回偏差：这是一种测量偏差，在项目的数据标记阶段很常见。当你不一致地标记相似类型的数据时，就会产生召回偏差。这导致较低的精度。例如，假设你有一个团队将电话的图像标记为损坏，部分损坏或未损坏。如果有人将一张图像标记为已损坏，但将相似的图像标记为部分已损坏，则你的数据将不一致。

观察者偏差：也称为确认偏差，观察者偏差是看到你期望在数据中看到或想要看到的结果的效果。当研究人员在有意识或无意识的情况下对自己的研究有主观想法进入项目时，可能会发生这种情况。当标签制作者让主观思想控制他们的标签制作习惯，从而导致数据不准确时，你也可以看到这一点。

种族偏见：尽管不是传统意义上的数据偏见，但由于其在AI技术中的盛行，因此仍然值得一提。当数据偏向特定人群时，就会发生种族偏见。在面部识别和自动语音识别技术中可以看到这一点，该技术无法像白种人那样准确地识别有色人种。Google的Inclusive Images竞赛提供了很好的例子说明了这种情况的发生。

关联偏差：当机器学习模型的数据加强和/或乘以文化偏差时，就会发生这种偏差。你的数据集可能包含一组工作，其中所有男性都是医生，所有女性都是护士。这并不意味着女人不能当医生，男人不能当护士。但是，就你的机器学习模型而言，不存在女医生和男护士。社交偏见最出名的是造成性别偏见，这在“挖掘人工智能”研究中可见。

如何避免机器学习项目中的数据偏差？

防止机器学习项目中的数据偏差是一个持续的过程。尽管有时很难知道数据或模型何时出现偏差，但是你可以采取许多步骤来帮助防止偏差或及早发现偏差。尽管远非详尽的清单，但以下要点为思考机器学习项目的数据偏差提供了入门级指南。

尽你所能，事先研究用户。请注意你的一般用例和潜在异常值。

确保你的数据科学家和数据标签团队是多元化的。

尽可能合并来自多个来源的输入以确保数据多样性。

为数据标签创建黄金标准。黄金标准是一组数据，可以反映任务的理想标记数据。它使你能够测量团队的注释的准确性。

为数据标签期望制定明确的准则，以便数据标签保持一致。

对于可能会出现数据准确性偏差的任何项目，请使用多次通过注释。例如，情感分析，内容审核和意图识别。

寻求具有领域专业知识的人员的帮助，以查看你收集和/或注释的数据。团队外部的人可能会看到团队忽略的偏见。

定期分析你的数据。跟踪错误和问题区域，以便您快速响应并解决它们。在决定删除或保留它们之前，请仔细分析数据点。

使偏差测试成为开发周期的一部分。Google，IBM和Microsoft都发布了工具和指南，以帮助分析许多不同数据类型的偏差。

如果你想更深入地了解偏见的产生方式，偏见对机器学习模型的影响以及过去在自动化技术中的偏见，我建议你参考玛格丽特·米切尔（Margaret Mitchell）的“人工智能的视野和语言偏见”演示。

链接：https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture19-bias.pdf?ref=hackernoon.com

总结

请务必注意任何数据项目在机器学习中的潜在偏见。通过尽早安装正确的系统并保持数据收集，标记和实施的最顶层，你可以在出现问题之前就注意到它，或者在出现问题时对其进行响应。

责任编辑：xj

原文标题：机器学习中的7种数据偏见

文章出处：【微信公众号：Imagination Tech】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7033

浏览量
89041
机器学习

机器学习

+关注

关注
66

文章
8418

浏览量
132646

原文标题：机器学习中的7种数据偏见

文章出处：【微信号：Imgtec，微信公众号：Imagination Tech】欢迎添加关注！文章转载请注明出处。

zeta在机器学习中的应用 zeta的优缺点分析

在探讨ZETA在机器学习中的应用以及ZETA的优缺点时，需要明确的是，ZETA一词在不同领域可能有不同的含义和应用。以下是根据不同领域的ZETA进行的分析：一、ZETA在机器

发表于 12-20 09:11 •243次阅读

cmp在机器学习中的作用如何使用cmp进行数据对比

在机器学习领域，"cmp"这个术语可能并不是一个常见的术语，它可能是指"比较"（comparison）的缩写。比较在机器学习中的作用模型

发表于 12-17 09:35 •191次阅读

什么是机器学习？通过机器学习方法能解决哪些问题？

计算机系统自身的性能”。事实上，由于“经验”在计算机系统中主要以数据的形式存在，因此机器学习需要设法对数据进行分析

发表于 11-16 01:07 •408次阅读

什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>？通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题？

eda在机器学习中的应用

在机器学习项目中，数据预处理和理解是成功构建模型的关键。探索性数据分析（EDA）是这一过程中不可或缺的一部分。 1.

发表于 11-13 10:42 •304次阅读

机器学习中的数据分割方法

在机器学习中，数据分割是一项至关重要的任务，它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器

发表于 07-10 16:10 •1794次阅读

机器学习中的交叉验证方法

在机器学习中，交叉验证（Cross-Validation）是一种重要的评估方法，它通过将数据集分割成多个部分来评估模型的性能，从而避免过拟合或欠拟合问题，并帮助选择最优的超参数。本文将

发表于 07-10 16:08 •1151次阅读

如何理解机器学习中的训练集、验证集和测试集

理解机器学习中的训练集、验证集和测试集，是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了模型学习

发表于 07-10 15:45 •4001次阅读

机器学习中的数据预处理与特征工程

在机器学习的整个流程中，数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量，进而影响模型的训练效果和泛化能力。本文将从数据

发表于 07-09 15:57 •421次阅读

机器学习算法原理详解

机器学习作为人工智能的一个重要分支，其目标是通过让计算机自动从数据中学习并改进其性能，而无需进行明确的编程。本文将深入解读几种常见的

发表于 07-02 11:25 •1046次阅读

机器学习在数据分析中的应用

随着大数据时代的到来，数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具，通过训练模型从

发表于 07-02 11:22 •631次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于

发表于 07-01 11:40 •1382次阅读

机器学习的经典算法与应用

关于数据机器学习就是喂入算法和数据，让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个

发表于 06-27 08:27 •1663次阅读

机器学习模型偏差与方差详解

数据集的任何变化都将提供一个不同的估计值，若使用统计方法过度匹配训练数据集时，这些估计值非常准确。一个一般规则是，当统计方法试图更紧密地匹配数据点，或者使用更灵活的方法时，偏差会减少，

发表于 03-26 11:18 •1009次阅读

使用SDL中flash的例程时，发现访问地址读取到的flash的数据与预想的有偏差是为什么？

您好，在使用SDL中关于flash的例程时，发现访问地址读取到的flash的数据与预想的有偏差，并且在IAR调试器中仿真，也会有程序跑飞的现象。请问这可能是什么原因？谢谢。

发表于 02-02 07:42

工业物联网数据中台实现多种数据监控与智能管理

智能工厂中的工业物联网数据中台发挥着重要作用，它能实现多种数据监控与智能管理，让工厂里的设备、产品、人都能实时交互、共享信息，工厂里的各种数据

发表于 01-12 11:44 •404次阅读

搜索历史

机器学习中的几种数据偏差

评论

zeta在机器学习中的应用 zeta的优缺点分析

cmp在机器学习中的作用如何使用cmp进行数据对比

什么是机器学习？通过机器学习方法能解决哪些问题？

eda在机器学习中的应用

机器学习中的数据分割方法

机器学习中的交叉验证方法

如何理解机器学习中的训练集、验证集和测试集

机器学习中的数据预处理与特征工程

机器学习算法原理详解

机器学习在数据分析中的应用

深度学习与传统机器学习的对比

机器学习的经典算法与应用

机器学习模型偏差与方差详解

使用SDL中flash的例程时，发现访问地址读取到的flash的数据与预想的有偏差是为什么？

工业物联网数据中台实现多种数据监控与智能管理