人工智能和机器学习中暗含的算法偏见-电子发烧友网

我们又能通过开源社区做些什么？

在我们的世界里，算法无处不在，偏见也是一样。从社会媒体新闻的提供到流式媒体服务的推荐到线上购物，计算机算法，尤其是机器学习算法，已经渗透到我们日常生活的每一个角落。至于偏见，我们只需要参考 2016 年美国大选就可以知道，偏见是怎样在明处与暗处影响着我们的社会。

很难想像，我们经常忽略的一点是这二者的交集：计算机算法中存在的偏见。

与我们大多数人的认知相反，科技并不是客观的。 AI算法和它们的决策程序是由它们的研发者塑造的，他们写入的代码，使用的“训练”数据还有他们对算法进行应力测试的过程，都会影响这些算法今后的选择。这意味着研发者的价值观、偏见和人类缺陷都会反映在软件上。如果我只给实验室中的人脸识别算法提供白人的照片，当遇到不是白人照片时，它不会认为照片中的是人类。这结论并不意味着 AI 是“愚蠢的”或是“天真的”，它显示的是训练数据的分布偏差：缺乏多种的脸部照片。这会引来非常严重的后果。

这样的例子并不少。全美范围内的州法院系统都使用“黑盒”对罪犯进行宣判。由于训练数据的问题，这些算法对黑人有偏见，他们对黑人罪犯会选择更长的服刑期，因此监狱中的种族差异会一直存在。而这些都发生在科技的客观性伪装下，这是“科学的”选择。

美国联邦政府使用机器学习算法来计算福利性支出和各类政府补贴。但这些算法中的信息，例如它们的创造者和训练信息，都很难找到。这增加了政府工作人员进行不平等补助金分发操作的几率。

算法偏见情况还不止这些。从 Facebook 的新闻算法到医疗系统再到警用携带相机，我们作为社会的一部分极有可能对这些算法输入各式各样的偏见、性别歧视、仇外思想、社会经济地位歧视、确认偏误等等。这些被输入了偏见的机器会大量生产分配，将种种社会偏见潜藏于科技客观性的面纱之下。

这种状况绝对不能再继续下去了。

在我们对人工智能进行不断开发研究的同时，需要降低它的开发速度，小心仔细地开发。算法偏见的危害已经足够大了。

我们能怎样减少算法偏见？

最好的方式是从算法训练的数据开始审查，根据微软的研究人员所说，这方法很有效。

数据分布本身就带有一定的偏见性。编程者手中的美国公民数据分布并不均衡，本地居民的数据多于移民者，富人的数据多于穷人，这是极有可能出现的情况。这种数据的不平均会使 AI 对我们是社会组成得出错误的结论。例如机器学习算法仅仅通过统计分析，就得出“大多数美国人都是富有的白人”这个结论。

即使男性和女性的样本在训练数据中等量分布，也可能出现偏见的结果。如果训练数据中所有男性的职业都是 CEO，而所有女性的职业都是秘书（即使现实中男性 CEO 的数量要多于女性），AI 也可能得出女性天生不适合做 CEO 的结论。

同样的，大量研究表明，用于执法部门的 AI 在检测新闻中出现的罪犯照片时，结果会惊人地偏向黑人及拉丁美洲裔居民。

在训练数据中存在的偏见还有很多其他形式，不幸的是比这里提到的要多得多。但是训练数据只是审查方式的一种，通过“应力测验”找出人类存在的偏见也同样重要。

如果提供一张印度人的照片，我们自己的相机能够识别吗？在两名同样水平的应聘者中，我们的AI是否会倾向于推荐住在市区的应聘者呢？对于情报中本地白人恐怖分子和伊拉克籍恐怖分子，反恐算法会怎样选择呢？急诊室的相机可以调出儿童的病历吗？

这些对于AI来说是十分复杂的数据，但我们可以通过多项测试对它们进行定义和传达。

为什么开源很适合这项任务？

开源方法和开源技术都有着极大的潜力改变算法偏见。

现代人工智能已经被开源软件占领，TensorFlow、IBM Watson 还有 scikit－learn 这类的程序包都是开源软件。开源社区已经证明它能够开发出强健的，经得住严酷测试的机器学习工具。同样的，我相信，开源社区也能开发出消除偏见的测试程序，并将其应用于这些软件中。

调试工具如哥伦比亚大学和理海大学推出的 DeepXplore，增强了 AI 应力测试的强度，同时提高了其操控性。还有麻省理工学院的计算机科学和人工智能实验室完成的项目，它开发出敏捷快速的样机研究软件，这些应该会被开源社区采纳。

开源技术也已经证明了其在审查和分类大组数据方面的能力。最明显的体现在开源工具在数据分析市场的占有率上（Weka、Rapid Miner 等等）。应当由开源社区来设计识别数据偏见的工具，已经在网上发布的大量训练数据组比如 Kaggle 也应当使用这种技术进行识别筛选。

开源方法本身十分适合消除偏见程序的设计。内部谈话、私人软件开发及非民主的决策制定引起了很多问题。开源社区能够进行软件公开的谈话，进行大众化，维持好与大众的关系，这对于处理以上问题是十分重要的。如果线上社团，组织和院校能够接受这些开源特质，那么由开源社区进行消除算法偏见的机器设计也会顺利很多。

我们怎样才能够参与其中？

教育是一个很重要的环节。我们身边有很多还没意识到算法偏见的人，但算法偏见在立法、社会公正、政策及更多领域产生的影响与他们息息相关。让这些人知道算法偏见是怎样形成的和它们带来的重要影响是很重要的，因为想要改变目前的局面，从我们自身做起是唯一的方法。

对于我们中间那些与人工智能一起工作的人来说，这种沟通尤其重要。不论是人工智能的研发者、警方或是科研人员，当他们为今后设计人工智能时，应当格外意识到现今这种偏见存在的危险性，很明显，想要消除人工智能中存在的偏见，就要从意识到偏见的存在开始。

最后，我们需要围绕 AI 伦理化建立并加强开源社区。不论是需要建立应力实验训练模型、软件工具，或是从千兆字节的训练数据中筛选，现在已经到了我们利用开源方法来应对数字化时代最大的威胁的时间了。

审核编辑：符乾江

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30947

浏览量
269205
机器学习

机器学习

+关注

关注
66

文章
8420

浏览量
132682
智能计算

智能计算

+关注

关注
0

文章
179

浏览量
16485

NPU与机器学习算法的关系

在人工智能领域，机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升，对计算资源

发表于 11-15 09:19 •470次阅读

嵌入式和人工智能究竟是什么关系?

与人工智能的结合，无疑是科技发展中的一场革命。在人工智能硬件加速中，嵌入式系统以其独特的优势和重要性，发挥着不可或缺的作用。通过深度学习和神

发表于 11-14 16:39

人工智能、机器学习和深度学习存在什么区别

人工智能指的是在某种程度上显示出类似人类智能的设备。AI有很多技术，但其中一个很大的子集是机器学习——让算法从数据中

发表于 10-24 17:22 •2493次阅读

<b class='flag-5'>人工智能</b>、<b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>存在什么区别

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

、优化等方面的应用有了更清晰的认识。特别是书中提到的基于大数据和机器学习的能源管理系统，通过实时监测和分析能源数据，实现了能源的高效利用和智能化管理。其次，第6章通过多个案例展示了人工智能

发表于 10-14 09:27

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

农业、环保等，为人类社会的可持续发展做出贡献。总结《AI for Science：人工智能驱动科学创新》第4章关于AI与生命科学的部分，为我们展示了一个充满希望和机遇的未来。在这个未来中，人工智能

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

人工智能在科学研究中的核心技术，包括机器学习、深度学习、神经网络等。这些技术构成了AI for Science的基石，使得AI能够处理和分析

发表于 10-14 09:16

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

人工智能：科学研究的加速器第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度学习等先进技术，AI能够处理和分析海量

发表于 10-14 09:12

risc-v在人工智能图像处理应用前景分析

与人工智能推荐系统中强大的图形处理器（GPU）一争高下。其独特的设计使得该处理器在功耗受限的条件下仍能实现高性能的图像处理任务。 Ceremorphic公司：该公司开发的分层学习处理器结合了

发表于 09-28 11:00

FPGA在人工智能中的应用有哪些？

FPGA（现场可编程门阵列）在人工智能领域的应用非常广泛，主要体现在以下几个方面：一、深度学习加速训练和推理过程加速：FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性

发表于 07-29 17:05

人工智能、机器学习和深度学习是什么

在科技日新月异的今天，人工智能（Artificial Intelligence, AI）、机器学习（Machine Learning, ML）和深度学习（Deep Learning,

发表于 07-03 18:22 •1308次阅读

机器学习算法原理详解

机器学习作为人工智能的一个重要分支，其目标是通过让计算机自动从数据中学习并改进其性能，而无需进行明确的编程。本文将深入解读几种常见的机器学习

发表于 07-02 11:25 •1082次阅读

5G智能物联网课程之Aidlux下人工智能开发（SC171开发套件V2）

://t.elecfans.com/v/27221.html *附件：初学者完整学习流程实现手写数字识别案例_V2-20240506.pdf 人工智能 语音对话机器人案例 26分03秒 https

发表于 05-10 16:46

机器学习怎么进入人工智能

，人工智能已成为一个热门领域，涉及到多个行业和领域，例如语音识别、机器翻译、图像识别等。在编程中进行人工智能的关键是使用机器学习

发表于 04-04 08:41 •334次阅读

5G智能物联网课程之Aidlux下人工智能开发（SC171开发套件V1）

*附件：初学者完整学习流程实现手写数字识别案例.pdf 人工智能 语音对话机器人案例 26分03秒 https://t.elecfans.com/v/27185.html *附件：语音对话机

发表于 04-01 10:40

嵌入式人工智能的就业方向有哪些?

联网ARM开发 NB-IoT开发及实战七：python工程师，人工智能工程师 python语法基础 python核心编程基于OpenCV的机器视觉开发嵌入式人工智能渗入生活的方方面面，广泛应用

发表于 02-26 10:17

搜索历史

人工智能和机器学习中暗含的算法偏见

评论

NPU与机器学习算法的关系

嵌入式和人工智能究竟是什么关系?

人工智能、机器学习和深度学习存在什么区别

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

risc-v在人工智能图像处理应用前景分析

FPGA在人工智能中的应用有哪些？

人工智能、机器学习和深度学习是什么

机器学习算法原理详解

5G智能物联网课程之Aidlux下人工智能开发（SC171开发套件V2）

机器学习怎么进入人工智能

5G智能物联网课程之Aidlux下人工智能开发（SC171开发套件V1）

嵌入式人工智能的就业方向有哪些?