了解如何在训练您的 AI 驱动系统时避免数据集、关联、自动化和其他类型的偏见。
科技行业对人工智能的使用越来越兴奋,因为它开辟了新的引人入胜的体验,并为企业家和最终用户带来了前所未有的效率。但是,如果您决定加入 AI 的竞争,请准备好顺其自然,因为除了带来红利之外,人工智能也往往会掀起波澜——偏见是最烦人的失误。
要成功构建公正的 AI 解决方案,您应该了解何时以及为何会出现偏见。在此功能中,我们将充实 AI 偏见的五个核心类别,对其进行分析将帮助您准备最佳数据集以训练您的潜在系统。
数据集偏差
传统观念认为,用于训练 AI 的数据越多,交付的解决方案就越公正。但实际上,重要的是多样性,而不是数量。算法本身可能没有偏差,如果您的数据过于同质,它可能会导致 AI 误入歧途:您的系统将从有缺陷的示例集中学习并输出有偏差的结果。
也就是说,没有提供不同种族和肤色的多样化数据的计算机视觉解决方案可能无法识别非裔美国人或亚洲人,从而导致无数客户不满意。
这正是尼康的 Coolpix S630 所发生的事情。每次数码相机拍下微笑的亚洲用户时,都会弹出一条屏幕消息,询问“有人眨眼了吗?” 只有当人们不自然地睁大眼睛摆姿势时,通知才会停止出现。这种情况导致客户以推特帖子的形式提出投诉,并进一步负面媒体报道。
如果您不想重复尼康的故事并被指责创建“种族主义”面部识别系统,请使用大规模、多样化的数据集来训练您的算法。
关联偏差
您应该注意的另一种偏差是关联偏差,当用于训练算法的数据被关于性别、种族等的刻板印象强化时,可能会出现关联偏差。
也就是说,用于预测犯罪的人工智能软件可能会导致不公平地针对少数族裔高度集中的社区。问题在于该系统更多地考虑了警方以前的记录,而不是该地区的实际犯罪率。考虑到警察倾向于在特定社区巡逻并专注于某些种族群体,他们的记录可能会过度代表这些群体和社区。
数据输入的偏差也可能是社区驱动的,因为警察数据库中的许多犯罪都是由公民报告的。
关联偏见的另一个例子是谷歌在 2015 年对“CEO”一词的搜索结果。根据 The Verge的数据,结果中显示的图像中只有 11% 描绘了女性——相比之下,真正的 27% 的女性 CEO美国。
为避免您的 AI 被有偏见的关联驱动,请为其提供非同质数据,并利用领域专家关于历史不平等以及文化和社会关注领域的知识。
自动化偏差
人工智能的另一个问题是它可能会做出自动决策,推翻人类的社会、文化和其他考虑。这通常发生在自动辅助工具上,例如进行无关的自动更正的拼写检查程序、倾向于男性化的机器翻译或“白色”表情符号自动提示。
自动化偏差 (AB) 的另一个例子是自动化电子处方的临床决策支持 (CDS) 系统,即定义药物-药物相互作用并排除不良事件。当临床医生过度依赖 CDS,降低数据收集和分析的警惕性时,就会出现问题。
正如NCBI 进行的一项研究指出的那样,“AB 遗漏错误,用户没有注意到问题,因为他们没有收到 CDS 的警告,而佣金错误,用户会遵守不正确的建议。”
AB 也经常出现在高科技驾驶舱的决策支持工具中,用于计算节油路线并诊断系统故障和异常。尽管这些自动辅助设备旨在提高飞行员的表现,但一些事后分析揭示了在航空中使用此类先进系统的问题,特别是模式误解和错误、飞行员对辅助设备在做什么的困惑,以及难以跟踪飞行表现。决策支持工具。
最重要的是,据报道,自动提示降低了飞行员以认知、复杂的方式寻求额外诊断信息和处理可用数据的可能性。
为避免可能出现的错误和伴随的不良事件,人工智能专家应扩大用于其自动化解决方案的信息抽样范围,决策者应显着减少此类工具的滥用。
交互偏差
一些 AI 系统通过与用户的交互进行批量数据训练。如果推动这种互动的用户有偏见,那么请确保您的解决方案也会如此。
算法如何偏离轨道的一个生动例子是微软的 Tay,这是一个 Twitter 聊天机器人,旨在通过“随意和有趣的对话”与人们互动。当用户开始发表带有厌恶女性、种族主义和唐纳德特朗普主义言论的攻击性推文时,事情就出了问题,这让机器人鹦鹉向他们学习并以类似的方式做出回应。
结果,在不到 24 小时内,Tay 从“人类超级酷”变成了彻头彻尾的反犹太主义:
Facebook 是另一家定期未能保护其人工智能免受毒性影响的科技巨头。今年春天,社交网络对短语“video of”给出了明确的搜索预测。几个月后,该公司允许用户使用“犹太人仇恨者”和“希特勒没有做错什么”等搜索词组阻碍其支持人工智能的广告平台,随后为“学习”和“职位”类别提供有偏见的自动建议。
如果您的算法的构建方式与上述算法相同,那么您将无法幸免于惨败。避免在您的脸上留下鸡蛋并解决交互偏见的一种方法是及时测试您的系统。
确认偏差
与交互偏差一样,确认偏差也与用户活动交织在一起。问题在于,这种扭曲的 AI 算法会根据其他人的选择(阅读、喜欢、点击、评论等)提供内容,并排除做出不太受欢迎的选择的用户的结果。这导致过于简单的个性化,缺乏多样化的想法或替代方案。
也就是说,Facebook 的新闻提要在此原则下工作,极大地考虑了您的社交朋友的喜欢和分享。反过来,虽然信息流是个性化的,但你会发现自己置身于可能与你自己的信念相冲突的“偏见泡沫”中,或者“隐藏”一系列对立的观点。
LinkedIn 是另一个社交媒体平台,它发现向其成员提供由他们的联系人共享、喜欢或评论的更新更相关——而不是其他方式。
考虑到这一点,在构建您自己的 AI 系统时,请确保它能够随着您的用户及其偏好随时间的变化而动态发展。
结论
人工智能偏见已经成为一个经常被讲述的故事。但正如我们发现的那样,人工智能算法的本质可能并没有偏见,而正是他们所学的数据导致了令人尴尬的、令人反感的结果。但是,当您从一开始就认识到并理解数据集中可能存在的偏见时,就可以更轻松地针对有偏见的刻板印象关联测试系统并创造更具包容性的体验,同时平等地为每个人服务。
审核编辑 黄昊宇
-
AI
+关注
关注
87文章
29928浏览量
268242 -
数据库
+关注
关注
7文章
3754浏览量
64255 -
人工智能
+关注
关注
1791文章
46738浏览量
237315
发布评论请先 登录
相关推荐
评论