人工智能在模仿人类的道路上,Get 到了一项精髓 —— 偷懒。
2018 年 4 月,OpenAI 公司举办了首届针对 AI 的强化学习竞赛。这场比赛让 AI 们来玩 NES 平台上的《刺猬索尼克》单机游戏。举办方希望 AI 能够在学习游戏技巧之后,能够拥有在其他地图上自觉找到最佳通关方法的能力,以此来评估强化算法的泛化能力。
结果 AI 好像对游戏有着一套自己的理解,它们绕过研究员预期的目标和设定,通过不断 “卡 Bug” 的方式找到了通关的 “捷径”。
谷歌 DeepMind AI 项目的研究人员维多利亚・克拉科夫纳(Victoria Krakovna)在其他游戏中也发现了这种现象。在《海岸赛艇》里,AI 操纵的船只为了获得更高分数,不断利用 Bug 来撞击奖励而忘了要抵达终点。甚至在玩《俄罗斯方块》这种小游戏时,AI 也找到了终极密码:只要游戏暂停就永不会输……
在最后,OpenAI 的强化学习竞赛虽然没有认可 “走捷径” 获胜的 AI,但研究人员还是认为:“AI 展示了它如何在没有人类介入的情况下赢得游戏胜利,出乎意料并极富有创造性,这可能完全颠覆人类对游戏如何运行的理解。”
AI 是如何学会走捷径的?
针对这一现象,北京大学王选计算机研究所和北京大学计算语言学教育部重点实验室的研究团队在 arXiv 上发表了研究论文《为什么机器阅读理解模型学会走捷径》 (Why Machine Reading Comprehension Models Learn Shortcuts)。
机器阅读理解(Machine Reading Comprehension, MRC)为自然语言处理(NLP)的核心任务之一,也是评价模型理解文本能力的重要指标,可以将其视为一种句子关系匹配任务。通常任务是让机器阅读给定的一篇文章并回答关于该文章的一个问题。其常见任务形式有四种:完形填空、多想选择、片段抽取和自由作答。
完形填空即将文章中的某些单词隐去,让模型根据上下文判断被隐去的单词最可能是哪个;多项选择是指让模型从多个备选答案中选择一个最有可能是正确答案的选项;片段抽取是让模型从文章中抽取连续的单词序列;自由作答则是让模型自主生成一个单词序列,使之作为问题的答案,与片段抽取任务不同,自由作答的序列并不局限于文章中给定的句子。
论文中提到,许多 MRC 模型绕过了常规的推理路径,通过 “走捷径” 给出了出人意料的答案。但这些答案往往无法真正解决问题,无法帮助人类达到预期目标。为了解决这一问题,该团队将关注点聚焦在为什么这些算法模型学会了 “走捷径”。
研究者认为,训练数据库中的大量 “捷径” 问题是导致模型过渡依赖 “偷懒行为” 的 “罪魁祸首”。
北大研究者设计了一个经过标注的全新数据集,在这个数据集中,每个问题都会有 “捷径式” 和 “挑战式” 两个版本的答案。他们还进一步提出了两种新的研究方法来量化分析在 “捷径模式” 和 “挑战模式” 下学习的难易程度,并试图揭示在这两种不同模式下的固有学习机制。
研究人员将能够 “释义”( Paraphrasing )作为更为复杂和高级的答案标准,将那些只有关键字提取而没有任何上下文理解和推理的答案定义为 “捷径” 版答案。
研究人员发现,在训练数据集中高占比的 “捷径模式” 数据使得模型更加依赖 “偷懒”,致使其之后的训练中无法提升更为复杂的推理技巧,阻碍了模型去学习 “释义” 过程由此解决更具挑战性的问题。文章表明,如果训练集中 “挑战版” 问题足够多的话,算法模型不但能吸收 “挑战版” 问题,同时还能正确回答 “捷径版” 的问题。
论文表示,在早期阶段,模型通常会用最简单的方法来拟合训练数据。“走捷径” 所消耗的资源最少,因此这种路径会成为优先选项。当模型发现 “偷懒” 可以解决大部分问题时,其余问题便无法再激励 AI 去探索更为复杂的解决方法。
研究者认为,导致 AI 习惯性偷懒的原因,除了 NLP 架构的设计问题之外,也有可能是训练过程中标准优化和资源保护的结果,此外,让 AI 在有限时间内迅速输出答案也会使给其造成 “压力”。
因此,人们可以通过修改 NLP 架构,让 AI 优先考虑更具挑战的数据和问题,并且再数据预处理领域也需要将数据中的 “捷径” 考虑进去。
原文标题:AI竟也学会偷懒?北大团队:数据集“走捷径”问题占比太高
文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。
责任编辑:haq
-
AI
+关注
关注
87文章
30072浏览量
268337 -
人工智能
+关注
关注
1791文章
46820浏览量
237460
原文标题:AI竟也学会偷懒?北大团队:数据集“走捷径”问题占比太高
文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论