人工智能的学习总是需要大量数据的“喂养”。可是这数据要喂多少才是个头呢?有没有什么办法能在少喂数据的同时,不影响AI的学习能力呢?或者直接把一些学习法则交给AI,让它们举一反三?谷歌和亚马逊的研究人员近来就在琢磨这件事。
谷歌AI:背着有限的数据去探索新环境
来自卡耐基梅隆大学、谷歌和斯坦福大学的研究人员近日在一篇论文中写道,他们开发出了一种“弱监督”的人工智能训练框架。该模型会给机器人大量有限的、不精确的、或者是有噪声的数据,让它们通过数据学习,更好地探索一些极具挑战性的环境。值得一提的是,研究人员“喂”给机器人的数据其实并不“完整”,机器人所得到的只是与它们所处的周围环境直接相关的数据。然而出人意料的是,这套相对较少的数据反而提升了机器人操作任务的训练效率。
这个名叫“弱监督控制”(Weakly-Supervised Control,后文简称为WSC)的框架可以对语料库进行学习;在学习过程中,智能代理(intelligent agents)可以生成自己的目标并执行探索任务。
从形式上看,该框架整合了“强化学习机制”(一种通过奖励来激励完成目标的训练形式)。但不同的是,传统的强化学习需要研究人员手动设计奖励,智能代理获取奖励的计算成本很高;与之相比,WSC构建的这种弱监督学习机制是一种能随着智能代理数据收集的进度而自行伸缩扩展的监督方式。换句话说,该模型给代理们提出的奖励目标是基于它们的学习能力和进度的。这样不仅有利于智能代理的学习,对于研究人员来说,他们也不必在智能代理的强化学习循环中不断增加新标签了。
译者注:在人工智能领域,智能代理/智能主体指的是一个能够观察周遭环境并为实现具体目标而付出一系列行动的自主实体。它通常是以软件程序的形式出现的。
在实验中,研究人员试图确定弱监督机制对学习一个解缠表现(disentangled state representation)是否足够必要。他们给几个模型布置了不同复杂度、基于视觉、以目标为条件的模拟操作任务。在一个环境中,智能代理的任务是将特定的对象移动到目标位置;而在另一个环境中,代理必须打开一扇门,并让门开的角度符合任务要求。
论文作者表示,WSC比此前最先进的目标导向式强化学习机制的学习速度还要快。特别是当研究人员不断提升智能代理所处环境复杂性的时候,这种学习速度上的优势表现的格外明显。另外,研究人员还指出,对比智能代理的预设目标和其达成目标后的最终形态,WSC的智能代理呈现出了更高的一致性。这表明,代理们通过该机制学到的是可释性更强的目标达成策略。
不过研究人员也承认,WSC并非没有局限性。它需要使用者给智能代理们标出各种与下游任务直接相关的各种要素,这就对使用者的专业知识提出了较高要求。此外,专家们还指出,他们目前的实验都是在预训练阶段完成的,这个阶段生成的内容其实并不一定来自代理们与机制中的新要素所产生的互动结果。基于此,他们下一步的工作就是要细致研究弱监督机制的其他形式,看看它们能否给智能代理们提供新的有益信息。
“目前在实验中的复杂环境里,WSC已经呈现出了令人欣喜的成果。我们有理由相信,未来若能给真实环境下的机器人也应用这种机制,效果会更为喜人。”论文的合著者们写道,“简言之,我们相信,这个新框架提供了一个监督通用目标学习机制在复杂环境下进行应用实践的新视角。”
亚马逊AI:用元学习机制来学会“举一反三”
从上面的技术原理来看,谷歌的专家们有点像商人,他们的经营思路是要在降低成本的同时,不影响产品(也就是AI的学习能力)的质量和性能。与之相比,亚马逊的研究人员更像是个老师,他们致力于“授人以渔”,让AI学会举一反三的能力。
在即将到来的ICLR上,亚马逊的研究人员将提交一份关于元学习任务(meta-learning tasks)如何大幅提升AI学习能力的论文。
所谓元学习任务,即是一种能让AI在完成相关目标的同时,还能引导其学会如何更好的进行学习的任务模式。亚马逊的研究者声称,他们研发的这种任务模式资源消耗很小:只需少数几个标签训练模板就能让AI“举一反三”,完成好一个个新任务。
在传统的机器学习过程中,模型先是吸纳一系列标记数据(支持集,support set),学习如何把标记数据与特征标签(labels)关联起来;而后,研究人员再喂给模型一些测试数据(测试集,query set),看看它能否根据此前学到的特征标签来厘清这些新数据。
与此种方式相反,在元学习机制下,AI模型要同时运用自身训练数据和研究人员给出的测试数据集来完成任务。在此过程中,模型还可以对两套数据进行比对。这样一来,AI在完成任务的同时,也能看得到自身对训练数据的反应是如何影响其在测试数据上的表现的。
而在第二阶段,也就是所谓的元测试阶段(meta testing),模型要完成的测试任务与自己此前做的元学习任务有明显的关联,却又并不完全相同。和之前的方法相似,在执行每个新任务的过程中,模型还是能同时看到训练数据与测试数据,但这一次,特征标签都是未知的,AI必须通过此前的学习与自己得到的数据来进行判断,正确找出数据与标签的关联性。
在元训练过程中,研究人员所采用的技术并不需要学习一个完整的全局模型。他们的做法是训练一个辅助模型,再通过它为每一个任务生成本地模型,并同时确定其所对应的支持集。
在完成上述工作后,他们又准备了一个辅助网络,目的是充分利用测试集里的未标记数据。这样到了元测试阶段,研究人员就可以用测试集来对前文提到的本地模型进行微调了。
按照该团队的说法,他们的系统通过一次任务学习就达到了16基线(baselines)。更具体的说,其所应用的新机制提高了AI从一个标记的示例出发,去学习一个新对象分类任务的性能。根据底层AI模型体系结构的不同,这种提升幅度在11%和16%之间。
关于这项技术,Alexa Shopping 应用科学家巴勃罗·加西亚(Pablo Garcia)还在一篇博客中进行了介绍:
“过去10年,深度学习系统已经在很多人工智能任务中取得了非同凡响的巨大成功。但在具体应用层面,其发挥空间一直比较有限。元学习机制有望让机器学习系统训练成‘多面手’……该机制的主体思路是让系统能通过少量标签训练示例就能完成一个个新任务。很明显,如果进展顺利,元学习将大幅缩减劳动密集型数据注释工作的需求。”
-
谷歌
+关注
关注
27文章
6161浏览量
105303 -
AI
+关注
关注
87文章
30728浏览量
268887 -
亚马逊
+关注
关注
8文章
2650浏览量
83319
发布评论请先 登录
相关推荐
评论