0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智源论坛第4期——《知识与认知图谱》在清华大学顺利举办

DPVg_AI_era 来源:lq 2019-06-07 16:30 次阅读

5月30日,由北京智源人工智能研究院主办的智源论坛第4期——《知识与认知图谱》在清华大学顺利举办。清华大学计算机系长聘副教授刘洋针对基于神经网络深度学习的机器翻译面临三大挑战,即知识整合、可解释/可视化和鲁棒性。并针对上述三大挑战做了团队最新研究与突破工作介绍。

因为人类的语言不通,《圣经》故事中的“巴别塔”没能建成,以失败告终。如何打破人类语言之间的屏障,也成为了人类一直希望解决的问题。

世界语言分布地图(来源:维基百科)

地址:

https://en.wikipedia.org/wiki/Linguistic_map

目前,世界上大概有6000多种语言,其中3000多种语言是具有数学体系的。正如上图所示,可以看到不同国家、不同地区所说的语言是大不相同的。不同语言之间的交流存在非常多的问题,这些问题就是我们通常所说的“语言屏障”。

机器翻译就是用来解决语言屏障问题非常关键的技术。

机器翻译的概念已经存在了几个世纪,但直到20世纪50年代初才开始成为现实。从那以后,机器翻译已经取得了巨大的进步。

机器翻译的主要任务就是把一种语言自动翻译成另外一种语言,看上去就像是函数映射问题。但是其难点就在于语言本身的复杂性和种类的多样性。

世界上的语言按形态分类可分为:屈折语、黏着语和孤立语。如何将这些语言进行转换是机器翻译要解决的重要问题(三种语言形态详细内容见文末)。

1990年以后,特别是互联网出现以后,人们得到了大量的可读文本、机读文本,所以更倾向于使用数据进行机器翻译。这段时期分两个阶段:

第一阶段是使用传统统计方法来(从1990年到2013年),需要且依赖于人写特征;

第二种阶段是采用深度学习方法(从2013年至今)。这一阶段不需要人写特征就写规则,再后来只需要写框架即可。

越往后发展,人类参与程度越精炼。现在主流方法是数据驱动的方法。

到了2016年,机器翻译在商业界基本采用都采用了机器学习。其核心思想就是用一个非常复杂的核心网络,做非线性函数,把源语言投射到目标语言。所以怎么设计这样的一个函数,便成了是非常关键的问题。

5月30日,由北京智源人工智能研究院主办的智源论坛第4期——《知识与认知图谱》在清华大学顺利举办。

清华大学计算机系长聘副教授、博士生导师 刘洋

会中,清华大学计算机系长聘副教授、博士生导师、智能技术与系统实验室主任刘洋老师做了《基于深度学习的机器翻译》精彩报告。

针对上述机器翻译现状,刘洋老师认为,这种基于神经网络、深度学习的方法面临三个挑战:

第一是知识整合(Knowledge incorporation)。如何将先验知识整合到神经机器翻译(NMT)中?

第二是解释性。如何解释和理解NMT?

第三是鲁棒性。如何使NMT对噪声具有鲁棒性?

对此,刘洋老师分别从上述三方面介绍了其研究重点与突破。

机器翻译三大挑战:知识整合

如何将知识加入到一些应用系统中是非常热门的一个话题

刘洋老师表示,数据、知识和模型对于整个人工智能是非常要的,研究人员建立一个数学模型,从数据中学习参数,也是某种程度上只是的表示,用同样的模型解决现实的问题。

而有的时候数据量是不够的,例如爱斯基摩语和维语,几乎是没有数据可言。像这样冷门小领域语言的翻译,由于数据的稀缺,翻译任务会变得非常棘手。因此可以考虑往里面加入知识。

虽然神经机器翻译近年来取得了很大的进展,但是如何将多个重叠的、任意先验的知识资源整合起来仍然是一个挑战。针对这个问题,刘洋老师及其团队展开了研究。

arXiv地址:

https://arxiv.org/pdf/1811.01100.pdf

在这项工作中,建议使用后验正则化来提供一个将先验知识整合到神经机器翻译中的通用框架。将先验知识来源表示为一个对数线性模型的特征,该模型指导神经翻译模型的学习过程。汉英翻译实验表明,该方法取得了显著的改进。

刘洋老师表示,希望能够提供一种通用的框架,所有的知识都能往里加。因此这项工作把人类的知识表示成一个空间这是一个符号空间。

然后把深度学习的数字表示另外一个空间,尝试把这两个空间关联起来,再通过人类的知识主导这个知识,把传统知识都压缩里面,让它知道深度学习的过程,就能够提供更好的通用框架。

在这项工作中,使用以下特性来编码知识源。

双语词典(bilingual dictionary):

词表(phrase table):

coverage penalty:

长度比(length ratio):

这项工作与RNNsearch、CPR和PostReg做了比较,性能对比结果如下:

与RNNsearch、CPR和PostReg的比较

机器翻译三大挑战:可解释/可视化

第二个问题就是可解释或者可视化的问题。

目前,在机器翻译领域,神经机器翻译因为其较好的性能,已经取代统计机器翻译,成为实际上的主流方法。

大多数的神经机器翻译都是基于attention机制的encoder-decoder模型,然而这种模型在内部传递的是浮点数,类似于“黑箱”,难以理解和调试。

模型如“黑箱”,难以理解和调试

当输入一个句子和输出一个句子时,并不知道其生成过程;当出现错误时,也不知道是什么原因导致的。

所以研究人员迫切希望能够打开这个黑盒子,知道内部信息怎么传递的,到底什么原因形成这样一个错误。

针对这个问题,刘洋老师及其团队针对这个问题进行了相应工作。

论文地址:

https://aclweb.org/anthology/P17-1106

这项工作主要的贡献包括:

利用层级相关性传播算法可视化分析神经机器翻译;

能够计算任意隐状态和任意contextual words的相关性,同时不要求神经网络中的函数必须可求偏导,不同于之前只有encoder和decoder隐层之间的对应信息;

能够针对机器翻译中出错的例子,进行分析。

最近关于解释和可视化神经模型的工作集中在计算输入层上的单元对输出层的最终决策的贡献。 例如,在图像分类中,理解单个像素对分类器预测的贡献是重要的。

而在这项工作中,团队感兴趣的是计算源和目标词对基于注意力的encoder-decoder框架中的内部信息的贡献。

如下图所示,第三个目标词“York”的生成取决于源上下文(即源句“zai niuyue ”)和目标上下文(即部分翻译“in New”)。

从直观上看,源词“niuyue”和目标词“New”与“York”的关联性更强,应该比其他词获得更高的关联性。问题是如何量化和可视化隐藏状态和上下文词向量之间的相关性。

研究人员使用逐层相关传播(layer-wise relevance propagation,LRP)来计算神经元水平相关性。 使用下图所示的简单前馈网络来说明LRP的核心思想。

如果要计算 v1和u1之间的相关性,首先计算v1 和z1、z2之间的相关性,再将 v1和z1、 z2的相关性传递到u1,从而求得v1和u1之间的相关性。

对神经机器翻译的LRP算法

通过这样一种技术,能够对于机器翻译中所有的模型都进行可视化的分析。

刘洋老师表示,LRP能够为Transformer生成相关矩阵。它本身是没有办法进行分析的,用了这个技术就可以把输入、输出以及内部的关联性用可视化的方式呈现出来,这样可以更好分析运作机制。

团队用在机器翻译的错误分析上,分析了漏词、重复翻译、形成无关词,还有否定的反转。

分析翻译错误:词的省略。第6个源词“zhong”没有被正确翻译。

分析翻译错误:单词重复。目标词“history”在翻译中两次出现错误。

分析翻译错误:不相关的词。第9个目标词“forge”与源句完全无关。

分析翻译错误:否定。第8个否定词“bu”(not)不翻译。

机器翻译三大挑战:鲁棒性

第三个问题就是鲁棒性。

有这样一个例子,假设有一段译文,输入的是“《中国电子银行业务管理新规》将于3月1日起施行”,若是一不小心把“中国”敲成“中方”,后面所有的译文发生变化,刘洋老师称之为蝴蝶效应。

这就是现在存在的一个较为现实的问题:输入中的小扰动会严重扭曲中间表示,从而影响神经机器翻译(NMT)模型的翻译质量。

这是因为深度学习是一种全局关联的模型,只要有一点点变化,就会牵一发而动全身,而这是非常糟糕的。

为了解决这个问题,刘洋老师团队就针对此问题展开了研究。

arXiv地址:

https://arxiv.org/pdf/1805.06130.pdf

在这项研究中,研究人员提出了通过对抗性稳定性训练来提高NMT模型的鲁棒性。

其基本思想是使NMT模型中的编码器和解码器对输入扰动都具有鲁棒性,使它们对原始输入及其受扰动的对应项具有类似的行为。

在这项工作中提出了两种合成噪声的产生方法。

Lexical level:

feature level:

在给定一个源字的情况下,它在向量空间中的邻居可以选择为一个有噪声的字。

损失函数的影响以及主要的实验结果如下:

最后,刘洋老师给提供了针对神经机器翻译的开源工具包,有兴趣的读者可以访问下方链接进行实验:

开源工具包地址:

http://thumt.thunlp.org/

附:三种语言形态详细内容

孤立语以中文为代表,它由各自独立且具有完整意义的单词,通过单纯的叠加构成文句。

黏着语以乌拉尔阿尔泰语系为中心,通过用助词、助动词将独立的单词连接起来,完成整个文章的陈述。

屈折语指的是欧洲语系,单词本身随着人称、时态、格等发生复杂的形态变化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4773

    浏览量

    100877
  • 机器翻译
    +关注

    关注

    0

    文章

    139

    浏览量

    14910
  • 深度学习
    +关注

    关注

    73

    文章

    5506

    浏览量

    121259

原文标题:清华刘洋《基于深度学习的机器翻译》,突破知识整合、可解释和鲁棒性三大难关

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    OpenHarmony城市技术论坛12——合肥站圆满举办

    2024年12月23日,OpenHarmony城市技术论坛(以下简称“技术论坛”)12——合肥站于中国科学技术大学高新校区圆满
    的头像 发表于 12-26 09:14 228次阅读
    OpenHarmony城市技术<b class='flag-5'>论坛</b><b class='flag-5'>第</b>12<b class='flag-5'>期</b>——合肥站圆满<b class='flag-5'>举办</b>

    清华大学师生到访智行者科技交流学习

    近日,清华大学 “技术创新原理与实践” 研究生课程师生一行到访智行者进行交流学习。作为课程实践环节的重要一站,此次来访开启了一场深度的参观学习之旅。智行者董事长&CEO张德兆先生作为清华校友同时也是技术创业者,与到访师生进行了面对面的深入交流,共同探讨创业过程中的关键问题
    的头像 发表于 12-23 11:39 360次阅读

    博世与清华大学续签人工智能研究合作协议

    近日,博世与清华大学宣布,双方续签人工智能领域的研究合作协议,为期五年。在此期间,博世将投入5000万元人民币。基于2020年成立的清华大学—博世机器学习联合研究中心(以下简称“联合研究中心”),博世和清华大学将进一步深化合作,
    的头像 发表于 11-20 11:37 357次阅读

    京微齐力受邀参加2024年清华大学工程博士论坛

    此前,2024年清华大学国家卓越工程师学院工程博士论坛北京亦庄(北京经济技术开发区)举办。本届论坛以“清亦融创、新质引领”为主题,来自集成
    的头像 发表于 11-06 10:17 416次阅读

    英诺达与清华大学携手,共促国产EDA进步

    10月30日,英诺达官方微信发布消息称,英诺达与清华大学近期展开合作,共同深化产学研融合。此次合作聚焦于集成电路低功耗设计领域,英诺达团队走进清华大学集成电路学院,为师生们带来了专题授课及深入交流。
    的头像 发表于 10-31 14:15 518次阅读

    清华新力量,沪上芯征程!清华大学上海校友会半导体专委会2024思瑞浦迎新日

    聚焦高性能模拟芯片2024年10月,清华大学上海校友会半导体专业委员会联合思瑞浦共同举办2024年来沪清华校友迎新活动。金秋时节,新一批清华人离开
    的头像 发表于 10-31 08:09 330次阅读
    <b class='flag-5'>清华</b>新力量,沪上芯征程!<b class='flag-5'>清华大学</b>上海校友会半导体专委会2024思瑞浦迎新日

    热烈欢迎清华大学电子工程系学子来武汉六博光电交流实践!

    近日,武汉六博光电技术有限责任公司接到清华大学函件,正式成为清华大学电子工程系武汉实践基地之一。2024年8月1日上午,清华大学电子工程系实践团队一行共计13名学子前往武汉六博光电有限责任公司交流
    的头像 发表于 08-02 08:37 523次阅读
    热烈欢迎<b class='flag-5'>清华大学</b>电子工程系学子来武汉六博光电交流实践!

    清华大学创新领军工程博士团访问摩尔线程

    5月19日,“清华大学创新领军工程博士代表团走进摩尔线程”活动顺利举办。近五十位来自集成电路、能源、航天、通信等重要领域的清华大学工程博士参加了本次活动。
    的头像 发表于 05-20 15:28 453次阅读

    清华大学创新领军工程博士代表团到访摩尔线程,深化产学合作

    5月19日,“清华大学创新领军工程博士代表团走进摩尔线程”活动成功举行。此次活动聚集了五十多位来自集成电路、能源、航天、通信等重要行业的清华大学创新领军工程博士。
    的头像 发表于 05-20 09:21 542次阅读
    <b class='flag-5'>清华大学</b>创新领军工程博士代表团到访摩尔线程,深化产学合作

    苹芯科技杨越出席AI大模型生态发展论坛,探讨人工智能技术发展

    4月19日,由清华大学校友会等联合主办的清华大学上海校友会AI大模型生态发展论坛成功举办。苹芯科技CEO杨越博士受邀参加AI大模型生态发展
    的头像 发表于 04-23 14:26 693次阅读

    OpenHarmony城市技术论坛8——厦门站圆满举办

    2024年4月20日上午,OpenHarmony城市技术论坛(以下简称“技术论坛”)8——厦门站于厦门
    的头像 发表于 04-21 08:40 471次阅读
    OpenHarmony城市技术<b class='flag-5'>论坛</b><b class='flag-5'>第</b>8<b class='flag-5'>期</b>——厦门站圆满<b class='flag-5'>举办</b>

    清华大学研发成功大规模干涉-衍射异构集成芯片——太极

    4月12日公布,清华大学研发出太极芯片,实现了每瓦160TOPS的高性能通用智能计算,这是该校电子工程系与自动化系共同攻克的难题。
    的头像 发表于 04-12 15:50 463次阅读

    清华大学电子鼻传感器仿生嗅闻方向取得新进展

    近日,清华大学机械系电子鼻仿生嗅闻研究中取得新进展,相关研究成果以“Sniffing Like a Wine Taster: Multiple Overlapping Sniffs (MOSS
    的头像 发表于 02-20 10:57 1046次阅读
    <b class='flag-5'>清华大学</b><b class='flag-5'>在</b>电子鼻传感器仿生嗅闻方向取得新进展

    突破!清华大学电子鼻传感器仿生嗅闻方向取得新进展

    近日,清华大学机械系电子鼻仿生嗅闻研究中取得新进展,相关研究成果以“Sniffing Like a Wine Taster: Multiple Overlapping Sniffs (MOSS
    的头像 发表于 02-20 08:36 382次阅读
    突破!<b class='flag-5'>清华大学</b><b class='flag-5'>在</b>电子鼻传感器仿生嗅闻方向取得新进展

    清华大学智芯华玺研发全球首颗零知识证明SOC芯片助力数字经济 

    另据最新消息,致力于知识成果转化的清华大学交叉信息研究院创新载体——深圳市智芯华玺信息技术有限公司(Accseal Ltd.)发布了全球首枚零知识证明(Zero Knowledge Proof, ZKP)片上系统(System
    的头像 发表于 02-01 15:39 5569次阅读