一文了解百度被收录ACL 2019的10篇论文-电子发烧友网

近日，自然语言处理（NLP）领域的国际顶级学术会议“国际计算语言学协会年会”（ACL 2019）公布了今年大会论文录用结果。根据 ACL 2019 官方数据，今年大会的有效投稿数量达到 2694 篇，相比去年的 1544 篇增长高达 75%。其中，百度共有 10 篇论文被大会收录。

国际计算语言学协会（ACL，The Association for Computational Linguistics）成立于 1962 年，是自然语言处理领域影响力最大、最具活力的国际学术组织之一，自成立之日起就致力于推动计算语言学及自然语言处理相关研究的发展和国际学术交流。百度高级副总裁、AI 技术平台体系 (AIG) 和基础技术体系（TG）总负责人王海峰曾于 2013 年出任 ACL 主席，是 ACL 五十多年历史上首位华人主席，也是 ACL 亚太分会（AACL）的创始主席，ACL 会士。研究论文能够被 ACL 学术年会录用，意味着研究成果得到了国际学术界的认可。

百度被录用的 10 篇论文，覆盖了信息抽取、机器阅读理解、对话系统、视频语义理解、机器翻译等诸多 NLP 领域的热点和前沿研究方向，提出了包括基于注意力正则化的 ARNOR 框架（Attention Regularization based NOise Reduction）、语言表示与知识表示深度融合的 KT-NET 模型、多粒度跨模态注意力机制、基于端到端深度强化学习的共指解析方法等，在人机交互、智能客服、视频理解、机器翻译等场景中具有很大的应用价值。

附：百度被收录 ACL 2019 论文概览

ARNOR: Attention Regularization based Noise Reduction for Distant Supervision Relation Classification

摘要：远监督通过知识库自动获取标注语料，是关系抽取的关键算法。但是远监督通常会引入大量噪声数据，即句子并未表达自动标注的关系。进一步说，基于远监督学习的模型效果不佳、解释性差，无法解释关系的指示词。

为此，我们提出基于注意力正则化的 ARNOR 框架（Attention Regularization based NOise Reduction）。此方法通过注意力机制，要求模型能够关注关系的指示词，进而识别噪声数据，并通过 bootstrap 方法逐步选择出高质量的标注数据，改善模型效果。此方法在关系分类及降噪上均显著优于此前最好的增强学习算法。

应用价值：在文本信息抽取有广泛的应用价值。此方法能够显著降低对标注数据的依赖，实现低成本的基于知识库的自动关系学习，未来可落地在医疗、金融等行业信息抽取中。

Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension

摘要：机器阅读理解 (Machine Reading Comprehension) 是指让机器阅读文本，然后回答和阅读内容相关的问题。该技术可以使机器具备从文本数据中获取知识并回答问题的能力，是构建通用人工智能的关键技术之一，长期以来受到学术界和工业界的广泛关注。近两年，预训练语言表示模型在机器阅读理解任务上取得了突破性进展。通过在海量无标注文本数据上预训练足够深的网络结构，当前最先进的语言表示模型能够捕捉复杂的语言现象，更好地理解语言、回答问题。然而，正如大家所熟知的，真正意义上的阅读理解不仅要求机器具备语言理解的能力，还要求机器具备知识以支撑复杂的推理。为此，在论文《Enhancing Pre-trained Language Representations with Rich Knowledge for Machine Reading Comprehension》中，百度开创性地提出了语言表示与知识表示的深度融合模型 KT-NET，希望同时借助语言和知识的力量进一步提升机器阅读理解的效果。

KT-NET 的模型架构如下图所示。首先，针对给定的阅读内容和结构化知识图谱，分别利用语言表示模型和知识表示模型对两者进行编码，得到相应的文本表示和知识表示。接下来，利用注意力机制从知识图谱中自动筛选并整合与阅读内容高度相关的知识。最后，通过双层自注意力匹配，实现文本表示和知识表示的深度融合，提升答案边界预测的准确性。截止到发稿日，KT-NET 仍然是常识推理阅读理解数据集 ReCoRD 榜单上排名第一的模型，并在此前很长一段时期内都是 SQuAD 1.1 榜单上效果最好的单模型。

KT-NET: 语言表示与知识表示的深度融合模型

应用价值：该项技术可应用于搜索问答、智能音箱等产品中，直接精准定位用户输入问题的答案，并在搜索结果首条显著位置呈现或通过语音播报呈现给用户。

Know More about Each Other: Evolving Dialogue Strategy via Compound Assessment

摘要：现有的基于监督学习的对话系统，缺乏对多轮回复方向的控制和规划，通常导致对话中发生重复、发散等问题，使得用户的交互体验偏差。在本文中，我们对多轮对话进行了复合评估 (compound assessment)，并基于该评估利用强化学习优化两个自对话 (self-play) 的机器人，促进生成过程中较好地控制多轮对话的方向。考虑到对话的一个主要动机是进行有效的信息交换，针对 Persona Chat 问题（两个人相互对话聊兴趣爱好），我们设计了一个较为完善的评估系统，包括对话的信息量和连贯度两个主要方面。我们利用复合评估作为 reward，基于策略梯度算法 (policy gradient)，指导优化两个同构的对话生成机器人之间的对话策略 (dialogue strategy)。该对话策略通过控制知识的选择来主导对话的流向。我们公开数据集上进行了全面的实验，结果验证了我们提出的方法生成的多轮对话质量，显著超过其他最优方法。

应用价值：可应用于对话系统、智能客服。

Proactive Human-Machine Conversation with Explicit Conversation Goal

摘要：目前的人机对话还处于初级水平，机器大多是被动对话，无法像人类一样进行充分交互。我们提出了基于知识图谱的主动对话任务，让机器像人类一样主动和用户进行对话。对话过程中，机器根据知识图谱主动引领对话进程完成提前设定的话题 (实体) 转移目标，并保持对话的自然和流畅性。为此，我们在电影和娱乐任务领域人工标注 3 万组共 27 万个句子的主动对话语料，并实现了生成和检索的两个主动对话基线模型。

应用价值：可应用于智能音箱中的对话技能，也可以基于此开发闲聊技能，让机器主动发起基于知识图谱的聊天。

Multi-grained Attention with Object-level Grounding for Visual Question Answering

摘要：视觉问答 (VQA) 是一类跨模态信息理解任务，要求系统理解视觉图片信息，并回答围绕图片内容的文本问题。这篇文章提出一种多粒度跨模态注意力机制，在图片 - 句子粒度注意力的基础上，提出更细粒度的物体级别跨模态信息注意力机制，并给出 2 种有效的细粒度信息理解增强的方法。实验表明我们的方法有助于对复杂图像和细小物体的识别，使系统更准确地定位到回答文本问题所依赖的视觉信息，从而显著提升 VQA 准确率。

应用价值：可应用于基于多模态信息和知识图谱的小视频内容理解项目。

Hubless Nearest Neighbor Search for Bilingual Lexicon Induction

摘要：这项基础研究提出了一种提高最近邻搜索的方法。该方法有非常漂亮的理论基础，不仅能显著提升双语词典编纂（Bilingual Lexicon Induction）的准确率，对涉及最近邻搜索的很多任务都有指导意义。

应用价值：机器翻译需要大量对齐的双语文本作为训练数据。这一要求在某些情况下不能被满足，比如小语种文本，专业文献。双语词典编纂在这种情况下能提升翻译系统的准确率。

STACL: Simultaneous Translation with Implicit Anticipation and Controllable Latency

摘要：同声翻译是人工智能领域公认的最难问题之一，已经困扰学术界和工业界几十年了。我们提出了历史上第一个超前预测和可控延迟的同声翻译算法。去年 10 月发布以来，被各大技术外媒广泛报导，包括 MIT 技术评论、IEEE Spectrum、财富杂志等。量子位总结报道：“这是 2016 年百度 Deep Speech 2 发布以来，又一项让技术外媒们如此激动的新进展。”

应用价值：2018 年 11 月的百度世界大会采用了这项同传技术，全程同传翻译了 Robin 所有演讲，延迟仅为 3 秒左右，而之前的整句翻译技术延迟为一整句（可达 10 秒以上）。同时，翻译质量也没有明显的下降。

Simultaneous Translation with Flexible Policy via Restricted Imitation Learning

摘要：本文旨在提高同声翻译的质量。我们去年提出的 STACL 框架（即上述文章 7）虽然简单有效，但有时不够灵活。现在我们提出一种基于模仿学习的同声翻译算法，通过模仿本文设计的动态策略，该模型可以实时灵活地决定是否需要等待更多信息来继续翻译，进而在保持低延迟的情况下提高了翻译质量。

应用价值：该技术可用于同声传译系统。

Robust Neural Machine Translation with Joint Textual and Phonetic Embedding

摘要：该文章旨在提高翻译的鲁棒性，特别是对同音词噪音的鲁棒性。我们在翻译的输入端，通过联合嵌入的方式，加入输入单词对应的发音信息。实验结果表明，该方法不仅大大提高了翻译系统在噪声情况下的鲁棒性，也大幅提高了翻译系统在非噪声情况下的性能。

应用价值：可用于翻译，特别是语音到语音的同声传译系统。语音翻译的一个主要难题是语音识别的错误太多，而这些错误大多是同音词或发音相似的单词，此技术可以很大程度上降低这些来自于语音识别的噪音。

End-to-end Deep Reinforcement Learning Based Coreference Resolution

摘要：共指解析是信息抽取任务中不可或缺的组成部分。近期的基于端到端深度神经网络的方法，往往通过优化启发式的损失函数并做出一系列局部解析决策，缺乏对整个篇章的理解。本文首次提出了基于端到端深度强化学习的共指解析方法，在同一框架内完成指称检测和指称链接，并且直接优化共指解析的评价指标，在 OntoNotes 上取得了良好效果。

应用价值：知可用于识图谱构建，信息抽取。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

百度

百度

+关注

关注
9

文章
2277

浏览量
90615
论文

论文

+关注

关注
1

文章
103

浏览量
14972
ACL

ACL

+关注

关注
0

文章
61

浏览量
11999

原文标题：史上最大规模ACL大会放榜，百度10篇NLP论文被录用！

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

百度百科启动“繁星计划”

百度搜索的强大流量，为百度百科注入新的活力与动能。据悉，“繁星计划”预计覆盖超过10万名权威专家，并将涵盖超过100万的知识内容，旨在通过科技的力量，让知识的传播更加广泛、深入。这

发表于 12-31 10:26 •175次阅读

百度文心智能体平台荣登中国互联网创新发展典型案例

技术能力和百度生态的亿级分发优势，为开发者提供了从创意到商业化的全方位支持。截至2024年11月，该平台已经吸引了15万家企业和80万名开发者入驻，形成了一个庞大且活跃的创新生态。值得一提的是，在

发表于 11-22 11:28 •509次阅读

百度文心大模型日均调用量超15亿

近日，百度在上海世博中心举办了主题为“应用来了”的百度世界2024大会。会上，百度董事长李彦宏分享了关于大模型行业的最新动态和百度文心大模型

发表于 11-12 15:28 •340次阅读

李彦宏宣布：百度文心大模型日调用量超15亿

在百度世界2024大会上，百度公司创始人李彦宏宣布了一项令人瞩目的数据：百度文心大模型的日调用量已经超过15亿次。这

发表于 11-12 10:40 •239次阅读

百度文心一言APP升级为文小言

百度宣布其文心一言APP正式升级为文小言，标志着百度在智能搜索领域迈出了重要一步。文小言作为

发表于 09-04 16:06 •541次阅读

百度文心大模型4.0免费了百度文心智能体平台免费开放文心大模型4.0

据悉；7月5日起百度文心智能体平台（AgentBuilder）免费开放文心大模型4.0。开发者在文心智能体平台上制作智能体时；可灵活选择文

发表于 07-06 17:12 •1264次阅读

百度发布智能代码助手“文心快码”

在近日举办的WAVE SUMMIT大会上，百度公司震撼发布了全新的智能代码助手——“文心快码”。这款基于百度文心大模型的强大工具，结合了海量的编程数据，旨在为开发者提供

发表于 07-01 11:20 •944次阅读

百度推出全新智能代码助手文心快码,引领编码效率新革命

在6月28日的百度WAVE SUMMIT深度学习开发者大会上，百度公司宣布了其旗下备受瞩目的智能代码助手Baidu Comate的正式中文名称——“文心快码”。这一创新工具的问世，标志

发表于 06-29 16:26 •946次阅读

百度申请文小言商标

近日，百度在线网络技术（北京）有限公司在知识产权领域有了新动作。据天眼查知识产权信息显示，百度已申请多枚“文小言”商标，这些商标将涵盖广告销售、网站服务、健身器材、机械设备等多个领域。

发表于 06-19 09:20 •514次阅读

2024百度移动生态万象大会:百度新搜索11%内容已AI生成

2024百度移动生态万象大会:百度新搜索11%内容已AI生成今天2024百度移动生态万象大会在江苏苏州举办，特别是AI搜索与百度文心

发表于 05-30 18:58 •436次阅读

百度文心大模型扩展合作领域

百度创始人兼CEO李彦宏在2024年第一季度财报电话会上宣布，文心大模型API在继与中国三星、荣耀成功合作后，本季度再度实现重要突破。小米、OPPO、vivo等主流手机厂商已全面接入文

发表于 05-17 11:17 •613次阅读

李彦宏高度评价百度文心一言模型及AI技术，强调商业化将持续推进

据了解，目前已有近10万家企业使用了文心一言的能力，其中10%的大搜流量由该模型产生，每日有250万用户受益于文库的AI功能。未来，

发表于 05-11 10:44 •556次阅读

优必选宣布人形机器人Walker S接入百度文心大模型

优必选宣布人形机器人Walker S接入百度文心大模型，共同探索中国AI大模型+人形机器人的应用。

发表于 04-07 10:17 •948次阅读

百度起诉“文心一言”公司涉嫌商标侵权，不正当竞争纠纷即将开庭

公告中指责对方涉嫌商标侵权，引发了一场涉及人工智能领域的法律大战。据了解，百度公司推出的“文心一言”是

发表于 02-06 11:44 •1703次阅读

三星Galaxy AI集成百度文心大模型

近日，中国三星与百度智能云宣布正式结成AI生态战略合作伙伴，共同推动AI技术在智能手机等设备上的应用。作为这一合作的一部分，三星Galaxy AI深度集成了百度

发表于 01-29 17:03 •1289次阅读

搜索历史

一文了解百度被收录ACL 2019的10篇论文

评论