合成语言数据集引起的争议，部分源自不同研究社区间的沟通不畅-电子发烧友网

编者按：Microsoft Semantic Machines资深研究科学家、UC Berkeley计算机科学博士Jacob Andreas指出，合成语言数据集引起的争议，部分源自不同研究社区间的沟通不畅，应正视合成语言数据集的价值。

在AI生态系统中，虚假语言数据集能起到什么作用吗？（我说的“虚假语言”指的是像bAbI、CLEVR、Karthik的论文（arXiv:1506.08941)、DeepMind论文（arXiv:1710.09867）中所用的语言数据集。）基于这些数据集上的结果，声称各种学习架构可以“处理语言”引起了NLP社区的很多不满。尽管很大程度上这是历史悠久的夸大宣传风气所造成的恶果，我渐渐相信部分原因是两个不同群组使用“语言数据”指代完全不同之物导致的沟通不畅。

本文关注指令遵循（instruction following）这一问题，但我觉得问题回答、生成之类的许多其他接地任务同样存在类似的现象。（明确不在讨论范围内的是对虚假语言数据进行语言学分析的工作。这类工作根本和语言无关，要不就是分析特定模型类别的形式化表达能力，要不就是垃圾。）长时间以来，一个AI研究者眼中的指令遵循问题是像这样的：

语言 -> 抽象 -> 行为

也就是说，我们从人们生成的任意表达开始，将其映射到某种清晰的结构化表示，接着基于该结构做出该如何行动的决策。由于一下子处理整个工作流过于困难，大多数情况下社区从不同端开始着手。（并不是所有人都这么干！在最近的端到端疯狂之前，Stefanie Tellex和Branavan就尝试处理整个工作流。）

“语言研究者”进行的是这样的工作：

语言 -> 抽象

在这幅图景中，语言来自外部世界——你不能控制其分布。你需要设计抽象语言，让它能够处理外部世界扔过来的任意表达（如果无法处理，至少也要优雅地失败）。语言学家以逻辑的形式为我们提供了精良的抽象形式化，通过这种方式从抽象到行为不过是逻辑解释。因此语言学家很容易就把抽象视为形式化语义，而把“抽象 -> 行为”视作其他人的问题。

数据收集自人类说话人，这些人不需要知道任何关于逻辑形式的东西。事实上，关于逻辑语言细节的决策通常是在收集初始注释之后做出的。“语言数据”和其他数据的区别恰恰是它们是由人类用户生成的。（如果我们从虚假语法生成器生成数据，然后将其映射到逻辑形式，那么一般来说我们并没有学到我们之前写下的语法之外的任何东西。）

“策略研究者”（大致可以理解为从事强化学习、规划、经典控制领域研究的人）做的工作是：

抽象 -> 行为

在这一图景中，可接受的抽象的范围取决于系统设计者——行为才牵涉真实世界的细节（物理等）。从“做10件特定事项中的一件”到“满足STRIPS目标”都可以看成是抽象语言。具体来说，一个不支持所有可能目标的抽象语言的问题并不比无法一次性进行所有操作的远程控制器大多少。（某种意义上说，Jonathan Berant和Percy Liang通过改写进行语义解析的工作（aclweb/P14-1133）实际上可以归入这类，而不是语言 -> 抽象那类，虽然他们仍然主张自己的工作是“真实语言”评估标准。）我原先难以领会的是，即使我们完全可以控制输入分布，这类问题中的一些也非常困难。强化学习是困难的。规划是困难的。这些抽象语言的有趣的组合性还有大量空间可供研究——如果我有某种目标的机构化表示，然后在结构的子集上训练，能否推广至剩余结构？我们还有很多事情做不到。

为了处理当前方法能够解决的问题，数据源自生成，而非收集。构建抽象所依据的分布和相应推导的行为是手工设计的。这里没有语言数据；这些工作中使用的数据和“语言数据”的区别在于，语言没有精确的执行语义，而STRIPS之类的东西却有。

近年来，这两个社区渐渐汇合，因为世界看起来是这样的：

语言 -> 行为

所有时刻，所有事情，都是端到端的。抽象并没有消失，但存在于某个无法解释的表示空间，而不是之前手工设计的形式化系统。这是一个大事件！语言研究者再也不必局限在一个他们有足够的聪明才智可以构建足够好的逻辑语言的世界之中。

而策略研究者（这正是麻烦开始之处）再也不用以任何特定形式化系统描述他们的任务了：他们只需要某种生成奖励函数/目标检验以及相应的（可组合的？）描述前者的标识符的方法。所以他们生成由单词序列构成的可解释的字符串。没有执行语义了，使用英语单词：自然语言。这就是困惑的根源。

我相信这对两个社区中的人而言，这都是一个重要的教训：

对作为研究人员的策略研究者而言，请务必一定明确标明所用的输入数据是合成数据。在这一点上，语言一词已经令人绝望地被滥用了，但二元语法自然语言（natural language）还没有：除非涉及真人，否则避免使用自然一词（本文第一段提到的一些论文都应该感到羞愧）。

对作为评审人员的语言研究者而言，对合格的虚假语言数据集而言，提出“它是否解决了一个有趣的抽象 -> 行为问题？字符串是否以一种有趣的方式索引了目标行为类别？”这样的问题来给出回应。对许多工作而言，这是一个比较合适的标准。

我认为我们仍旧处在可以基于虚假语言研究出很多东西的阶段，即使对那些只在意人类生成语言的分布的人，也是如此。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据收集

数据收集

+关注

关注
0

文章
72

浏览量
11211
生态系统

生态系统

+关注

关注
0

文章
703

浏览量
20749

原文标题：虚假语言：合成语言数据集的争议和价值

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

AI语音处理-文字合成语音功能

这篇文章就介绍华为云提供的语音合成服务使用方法，利用提供的API接口完成语音合成功能，将合成的语音下载下来。

发表于 07-08 09:50 •2160次阅读

成语大全 2008

至今已有14个软件盗用《成语大全》的数据资料。4、最开放的软件，允许用户增、编辑，有设计能力的可反汇编重新打造个性化的词典；而且程序文件完全免费。5、功能最齐全，查询方式多达18种，还有学习与游戏功能。6

发表于 10-15 13:12

基于波形音频段处理的中文语音合成研究

高，语音单元之间的过渡还不够自然。因此，如何提高合成语音的自然度，使合成的语音更加流畅是语音合成的关键。本文针对这个问题从语音单元之间平稳过渡处理、分段处理和语气处理三个方面进行了探讨，并且将

发表于 03-06 22:24

适用于Java的嵌入式脚本语言是什么

此文已由作者赵昕授权网易云社区发布。欢迎访问网易云社区，了解更多网易技术产品运营经验。fakescript轻量级嵌入式脚本语言 https://github.com/esrrhs

发表于 12-23 08:17

HarmonyOS原子化服务案例分享-成语心情

一、案例说明成语，众人皆说，成之于语；是汉语词汇中定型的词。成语多为四字，亦有三字，五字甚至七字以上。成语是中华传统文化的一大特色，是中华文化中一颗璀璨的明珠。成语有很大一

发表于 07-21 14:10

PWM在合成语音输出电路中的应用

基于采用权电流D/A方式实现合成语音输出方式有集成电阻离散性大、开关的非线性，以及功耗高等缺点，提出了利用脉冲宽度调制(PWM)技术的方法将数字语音信号直接转换为脉冲宽

发表于 05-16 11:53 •45次下载

VHDL并行语句（生成语句）使用练习

实验七、VHDL并行语句（生成语句）使用练习一实验目的1掌握VHDL语言的基本描述语句的使用方法。2掌握VHDL语言的生成语句的使用方法。二实

发表于 03-13 19:25 •2692次阅读

电流互感器的饱和区间定位研究_许峰

电流互感器的饱和区间定位研究_许峰

发表于 12-31 14:45 •0次下载

基于TMS320C6678的合成语音检测算法

针对合成语音检测系统在大规模电信网应用中的实时性需求，在分析合成语音检测原理和多核DSP任务并行的基础上，提出了一种基于TMS320C6678的合成语音检测算法并行实现方法，该方法实现了任务级并行

发表于 11-14 14:47 •15次下载

基于移动传感器网络社区间能量均衡路由算法

在资源受限的无线移动传感器网络（ MWSN）中设计能效路由是一个挑战性难题。针对移动传感器网络中社区间路由节点能量消耗过快的问题，提出了一种社区间能量均衡路由算法（ ERAI）。设计了一个

发表于 11-30 10:01 •1次下载

结合粗糙集和距离动态模型的重叠社区发现方法

的理论意义和实际价值。随着复杂系统内个体的不断变化，多个社区间岀现了重叠节点，有效且准确地挖掘社区中的重叠节点具有一定的挑战性。为了有效发现社区中的重叠节点，提出了一种基于粗糙集和距离

发表于 05-08 15:33 •0次下载

采用人工智能技术的高质量合成语音开发和定制

　　当涉及到高质量的合成语音开发和定制时，深度学习被证明是一个强大的工具。一家总部位于多伦多的初创公司， NVIDIA Inception 成员类似人工智能正在利用一种新的生成语音工具增加赌注，该工具能够创建高质量的合成人工智能

发表于 04-08 09:28 •1419次阅读

PyTorch教程16.4之自然语言推理和数据集

电子发烧友网站提供《PyTorch教程16.4之自然语言推理和数据集.pdf》资料免费下载

发表于 06-05 10:57 •0次下载

语音合成数据的重要性：打造自然流畅的语音合成体验

和应用提供关键支持。提供训练基础：语音合成数据作为语音合成模型的训练基础，直接影响合成语音的质量。丰富、准确的语音合成数据可以帮助模型学习到更多的语音特征和模式，从而生成更自然、流

发表于 06-24 03:07 •619次阅读

大模型数据集：力量的源泉，进步的阶梯

的舞台大模型数据集如广袤的舞台，为AI技术的展现提供了广阔的空间。这些数据集规模庞大，包容万象，它们是AI进步的基石。无论是自然语言处理、

发表于 12-07 17:18 •713次阅读

搜索历史

合成语言数据集引起的争议，部分源自不同研究社区间的沟通不畅

评论

AI语音处理-文字合成语音功能

成语大全 2008

基于波形音频段处理的中文语音合成研究

适用于Java的嵌入式脚本语言是什么

HarmonyOS原子化服务案例分享-成语心情

PWM在合成语音输出电路中的应用

VHDL并行语句（生成语句）使用练习

电流互感器的饱和区间定位研究_许峰

基于TMS320C6678的合成语音检测算法

基于移动传感器网络社区间能量均衡路由算法

结合粗糙集和距离动态模型的重叠社区发现方法

采用人工智能技术的高质量合成语音开发和定制

PyTorch教程16.4之自然语言推理和数据集

语音合成数据的重要性：打造自然流畅的语音合成体验

大模型数据集：力量的源泉，进步的阶梯