用《圣经》做训练数据集，打造语言风格转换工具-电子发烧友网

达特茅斯学院的研究人员为了提高计算机模型对文本风格的转换能力，竟然将目光投向了《圣经》！研究表明，不同版本的《圣经》行文风格迥异，使用不同版本的《圣经》作为训练数据集，训练出的算法可以将书面文本转换成内容相同，但行文风格迥异的新文本。

为了寻找改进计算机文本翻译质量的灵感，达特茅斯学院的研究人员向《圣经》寻求帮助和指导。结果发现，使用各种版本的《圣经》训练的算法可以将书面作品转换成针对不同受众的不同风格的译文。

目前市面上可用的多语种互译的网络工具有很多。但行文风格和样式转换工具，即文本的语种相同，但转换行文风格的工具出现的速度则要慢得多。在某种程度上讲，由于难以获得所需的大量训练数据，开发这类转换工具的研究遭遇了困难。因此，研究团队想到在《圣经》中汲取灵感。

来自达特茅斯学院的研究团队发现，《圣经》除了为遍布全球的许多人提供精神上的指引之外，还能提供一个“大型的、以前尚未开发的对齐平行文本数据集”。《圣经》每个版本都包含超过31000节经文，研究人员用这些经文为机器学习训练集生成了超过150万个源经文和目标经文的专门配对。

该研究论文已发表在Royal Society Open Science期刊上。文中表示，这不是首个为文字风格转换而创建的并行数据集。但却是第一个使用《圣经》的数据集。过去这类数据集使用的其他文本，比如莎士比亚作品、维基百科条目之类，所能提供的数据集要么比现在小得多，要么不适合学习风格转换的任务。

“英文版《圣经》有许多不同的行文风格，使其成为风格转换的完美源文本。”达特茅斯大学学生、本论文的第一作者Keith Carlson说。

由于《圣经》的文本已经全面索引化，对不同版本的《圣经》文本的组织是可预测的，消除了用自动化方式匹配相同文本可能引起的对齐错误的风险。

“圣经是一个'神圣的'数据集，可以用来研究这项任务，”达特茅斯计算机科学教授丹尼尔·洛克莫尔说。 “几个世纪以来，人类一直在执行组织圣经文本的任务，我们的信仰不可能基于不太可靠的对齐算法。”

为了定义研究的“风格”，研究人员参考了句子长度、被动或主动语音的使用，以及可能导致文本具有不同程度的简洁或形式的用词选择。

根据这项研究的结果：“不同的措辞可能会传达不同程度的礼貌度或对读者的熟悉程度，显示关于作者的不同文化信息，使文本对某些人群更容易理解。”

该团队使用了34种风格独特的圣经版本，其语言复杂程度从“詹姆斯国王版”到“基础英语圣经”。研究人员使用这些文本作为两种算法的输入，一种是名为“摩西”的统计机器翻译系统，另一种是常用于机器翻译的神经网络框架“Seq2Seq”。

虽然研究团队使用了不同版本的《圣经》来训练计算机代码，但最终可以开发出能够为不同受众转换任何书面文本风格的系统。例如可以从“Moby Dick”中选择英语，并将其风格转换成适合年轻读者、非英语母语人士或其他多种受众团体中的不同版本。

“文本简化只是一种特定类型的风格转换。更广泛地说，我们开发的系统旨在生成与原文具有相同含义的文本，但会用不同的文字进行表述。”卡尔森说。

达特茅斯学院在计算机科学领域有着悠久的创新历史。“人工智能”（AI）一词最初就是在1956年达特茅斯学院召开AI研究学科的会议期间诞生的。该校其他相关研究还包括BASIC语言的设计，这是第一个通用和可访问的编程语言，以及为现代操作系统做出贡献的“达特茅斯时间共享”系统。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

原文标题：用《圣经》做训练数据集，达特茅斯学院完美打造语言风格转换工具

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

用《圣经》做训练数据集，打造语言风格转换工具