0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用《圣经》做训练数据集,打造语言风格转换工具

DPVg_AI_era 来源:未知 作者:李倩 2018-11-01 09:24 次阅读

达特茅斯学院的研究人员为了提高计算机模型对文本风格的转换能力,竟然将目光投向了《圣经》!研究表明,不同版本的《圣经》行文风格迥异,使用不同版本的《圣经》作为训练数据集,训练出的算法可以将书面文本转换成内容相同,但行文风格迥异的新文本。

为了寻找改进计算机文本翻译质量的灵感,达特茅斯学院的研究人员向《圣经》寻求帮助和指导。结果发现,使用各种版本的《圣经》训练的算法可以将书面作品转换成针对不同受众的不同风格的译文。

目前市面上可用的多语种互译的网络工具有很多。但行文风格和样式转换工具,即文本的语种相同,但转换行文风格的工具出现的速度则要慢得多。在某种程度上讲,由于难以获得所需的大量训练数据,开发这类转换工具的研究遭遇了困难。因此,研究团队想到在《圣经》中汲取灵感。

来自达特茅斯学院的研究团队发现,《圣经》除了为遍布全球的许多人提供精神上的指引之外,还能提供一个“大型的、以前尚未开发的对齐平行文本数据集”。《圣经》每个版本都包含超过31000节经文,研究人员用这些经文为机器学习训练集生成了超过150万个源经文和目标经文的专门配对。

该研究论文已发表在Royal Society Open Science期刊上。文中表示,这不是首个为文字风格转换而创建的并行数据集。但却是第一个使用《圣经》的数据集。过去这类数据集使用的其他文本,比如莎士比亚作品、维基百科条目之类,所能提供的数据集要么比现在小得多,要么不适合学习风格转换的任务。

“英文版《圣经》有许多不同的行文风格,使其成为风格转换的完美源文本。”达特茅斯大学学生、本论文的第一作者Keith Carlson说。

由于《圣经》的文本已经全面索引化,对不同版本的《圣经》文本的组织是可预测的,消除了用自动化方式匹配相同文本可能引起的对齐错误的风险。

“圣经是一个'神圣的'数据集,可以用来研究这项任务,”达特茅斯计算机科学教授丹尼尔·洛克莫尔说。 “几个世纪以来,人类一直在执行组织圣经文本的任务,我们的信仰不可能基于不太可靠的对齐算法。”

为了定义研究的“风格”,研究人员参考了句子长度、被动或主动语音的使用,以及可能导致文本具有不同程度的简洁或形式的用词选择。

根据这项研究的结果:“不同的措辞可能会传达不同程度的礼貌度或对读者的熟悉程度,显示关于作者的不同文化信息,使文本对某些人群更容易理解。”

该团队使用了34种风格独特的圣经版本,其语言复杂程度从“詹姆斯国王版”到“基础英语圣经”。研究人员使用这些文本作为两种算法的输入,一种是名为“摩西”的统计机器翻译系统,另一种是常用于机器翻译的神经网络框架“Seq2Seq”。

虽然研究团队使用了不同版本的《圣经》来训练计算机代码,但最终可以开发出能够为不同受众转换任何书面文本风格的系统。例如可以从“Moby Dick”中选择英语,并将其风格转换成适合年轻读者、非英语母语人士或其他多种受众团体中的不同版本。

“文本简化只是一种特定类型的风格转换。更广泛地说,我们开发的系统旨在生成与原文具有相同含义的文本,但会用不同的文字进行表述。”卡尔森说。

达特茅斯学院在计算机科学领域有着悠久的创新历史。“人工智能”(AI)一词最初就是在1956年达特茅斯学院召开AI研究学科的会议期间诞生的。该校其他相关研究还包括BASIC语言的设计,这是第一个通用和可访问的编程语言,以及为现代操作系统做出贡献的“达特茅斯时间共享”系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8386

    浏览量

    132480
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24657

原文标题:用《圣经》做训练数据集,达特茅斯学院完美打造语言风格转换工具

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ChatGPT:怎样打造智能客服体验的重要工具

    ChatGPT作为智能对话生成模型,可以帮助打造智能客服体验的重要工具。以下是一些方法和步骤:1.数据收集和准备:收集和整理与客服相关的数据,包括常见问题、回答示例、客户对话记录等。这
    的头像 发表于 11-01 11:12 149次阅读
    ChatGPT:怎样<b class='flag-5'>打造</b>智能客服体验的重要<b class='flag-5'>工具</b>?

    AI大模型的训练数据来源分析

    学术机构、政府组织或企业公开发布,涵盖了各种类型的数据,如图像、文本、音频、视频等。例如: ImageNet :一个广泛用于图像识别任务的大规模图像数据。 Common Crawl :提供了大量的网页抓取
    的头像 发表于 10-23 15:32 410次阅读

    如何训练自己的AI大模型

    训练AI大模型之前,需要明确自己的具体需求,比如是进行自然语言处理、图像识别、推荐系统还是其他任务。 二、数据收集与预处理 数据收集 根据任务需求,收集并准备好足够的
    的头像 发表于 10-23 15:07 780次阅读

    语言模型的预训练

    能力,逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤,它通过在海量无标签数据上进行训练,使模型学习到语言的通用知识
    的头像 发表于 07-11 10:11 398次阅读

    pycharm怎么训练数据

    在本文中,我们将介绍如何在PyCharm中训练数据。PyCharm是一款流行的Python集成开发环境,提供了许多用于数据科学和机器学习的工具
    的头像 发表于 07-11 10:10 576次阅读

    如何理解机器学习中的训练、验证和测试

    理解机器学习中的训练、验证和测试,是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了模型学习与评估的基础框架,还直接关系到模型性能的可靠性和泛化能力。以下是一篇深入探讨这三
    的头像 发表于 07-10 15:45 3417次阅读

    llm模型训练一般什么系统

    LLM(Large Language Model,大型语言模型)是近年来在自然语言处理领域取得显著成果的一种深度学习模型。它通常需要大量的计算资源和数据来进行训练。以下是关于LLM模型
    的头像 发表于 07-09 10:02 368次阅读

    人脸识别模型训练失败原因有哪些

    人脸识别模型训练失败的原因有很多,以下是一些常见的原因及其解决方案: 数据质量问题 数据训练
    的头像 发表于 07-04 09:17 554次阅读

    PyTorch如何训练自己的数据

    PyTorch是一个广泛使用的深度学习框架,它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时,数据是不可或缺的组成部分。然而,很多时候,我们可能需要使用自己的数据
    的头像 发表于 07-02 14:09 1456次阅读

    K折交叉验证算法与训练

    K折交叉验证算法与训练
    的头像 发表于 05-15 09:26 520次阅读

    【大语言模型:原理与工程实践】大语言模型的预训练

    数据格式的转换数据字段的匹配和整合等。通过数据级净化,可以进一步提高数据的质量和可用性,为后续的数据
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础技术

    处理各种自然语言任务时都表现出了惊人的能力。这促使一个新的研究方向诞生——基于Transformer 的预训练语言模型。这类模型的核心思想是先利用大规模的文本数据进行预
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    语言模型(LLM)是人工智能领域的尖端技术,凭借庞大的参数量和卓越的语言理解能力赢得了广泛关注。它基于深度学习,利用神经网络框架来理解和生成自然语言文本。这些模型通过训练海量的文本
    发表于 05-04 23:55

    大模型数据:力量的源泉,进步的阶梯

    一、引言 在    的繁荣发展中,大模型数据的作用日益凸显。它们如庞大的知识库,为AI提供了丰富的信息和理解能力。本文将用一种独特的风格来探讨大模型数据
    的头像 发表于 12-07 17:18 655次阅读

    大模型数据:突破边界,探索未来

    随着人工智能技术的快速发展,大型预训练模型如GPT-4、BERT等在自然语言处理领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据,为模型提供了丰富的知识和信息。本文将探讨大
    的头像 发表于 12-06 16:10 620次阅读