0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无需翻译的无监督复述的新方法:允许从输入句子生成多样化、但语义上接近的句子

DPVg_AI_era 来源:lq 2019-06-29 07:41 次阅读

无需翻译的无监督复述的新方法:允许从输入句子生成多样化、但语义上接近的句子。模型基于矢量量化自动编码器(VQ-VAE),可以在单纯语言环境中解释句子。它还具有独特的功能,即与量化瓶颈并行的残余连接,可以更好地控制解码器熵并简化优化过程。

近年来,研究人员一直在尝试开发自动复述的方法,复述就是对相同语义的不同表达,例如一句话,可以有一千种说法。这需要从文本中自动抽象语义内容。

由于缺乏可用的复映对标记数据集,目前更多的是使用依赖于机器翻译(MT)技术的方法,已经被证明非常受欢迎。

理论上来看,翻译技术可能是自动复述的有效解决方案,因为翻译技术是从语言实现中抽象出语义内容。例如,将相同的句子分配给不同的翻译者,最终翻译出来的内容通常是有差别的,这样就得到一个丰富的解释集,在复述任务中可能会非常有用。

尽管许多研究人员已经开发出基于翻译的自动复述方法,但显然人类并不需要翻译才能解释句子。

基于这一观察结果,Google Research的两位研究人员最近提出了一种新的复述技术,可以不依赖机器翻译的方法。

在预先发表在arXiv上的论文中,他们将这种单语方法与其他翻译技巧进行了比较(例如监督翻译和无监督翻译方法),该论文被引用了47次。

进行这项研究的两位研究人员Aurko Roy和David Grangier在他们的论文中写道:“这项工作建议只从未标记的单语语料库中学习复述模型…为此,我们提出了矢量量化变分自动编码器的残差变量。”

Aurko Roy

David Grangier

研究人员介绍的模型基于矢量量化自动编码器(VQ-VAE),可以在单纯语言环境中解释句子。同时,它还具有独特的特征(即与量化瓶颈并行的残余连接),这使得能够更好地控制解码器熵、并简化优化过程。他们的模型只需要在一种语言中使用未标记的数据:即用语言来解释句子。

研究人员在论文中解释道:“与连续自动编码器相比,我们的方法允许从输入句子生成多样化、但语义上接近的句子。”

在研究中,Roy和Grangier将他们的模型表现与其他基于MT的方法在复述识别、生成和训练增强方面的表现进行了比较。

他们特别将这种方法,与在平行双语数据上训练的监督翻译方法、以及在两种不同语言的非平行文本上训练的无监督翻译方法进行了比较。

研究人员发现,他们的单语方法在所有任务中均优于无监督翻译技术。另一方面,他们的模型和监督翻译方法之间的比较产生了混合的结果:单语方法在识别和增强任务中表现更好,而监督翻译方法在复述生成方面表现更好。

研究人员总结道:“总的来说,我们发现在进行复述识别和数据增强方面,单语模型可以胜过双语模式。单语模型的生成质量要高于基于无监督翻译的模型,但并不高于基于有监督翻译的模型。”

Roy和Grangier的研究结果表明,虽然使用双语并行数据(即文本及在其他语言中的可能翻译)在产生复述能够得到更卓越的表现。然而,在双语数据不易获得的情况下,谷歌研究院提出的单语模型可能是一种有用的资源或替代解决方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1143

    浏览量

    40717
  • 谷歌
    +关注

    关注

    27

    文章

    6161

    浏览量

    105300
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24689

原文标题:谷歌NLP新方法:无需翻译,质量优于无监督翻译模型

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NLPIR语义分析是对自然语言处理的完美理解

    单位,词语具有特定的语义和内涵。在词语层次上,词语语义分析意味着词语的内涵分析、词语之间的语义相似度或相关度分析,这是句子分析和篇章语义分析
    发表于 10-19 11:34

    一种在金上生成硫醇封端的SAM的新方法

    一种在金上生成硫醇封端的SAM的新方法 - 应用简报
    发表于 10-30 11:05

    如何使用MangaGAN新方法生成久保带人Style的漫画形象?

    如何使用MangaGAN新方法生成久保带人Style的漫画形象?
    发表于 09-27 06:00

    深入挖掘通用句子编码器的每个组成部分

    是有用的。Cer et. al提出了一种称为“通用句子编码器”的模型。在这篇文章中,我将解释“Universal Sentence Encoder(通用句子编码器)”背后的核心思想,以及它如何
    发表于 11-02 15:23

    一种改进的句子相似度计算模型

    在基于实例的机器翻译中,句子相似度计算是实例匹配的有效机制。该文对基于相同词的句子相似模型作进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词
    发表于 11-20 15:18 9次下载

    英汉机器翻译中基于模式的译文生成

    本文介绍一种基于模式的机器翻译的译文生成方法,并提出一种句法结构与语义信息相结合的模板匹配算法。最后给出本算法对英语句子进行测试的实验结果。
    发表于 09-25 16:26 15次下载

    汉语句子联想生成

    在一定的语言环境中汉语词语之间存在着优先组合搭配关系,据此,在本文中利用互信息、数理统计和人脑联想记忆的相关理论,设计了一个汉语句子联想生成器,使用该生成
    发表于 09-26 14:25 20次下载

    语义、句式以及变量为基础的翻译方法

    模式的基础上对动词进行详细的研究。在对语义进行归纳总结以后,将动词的语义模式分为三类,再将动词语义模式库进行搭建,最后设计出一种以语义、句式以及变量为基础的
    发表于 11-11 12:00 14次下载
    以<b class='flag-5'>语义</b>、句式以及变量为基础的<b class='flag-5'>翻译</b><b class='flag-5'>方法</b>

    基于分层组合模式的句子组合模型

    阅读理解任务需要综合运用文本的表示、理解、推理等自然语言处理技术。针对高考语文中文学作品阅读理解的选项题问题,提出了基于分层组合模式的句子组合模型,用来实现句子级的语义一致性计算。首先,通过单个词
    发表于 12-01 13:38 0次下载
    基于分层组合模式的<b class='flag-5'>句子</b>组合模型

    基于LDA模型的句子主题特征

    (extractive)和理解式摘要(abstractive)。抽取式摘要直接原文中抽取重要的句子作为摘要句,而理解式摘要则通过对文章进行句法、语义和篇章结构的分析获取文档的意义,再通过自然语言
    发表于 12-14 15:44 5次下载
    基于LDA模型的<b class='flag-5'>句子</b>主题特征

    句子相似度计算方法

    在计算词语语义相似度的基础上,提出一种以句子中心词为基准衡量词语组合相对位置偏移量的句子相似度计算方法。根据词语词性和语法规则确定句子中心词
    发表于 01-25 14:25 1次下载

    自然语言的语义表示学习方法与应用

    在获取句子或文档的语义表示时,一段话的语义由其各组成部分的语义,以及它们之间的组合方法所确定[8]。由此,一些工作开始尝试根据
    的头像 发表于 03-08 14:33 7306次阅读

    一种监督下利用多模态文档结构信息帮助图片-句子匹配的采样方法

    的共现结构信息帮助采样完成句子-图片匹配的方法。本文的合作单位是杭州之江实验室。     文章摘要   文章针对监督句子图片匹配任务。现
    的头像 发表于 12-26 10:26 2142次阅读
    一种<b class='flag-5'>无</b><b class='flag-5'>监督</b>下利用多模态文档结构信息帮助图片-<b class='flag-5'>句子</b>匹配的采样<b class='flag-5'>方法</b>

    BERT得到最强句子Embedding的打开方式

    不成? nono,你知道这样得到的句子表示捕捉到的语义信息其实很弱吗?今天向大家介绍一篇来自于 CMU 和字节跳动合作,发表在 EMNLP2020 的 paper, 详尽地分析了预训练模型得到
    的头像 发表于 12-31 10:10 8770次阅读

    基于句子级上下文的神经机器翻译综述

    基于句子级上下文的神经机器翻译综述
    发表于 06-29 16:26 64次下载