0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

两篇关于Google语义表示相关研究最新进展的论文

Tensorflowers 来源:未知 作者:李倩 2018-05-29 10:15 次阅读

近年来,“基于神经网络的自然语言识别”相关的研究取得了飞速进展,特别是在学习语义的文本表示方面,这些进展有助于催生一系列真正新奇的产品,例如智能撰写(Gmail 的辅助邮件创作)和Talk to Books(访问文末的链接,试着与书籍对话)。还有助于提高训练数据量有限的各种自然语言任务的性能,例如,通过仅仅 100 个标记示例构建强大的文本分类器。

下面我们将讨论两篇关于 Google 语义表示相关研究最新进展的论文,以及可在 TensorFlow Hub 上下载的两个新模型,我们希望开发者使用这些模型来构建令人兴奋的新应用。

TensorFlow Hub是一个管理、分发和检索用于 TensorFlow 的可重用代码(模型)的管理工具。

语义文本相似度

在“Learning Semantic Textual Similarity from Conversations”中,我们引入了一种新的方法来学习语义文本相似度的语句形式。可以直观理解为,如果句子的答复具有相似的分布,那么它们在语义上是相似的。例如,“你多大了?” (How old are you?) 和“你几岁了?” (What is your age?) 都是关于年龄的问题,可以通过类似的答复来回答,例如“我 20 岁” (I am 20 years old)。相比之下,虽然“你好吗?” (How are you?) 和“你多大?” (How old are you?) 包含的英文单词几乎相同,但它们的含义却大相径庭,因而答复也不同。

如果句子可以通过相同的答复来回答,那么它们在语义上是相似的。否则,它们在语义上是不同的。

在这项研究中,我们的目标是通过答复分类任务学习语义相似度:给定一个对话输入,我们希望从一批随机选择的答复中选出正确的答复。但是,最终目标是学习一个可以返回表示各种自然语言关系(包括相似度和相关性)编码的模型。通过添加另一个预测任务(在本例中为SNLI 蕴含数据集),并通过共享编码层强制执行,我们在相似度度量方面获得了更好的性能,例如STSBenchmark(句子相似度基准)和CQA 任务 B(问题/问题相似度任务)。这是因为逻辑蕴含与简单的等价有很大不同,并且更有助于学习复杂的语义表示。

对于给定的输入,可将分类视为潜在候选项排名问题。

Universal Sentence Encoder

“Universal Sentence Encoder”一文中引入了一个模型,此模型通过增加更多的任务对上述多任务训练进行了扩展,我们使用类似于skip-thought的模型 (论文链接在文末)(可以在给定的文本范围内预测句子)来训练它们。但是,尽管原始 skip-thought 模型中采用的是编码器-解码器架构,我们并未照搬使用,而是通过共享编码器的方式使用了只有编码器的架构来驱动预测任务。通过这种方式可以大大缩短训练时间,同时保持各种传输任务的性能,包括情感和语义相似度分类。目的是提供一种单一编码器来支持尽可能广泛的应用,包括释义检测、相关性、聚类和自定义文本分类。

基于 TensorFlow Hub Universal Sentence Encoder 的输出进行的语义相似度成对比较。

正如我们的论文所述,Universal Sentence Encoder 模型的一个版本使用了深度平均网络(DAN) 编码器,而另一个版本则使用了更复杂的自助网络架构- Transformer。

"Universal Sentence Encoder"中所述的多任务训练。各种任务和任务结构通过共享编码器层/参数(灰色框)连接。

对于更复杂的架构而言,与相对简单的 DAN 模型相比,此模型在各种情感和相似度分类任务上的表现更加出色,而短句子方面的速度只是稍微慢一些。然而,随着句子长度的增加,使用 Transformer 的模型的计算时间显著增加,而同等条件下,DAN 模型的计算时间几乎保持不变。

新模型

除了上述 Universal Sentence Encoder 模型外,我们还将在 TensorFlow Hub 上分享两个新模型:Universal Sentence Encoder - Large和Universal Sentence Encoder - Lite。这些都是预训练的 Tensorflow 模型,可返回可变长度文本输入的语义编码。这些编码可用于语义相似度度量、相关性、分类或自然语言文本的聚类。

Large 模型使用 Transformer 编码器进行训练,我们的第二篇论文进行了介绍。此模型适用于需要高精度语义表示以及要求以速度和大小为代价获得最佳模型性能的场景。

Lite 模型基于 Sentence Piece 词汇而非单词进行训练,以显著减少词汇量,而词汇量则显著影响模型大小。此模型适用于内存和 CPU 等资源有限的场景,例如基于设备端或基于浏览器的实现。

我们很高兴与社区分享本研究成果和这些模型。我们相信这里所展示的成果只是一个开始,并且还有许多重要的研究问题亟待解决。例如,将技术扩展到更多语言(上述模型目前仅支持英语)。我们也希望进一步开发这项技术,以便能够理解段落甚至文档级别的文本。如果能够完成这些任务,或许我们能制作出一款真正意义上的“通用”编码器。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3639

    浏览量

    134431
  • Google
    +关注

    关注

    5

    文章

    1762

    浏览量

    57507
  • 神经网络
    +关注

    关注

    42

    文章

    4771

    浏览量

    100720

原文标题:语义文本相似度研究进展

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    风光互补技术及应用新进展

    风光互补技术及应用新进展   [hide]风光互补技术及应用新进展.rar[/hide] [此贴子已经被作者于2009-10-22 11:52:24编辑过]
    发表于 10-22 11:51

    风光互补技术原理及最新进展

    风光互补技术原理及最新进展摘要: 简要回顾国内外风电、光伏技术与应用发展态势,结合风光互补系统应用, 分析、介绍了风光互补LED路灯照明系统、智能控制器设计、分布式供电电源、风光互补水泵系统,并着重
    发表于 10-26 13:45

    开关电源电磁兼容及其研究新进展

    开关电源电磁兼容及其研究新进展Review on EMC studies of SMPS 内容一. 开关电源技术发展面临的EMC挑战二. 开关电源电磁干扰发射形成和传播三. 开关电源电磁干扰发射的抑制四. 开关电源电磁兼容研究
    发表于 12-23 15:44

    DIY怀表设计正式启动,请关注最新进展

    ``我们的电子怀表正式启动,强烈邀请各电子工程师严重关注,本次PCB板由华强PCB(http://www.hqpcb.com/ )提供。DIY怀表设计正式启动,请关注最新进展。做电子的如
    发表于 01-13 09:27

    车联网技术的最新进展

    `直播主题及亮点:在介绍中国车联网的发展历史的基础上,分析目前的车联网产品类型和技术路线,分析5G的技术特点、优势和未来市场发展趋势,介绍北斗与GPS的区别和北斗卫星的最新进展和应用。针对即将成为车
    发表于 09-21 14:01

    介绍IXIAIP测试平台和所提供测试方案的最新进展

    介绍IXIAIP测试平台和所提供测试方案的最新进展
    发表于 05-26 06:46

    ITU-T FG IPTV标准化最新进展如何?

    ITU-T FG IPTV标准化最新进展如何?
    发表于 05-27 06:06

    CMOS图像传感器最新进展及发展趋势是什么?

    CMOS图像传感器最新进展及发展趋势是什么?
    发表于 06-08 06:20

    VisionFive 2 AOSP最新进展即将发布!

    非常开心地在这里和大家提前预告,我们即将发布VisionFive 2 集成 AOSP的最新进展!请大家多多期待吧~ 此次通过众多社区成员的支持和贡献(https://github.com
    发表于 10-08 09:15

    UWB通信技术最新进展及发展趋势

    UWB通信技术最新进展及发展趋势,下来看看
    发表于 02-07 12:44 11次下载

    谷歌在量子计算机学习任务方面取得新进展

    谷歌人工智能量子(Google AI Quantum)团队最近发表了两篇论文,介绍了他们在理解量子计算机学习任务方面取得的新进展
    的头像 发表于 01-07 10:45 2717次阅读

    探析人机自然交互研究最新进展

    近日,《中国科学报》采访了CCF优秀博士学位论文奖获奖者、清华大学博士易鑫及其导师史元春教授,深入报道了他们对人机自然交互研究最新进展
    的头像 发表于 02-25 14:15 3879次阅读

    关于深度学习的最新进展

    综述论文是非常有益的,特别是对某一特定领域的新研究人员。一个研究领域如果在不久的将来及相关应用领域中有很大的价值,那通常很难被实时跟踪到最新进展
    的头像 发表于 08-30 11:06 1137次阅读

    5G最新进展深度解析.zip

    5G最新进展深度解析
    发表于 01-13 09:06 1次下载

    家企业有关LED项目的最新进展

    近日,乾富半导体与英创力家企业有关LED项目传来最新进展
    的头像 发表于 01-15 13:37 681次阅读