0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌Transformer大进化 机翻最强王者上线

DR2b_Aiobservat 来源:yxw 2019-06-18 10:26 次阅读

谷歌Evolved Transformer通过AutoML技术进行特定任务定制,在编码器和解码器模块底部的卷积层以分支模式运行,提高了语言建模的性能,目前在机器翻译领域可以达到最先进的结果。

Transformer是一种AI架构,最早是在2017年Google的科学家合著的论文《Attention Is All You Need》中介绍的,它比较擅长撰写散文和产品评论、合成声音、以古典作曲家的风格制作和声。

但是,谷歌的一个研究小组认为它可以更进一步使用AutoML技术,根据特定任务进行定制翻译。在一篇新发表的论文和博客中,研究人员描述了工作成果:与原始的Transformer相比,现在的Transformer既达到了最先进的翻译结果,也提高了语言建模的性能。

目前,他们已经发布了新的模型Evolved Transformer——开放源代码的AI模型和数据集库,来作为Tensor2Tensor(谷歌基于tensorflow新开源的深度学习库,该库将深度学习所需要的元素封装成标准化的统一接口,在使用其做模型训练时可以更加的灵活)的一部分。

一般意义上,AutoML方法是从控制器训练和评估质量的随机模型库开始,该过程重复数千次,每次都会产生新的经过审查的机器学习架构,控制器可以从中学习。最终,控制器开始为模型组件分配高概率,以便这些组件在验证数据集上更加准确,而评分差的区域则获得较低的概率。

研究人员称,使用AutoML发现Evolved Transformer需要开发两种新技术,因为用于评估每种架构性能的任务WMT'14英德语翻译的计算成本很高。

第一种是通过暖启动(warm starting)的方式,将初始模型填充为Transformer架构进行播种,而不采用随机模型,有助于实现搜索。第二种渐进式动态障碍(PDH)则增强了搜索功能,以便将更多的资源分配给能力最强的候选对象,若模型“明显不良”,PDH就会终止评估,重新分配资源。

通过这两种技术,研究人员在机器翻译上进行大规模NAS,最终找到了Evolved Transformer。

(Evolved Transformer架构)

那么Evolved Transformer有什么特别之处呢?

与所有深度神经网络一样,Evolved Transformer包含神经元(函数),这些神经元从输入数据中传输“信号,并缓慢调整每个连接的突触强度(权重),这是模型提取特征和学习进行预测的方式。此外,Evolved Transformer还能使每个输出元件连接到每个输入元件,并且动态地计算它们之间的权重。

与大多数序列到序列模型一样,Evolved Transformer包含一个编码器,它将输入数据(翻译任务中的句子)编码为嵌入(数学表示)和一个解码器,同时使用这些嵌入来构造输出(翻译)。

但研究人员也指出,Evolved Transformer也有一些部分与传统模型不同:在编码器和解码器模块底部的卷积层以分支模式运行,即在合并到一起时,输入需要通过两个单独的的卷积层。

虽然最初的Transformer仅仅依赖于注意力,但Evolved Transformer是一种利用自我关注和广泛卷积的优势的混合体。

(原始Transforme与Evolved Transformer的性能对比)

在测试中,研究人员将Evolved Transformer与原始Transformer在模型搜索期间使用的英德翻译任务进行了比较,发现前者在BLEU(评估机器翻译文本质量的算法)和Perplexity(衡量概率分布预测样本的程度)上性能更好。

在较大的数据中,Evolved Transformer达到了最先进的性能,BLEU得分为29.8分。在涉及不同语言对和语言建模的翻译实验中,Evolved Transformer相比于原始Transformer的性能提升了两个Perplexity。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6142

    浏览量

    105140
  • AI
    AI
    +关注

    关注

    87

    文章

    30280

    浏览量

    268513
  • 机器翻译
    +关注

    关注

    0

    文章

    139

    浏览量

    14873
  • Transformer
    +关注

    关注

    0

    文章

    141

    浏览量

    5983

原文标题:谷歌Transformer大进化,机翻最强王者上线

文章出处:【微信号:Aiobservation,微信公众号:人工智能观察】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌发布史上最强大模型Gemini,全方位领先GPT-4,MMLU基准达人类专家水平

    最新多模态大模型Gemini 1.0版本正式上线。 这次发布是按照谷歌此前的预期,但是对于业界而言非常突然。因为就在一周前还有报告指出,谷歌原本计划本周(当时称下周)发布Gemini,但现在已经推迟到2024年1月。报告给出的原
    的头像 发表于 12-08 00:11 3513次阅读
    <b class='flag-5'>谷歌</b>发布史上<b class='flag-5'>最强</b>大模型Gemini,全方位领先GPT-4,MMLU基准达人类专家水平

    Transformer模型的具体应用

    如果想在 AI 领域引领一轮新浪潮,就需要使用到 Transformer
    的头像 发表于 11-20 09:28 308次阅读
    <b class='flag-5'>Transformer</b>模型的具体应用

    Transformer模型能够做什么

    尽管名为 Transformer,但它们不是电视银幕上的变形金刚,也不是电线杆上垃圾桶大小的变压器。
    的头像 发表于 11-20 09:27 234次阅读
    <b class='flag-5'>Transformer</b>模型能够做什么

    板液位计怎么用磁铁校正

    板液位计是一种常用的液位测量装置,它利用磁铁和磁板的相互作用来实现液位的测量。在使用过程中,有时需要对磁板液位计进行磁铁校正,以确保测量的准确性。以下是关于磁板液位计磁铁校正
    的头像 发表于 07-31 09:40 783次阅读

    Transformer能代替图神经网络吗

    Transformer作为一种在处理序列数据方面表现出色的深度学习模型,自其提出以来,已经在自然语言处理(NLP)、时间序列分析等领域取得了显著的成果。然而,关于Transformer是否能完全代替图神经网络(GNN)的问题,需要从多个维度进行深入探讨。
    的头像 发表于 07-12 14:07 387次阅读

    Transformer语言模型简介与实现过程

    在自然语言处理(NLP)领域,Transformer模型以其卓越的性能和广泛的应用前景,成为了近年来最引人注目的技术之一。Transformer模型由谷歌在2017年提出,并首次应用于神经机器翻译
    的头像 发表于 07-10 11:48 1394次阅读

    使用PyTorch搭建Transformer模型

    Transformer模型自其问世以来,在自然语言处理(NLP)领域取得了巨大的成功,并成为了许多先进模型(如BERT、GPT等)的基础。本文将深入解读如何使用PyTorch框架搭建Transformer模型,包括模型的结构、训练过程、关键组件以及实现细节。
    的头像 发表于 07-02 11:41 1485次阅读

    新火种AI|谷歌深夜炸弹!史上最强开源模型Gemma,打响新一轮AI之战

    作者:文子 编辑:小迪 谷歌,2024年卷出新高度。 全球最强开源模型,Gemma重燃战局 短短12天连放三次大招,谷歌AI更新迭代之快,让人始料未及。 当地时间2月21日,谷歌毫无预
    的头像 发表于 02-23 10:21 342次阅读
    新火种AI|<b class='flag-5'>谷歌</b>深夜炸弹!史上<b class='flag-5'>最强</b>开源模型Gemma,打响新一轮AI之战

    谷歌大型模型终于开放源代码,迟到但重要的开源战略

    在人工智能领域,谷歌可以算是开源的鼻祖。今天几乎所有的大语言模型,都基于谷歌在 2017 年发布的 Transformer 论文;谷歌的发布的 BERT、T5,都是最早的一批开源 AI
    发表于 02-22 18:14 419次阅读
    <b class='flag-5'>谷歌</b>大型模型终于开放源代码,迟到但重要的开源战略

    谷歌发布全球最强开源大模型Gemma

    谷歌近日宣布,其全新开源大模型Gemma正式亮相。Gemma被誉为全球性能最强大、同时也是最轻量级的模型系列,分为2B(20亿参数)和7B(70亿)两种尺寸版本。令人瞩目的是,即便是2B版本,也能够在笔记本电脑上流畅运行。
    的头像 发表于 02-22 14:51 765次阅读

    谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录

    我们经历了LLM划时代的一夜。GeminiUltra发布还没几天,Gemini1.5就来了。卯足劲和OpenAI微软一较高下的谷歌,开始进入了高产模式。自家最强的Gemini1.0Ultra才发布
    的头像 发表于 02-19 12:28 691次阅读
    <b class='flag-5'>谷歌</b>Gemini 1.5深夜爆炸<b class='flag-5'>上线</b>,史诗级多模态硬刚GPT-5!<b class='flag-5'>最强</b>MoE首破100万极限上下文纪录

    OpenAI一键调用GPTs功能上线

    OpenAI近日宣布,其最新功能GPT Mentions现已上线。这一功能为用户提供了一个便捷的方式来调用不同的GPTs(Generative Pre-trained Transformer),并支持不同GPT之间共享上下文内容。
    的头像 发表于 02-04 10:05 791次阅读

    大语言模型背后的Transformer,与CNN和RNN有何不同

      电子发烧友网报道(文/李弯弯)近年来,随着大语言模型的不断出圈,Transformer这一概念也走进了大众视野。Transformer是一种非常流行的深度学习模型,最早于2017年由谷歌
    的头像 发表于 12-25 08:36 3856次阅读
    大语言模型背后的<b class='flag-5'>Transformer</b>,与CNN和RNN有何不同

    成都汇阳投资关于谷歌携 Gemini 王者归来,AI 算力和应用值得期待

    【Gemini 大模型主打多模态,性能对标GPT-4】 当地时间12月6日, 谷歌公司宣布推出其规模最大、功能最强的多模态大模型 Gemini, 其最强大的 TPU (张量处理单元)系统
    的头像 发表于 12-11 14:40 879次阅读
    成都汇阳投资关于<b class='flag-5'>谷歌</b>携 Gemini <b class='flag-5'>王者</b>归来,AI 算力和应用值得期待

    更深层的理解视觉Transformer, 对视觉Transformer的剖析

    最后是在ADE20K val上的LeaderBoard,通过榜单也可以看出,在榜单的前几名中,Transformer结构依旧占据是当前的主力军。
    的头像 发表于 12-07 09:39 741次阅读
    更深层的理解视觉<b class='flag-5'>Transformer</b>, 对视觉<b class='flag-5'>Transformer</b>的剖析