0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

跨越专业翻译的语言之墙:百度翻译的技术攀登

脑极体 来源:脑极体 作者:脑极体 2022-12-06 09:26 次阅读

作为一个科技从业者,阅读AI顶会的最新论文、浏览国内外创新的最新动向,是我工作的重要部分。平时接触的开发者、科学家、企业研究人员等,工作生活中也涉及大量专业阅读。

于是乎,我就会经常听到这样的抱怨:

PDF格式的论文,很多翻译软件需要手动复制粘贴,效率还不如直接查字典;

不动脑子按段落甚至句子直译,信达雅一个都没有,机翻完我还要花时间二次review;

海外开发社区的技术文档专业词汇太多,翻译得不准,好几天的代码都白写了……

这可能是AI技术里非常容易让人迷惑的地方。近几年随着AI技术快速进步,机器翻译水平也大幅提升,结果一遇到外文文献、外刊投稿、办公文档、商业报告、海外网站技术文档之类的专业翻译需求,很多产品还是不能满足。

这些问题说明,总体可读可懂,满足出国旅游、购物娱乐等日常沟通的场景,只是机器翻译的基本功能。进一步的市场需求,是深度专业内容的跨语言交流,让商业、科研、技术等专业信息可以实现无缝对接。

跨越这堵语言之墙,也成为一场NLP领域的全球竞赛。一直深耕机器翻译的百度翻译团队,从来没有停止过攀登的脚步。

我们从机器翻译的新技术动向说起,聊聊百度给机器翻译带来的新可能。

机器翻译的技术攀登:百度引领NMT革新

跨越语言之墙还需要哪些技术突破?想要回答这个问题,有必要先回答:机器翻译今天发展到哪一步了。

过去几十年间,人们一直在探索如何使得机器翻译达到人类的翻译水平,翻译方法不断迭代。基于规则的机器翻译,依靠人工编纂的双语词典和专家总结的规则进行翻译;基于实例的机器翻译,从双语对照的实例库中选择与原文相似度高的实例,通过模仿和修改进行翻译;基于统计的机器翻译,对翻译过程进行数学建模,并从大量的训练数据中自动学习翻译知识。

变革发生在2014年,通过循环神经网络(RNN)来对语言向量进行编码解码,并且使用长短期记忆网络(LSTM)来增强长句翻译能力的神经机器翻译(NMT),为机器翻译领域带来新的研发范式。百度、谷歌、微软等一批NLP领域的优等生推进深度学习在机器翻译领域的研发和应用,百度翻译在2015年发布了全球首个互联网NMT系统,领先谷歌1年多。现在,大家用翻译软件进行日常交流、旅游商务等活动,已经基本没有问题了。

而专业领域的翻译想要令人惊喜的进展,总的来说需要做到两件事:

一是技术突破。推动机器翻译不断接近专业翻译能力。头部厂商主要从几个方面努力:1. 预训练大模型,例如文心、GPT-3、BERT;2. 多语言统一建模和翻译;3. 面向垂直领域的高精度翻译模型。其中,百度作为更早进入NMT时代的科技企业,就在机器翻译技术上取得了国际领先的成果。2020 年,咨询机构Gartner在 《Hype Cycle for Natural Language Technologies》报告中,就将百度翻译列为神经网络机器翻译标杆机构。

二是产品设计。技术有所突破,还要通过成熟的产品设计和应用体验,让用户感知到专业机器翻译的价值。一些机器翻译产品可能技术很强,但由技术人员来主导产品设计,导致用户体验很糟糕。在这方面,具备互联网产品设计相关经验的厂商,自然能够更好地实现技术落地。比如百度翻译就打造了非常丰富的产品矩阵,支持PC端、移动端等各类终端设备,面向C端、B端的多种应用;支持文本、文档、图片、语音等多模态翻译,全方位满足各种翻译需求。百度翻译的产品优势,让普通用户可以低门槛、更便捷地用上专业机器翻译能力,目前日均响应的翻译请求已达千亿字符

从这个角度来看,百度翻译是国内少有的,能够同时占据技术和产品两个机器翻译高地的科技企业。那么,百度翻译究竟是如何翻越专业翻译的语言之墙?

耸立的语言墙:机器翻译进入专业领域的三道门槛

你可能会问,机器翻译都搞了快七十年,怎么专业领域的语言之墙依旧没有被攻克?

专业信息、学术资源、商业文件等翻译需求,是一块巨大的商业蛋糕,同时也是从未被彻底解决的痛点。这是因为专业领域的翻译,存在“三高”的要求:内容安全要求高、翻译准确率要求高、翻译效率与体验要求高。

内容安全要求高:专业文档往往涉及到科研创新、商业往来等信息,翻译过程中需要上传到云端或软件服务商的服务器进行操作,一旦硬件来源或软件使用权受限,或者服务不稳定,都会给专业用户带来麻烦和风险。

翻译准确率要求高:信达雅,信(即翻译准确率)排在第一位,专业翻译中存在大量专业单词、复杂长句子,容易出现歧义,软件翻译失之毫厘,内容准确度就谬以千里。

翻译效率与体验要求高:翻译软件的效率、易用性,直接影响到用户体验。很多人可能有这样的经历,有的软件不支持整篇文档翻译,手动复制粘贴连分段都不准确,翻译效果难以直视;有的PDF文档翻译成word后,原本的排版被打乱,还需要自己手动调整……这些都给用户带来了额外的负担。

所以,我们就从安全可靠、效果、效率这三个方面,来评测一下百度翻译的解决思路。

首先,安全可靠。

作为一名知识内容生产者,文档承载的是我安身立命之本,所以,数据安全几乎是我是否使用一款翻译工具的首要考量因素。同理,论文数据之于科研工作者、商业报告之于企业从业者、技术文档之于工程人员,安全隐私都是至关重要的。

深度学习平台是每个神经网络机器翻译模型的底层技术框架,市面上相当一部分翻译厂商的底层技术框架仍然使用TensorFlow(美国谷歌)和PyTorch(美国脸书)为代表的海外框架。非国产自研,可能在未来遭遇无硬件可搭载和无框架使用的窘境。

比如在使用海外平台DeepL的过程中,我就会经常遇到加载缓慢、连接不上的问题。海外翻译软件往往需要上传到海外企业的服务器,比如DeepL上传的文档会被发送到美国的Adobe公司

0a3e42787a2c4c3e8cbac2233560ce4a~tplv-tt-shrink:640:0.image

与之相比,国内翻译产品就不会遇到这个困扰。以百度翻译为例,产品基于全面自研的飞桨深度学习框架,同时采用多种措施来保障数据安全,获得ISO27001等多项国内外权威信息安全管理认证。存储前,会先进行安全的加密操作;数据传输中,采用安全传输层协议(TLS),保障保密性和数据完整性,并提供完备的密钥管理机制和加密措施;用户删除数据后,后台将同步删除相关内容,不会留存。总体来说,在可靠性和安全性上更有保障。

第二,翻译效果。

专业翻译最终要靠结果的“信、达、雅”说话。包括专业术语翻译是否准确,语序是否流畅连贯,一些特定文化背景的表达是否地道……

可以看到,百度翻译通过多个专业领域模型,有效增强翻译准确度。我们随机选取了《自然》杂志的一篇生物领域论文《A pan-cancer compendium of chromosomal instability染色体不稳定性的泛癌症纲要》,选择百度翻译的“生物医药“模型后,结合上下文语义给出了准确的翻译。可以看到,生物医药这类充满大量专业术语的领域,百度翻译的结果并没有让人失望。

c00cdd27ce7f477cac8369465eef4bf5~tplv-tt-shrink:640:0.image

对于学术文章中复杂的长句子和特定格式,百度翻译能够识别论文格式中的各种基本要素,如正文、引用、尾注等,避免错译、漏译。以这篇AAAI 2022的顶会论文《Meta-Learning for Online Update of Recommender Systems》为例,百度翻译就准确保留了参考文献引用信息,这对阅读专业文献非常有帮助。

3f5b2eef4aeb48ea8c548616da5681bf~tplv-tt-shrink:640:0.image

第三,翻译效率。

专业领域的机器翻译,用户的一个关键痛点是:很多地方需要用户“不厌其烦”地手动操作或反复修改。而拥有十多年翻译产品经验的百度,自然也在应用能力上游刃有余。百度翻译将这些“烦点”一一消解,提升翻译效率和文档的可读性、易读性,从而减少用户手动调整、修改的麻烦,将时间精力放在更有创造力的事情上。

首先,百度翻译支持多种格式文档,一键上传就能进行全篇翻译。像PDF这种不能编辑的文档,可以完整地保留样式和排版,不需要用户手动将文字复制粘贴到翻译软件中,并且提供整页预览模式、逐句对照模式等,不同需求的用户可以自主选择来提升效率。

比如下面这份《英国人工智能研发商业化和标准》,这类咨询机构的商业报告,是很多产业研究者、高校师生、政策制定者等工作学习中的参考读物,快捷、高效地阅读体验,能够帮大家节省不少时间。将PDF文件一键上传到百度翻译,就能快速得到准确地译文,排版格式也与原文保持高度一致,大大方便了阅读。

d1d0d8bb6c9e4f9aa9d5577785fa1ec9~tplv-tt-shrink:640:0.image

输入数据的准确性对翻译结果起到至关重要的影响,文本纠错是机器翻译的关键能力之一。专业领域容易遇到一些佶屈聱牙、拼写复杂的专用术语、学术名词等,百度翻译的智能纠错,可以对语句自动检查、实时提示、自动纠错,减少人工校验成本。

此外,百度翻译通过人机共译智能增强,语料自动沉淀,机器自动学习,翻译模型实时增强,逐渐缩小机器翻译与理想译文之间的差距,实现越翻越省力,真正提升效率。

英国诗人塞缪尔·约翰逊曾说过,语言是科学的唯一工具。整体来看,百度翻译已经在专业论文、学术文献等领域,展现出了强大的翻译能力,帮专业人士翻越了语言这堵高墙,把语言这个工具交到了每一个需要在专业领域跨语言协作的人手中。

翻山越岭之后,语言墙背后的宏大场景

从百度翻译的技术体系和产品设计中,可以看到,机器翻译要进入专业领域,不光要有技术,还要有较强的产品设计能力,考验的是企业的综合实力。机器翻译进入专业领域,也推动翻译应用来到了新的赛点。

重建巴别塔。专业领域的语言壁垒,为知识、信息、资源的流动树立起极高的门槛,比如目前全球有六成以上各类文献资料和科研论文都是用英文撰写,其他语种也蕴含着大量的知识宝藏。越来越多的人使用百度翻译来突破语言的阻碍,让专业领域的协作没有障碍,将大大促进全球的知识交流与传播,支撑科技创新、实现知识公平。

重塑机翻格局。专业领域的机器翻译,相比生活化场景,有着更高的壁垒与更强劲的需求,无论市场容量、付费意愿、付费潜力,以及用户忠诚度,都是非常高的。百度翻译凭借优秀的专业翻译能力,可以建立起差异化优势,进入商业化的良性循环,在机器翻译市场格局中进一步领先。

借助翻译,人类社会从相互阻隔走向了相互交往。今天,世界科技、经济与文化更为频繁地展开交流,面对浩如烟海的信息与知识,仅靠数量有限的专业翻译人士,很难满足大众对专业翻译的需求。幸好,机器翻译开辟了一条新的跨语言沟通之路。七十年来,机器翻译技术不断迭代,有着旺盛的生命力,那是一代又一代技术人,在为重建巴别塔的理想而不断努力。

随着百度翻译等产品推动机器翻译向专业领域不断深入,人们可以展开更专业、更精深的跨语言交流,机器翻译正成为助力全球交流的一股重要力量。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30763

    浏览量

    268917
  • 百度
    +关注

    关注

    9

    文章

    2268

    浏览量

    90366
  • 机器翻译
    +关注

    关注

    0

    文章

    139

    浏览量

    14880
  • NMT
    NMT
    +关注

    关注

    0

    文章

    7

    浏览量

    3631
  • rnn
    rnn
    +关注

    关注

    0

    文章

    89

    浏览量

    6886
收藏 人收藏

    评论

    相关推荐

    百度正式回应进军短剧领域

    近日,百度在线网络技术(北京)有限公司在知识产权领域有了新的动作,据天眼查信息显示,该公司已申请注册“百度短剧”商标,涵盖网站服务、科学仪器、教育娱乐等多个国际分类,目前这些商标均处于等待实质审查
    的头像 发表于 12-17 14:19 146次阅读

    LLMWorld上线代码翻译新工具——问丫·码语翻译侠,快来体验!

    01. 工具介绍 aicode.llmworld.net 问丫·码语翻译侠 是一款由LLMWorld新推出的代码翻译工具,支持各种语言之间的翻译,包括计算机
    的头像 发表于 12-09 11:11 240次阅读
    LLMWorld上线代码<b class='flag-5'>翻译</b>新工具——问丫·码语<b class='flag-5'>翻译</b>侠,快来体验!

    IMAX携手Camb.AI实现影院实时语言翻译

    内容和精彩纪录片精准地本地化为多达140种语言,以满足全球不同地区观众的多样化需求。传统配音方式不仅成本高昂,而且耗时较长,难以满足快速变化的市场需求。而Camb.AI的DubStudio平台则凭借其先进的人工智能技术,承诺能够在保证高质量
    的头像 发表于 11-26 13:55 381次阅读

    百度将发布AI智能眼镜

    近日,有知情人士透露,百度旗下的人工智能品牌小计划在即将举行的百度世界大会上推出一款全新的AI智能眼镜。这款眼镜将内置先进的人工智能助手,并配备摄像头,为用户提供前所未有的智能体验。
    的头像 发表于 11-11 14:50 407次阅读

    百度舸AI计算平台4.0震撼发布

    在2024年百度云智大会的璀璨舞台上,百度智能云重磅推出了舸AI异构计算平台的全新力作——4.0版本。此次升级,标志着百度在AI基础设施领域迈出了坚实的一步,致力于为行业提供更为强大
    的头像 发表于 09-26 14:46 472次阅读

    DeepL推出新一代翻译编辑大型语言模型

    在人工智能与语言处理领域,DeepL再次以其创新实力引领潮流,宣布成功推出新一代面向翻译与编辑应用的大型语言模型。这一里程碑式的进展,不仅巩固了DeepL作为顶尖语言人工智能公司的地位
    的头像 发表于 07-19 15:56 666次阅读

    DeepL 推出下一代大型语言模型(&quot;LLM&quot;),翻译质量超越竞争对手

    和编辑打造的高度专业化的 LLM 技术提供支持。此次发布是 DeepL 企业语言人工智能平台的一项重大突破,为翻译质量和性能树立了新的行业标准。 新的
    的头像 发表于 07-18 09:29 407次阅读

    百度申请文小言商标

    近日,百度在线网络技术(北京)有限公司在知识产权领域有了新动作。据天眼查知识产权信息显示,百度已申请多枚“文小言”商标,这些商标将涵盖广告销售、网站服务、健身器材、机械设备等多个领域。
    的头像 发表于 06-19 09:20 481次阅读

    2024百度移动生态万象大会:百度新搜索11%内容已AI生成

    2024百度移动生态万象大会:百度新搜索11%内容已AI生成 今天2024百度移动生态万象大会在江苏苏州举办,特别是AI搜索与百度文心一言的相关信息被市场极度关注,我们看到,在2024
    发表于 05-30 18:58 409次阅读

    百度与特斯拉探讨Robotaxi合作新机遇

    在特斯拉宣布计划使用百度地图提供的高精度地图之后,百度与特斯拉之间的合作再度引起关注。百度自动驾驶技术部总经理徐宝强近日透露,百度正积极考虑
    的头像 发表于 05-24 10:20 451次阅读

    PLC常用专业英文词汇翻译总结

    PLC编程中我们经常会遇到一些专业英文词汇,对于入门的学员来说过理解起来是非常困难的。本文总结了一些PLC常用专业英文词汇,并做已翻译
    的头像 发表于 03-19 11:40 2390次阅读

    百度携手三星,文心大模型日调用量破5000万次

     值得一提的是,此前三星在其旗舰手机GalaxyS24系列新品发布会上宣布,与百度智能云达成AI生态战略合作伙伴关系。据悉,GalaxyAI深度整合了来自文心大模型的多项能力,能够实现通话、翻译等端侧赋能功能,
    的头像 发表于 02-29 10:22 679次阅读

    百度搜索推出AI拜年新能力

    随着人工智能技术的迅猛发展,百度搜索始终站在技术前沿,致力于为用户提供更加智能化、便捷的服务。百度搜索重磅推出了AI拜年新能力,在春节期间,让用户能够更加轻松地表达祝福、传递情感。
    的头像 发表于 02-05 10:54 6107次阅读

    百度智能云与三星Galaxy S24系列达成AI生态战略协作

    据介绍,Galaxy AI项目深度集成百度文心大模型的多种功能,能实现诸如提升通话质量、翻译能力,以及运用生成式AI技术打造智能摘要、排版等创新功能。
    的头像 发表于 01-26 09:29 562次阅读

    百度搜索exgraph图执行引擎设计与实践分享

    百度搜索exgraph图执行引擎设计重点分成三个部分:图描述语言、图执行引擎、对接扩展。
    的头像 发表于 01-16 10:27 541次阅读
    <b class='flag-5'>百度</b>搜索exgraph图执行引擎设计与实践分享