0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人类进化的历程当中语音起到了多大的作用

人工智能和机器人研究院 来源:未知 作者:李倩 2018-04-15 10:24 次阅读

黄学东:大家好!今天我主要想和大家分享一下微软的故事,相信一定会很激动人心。但在正式分享之前,我想介绍一下人类进化的历程当中语音起到了多大的作用。

达尔文的进化论已经说明,最新的科学验证也再次证明,我们人和大猩猩DNA的相似度接近99%,就那1%的区别造就了我们是这个地球的主宰。为什么呢?因为我们更聪明吗?还是漫长的进化过程当中有什么其他因素?计算机视觉非常重要,但动物的视力其实比人还厉害,晚上的夜猫子看得比人更厉害,但我们仍然是这个地球的主宰。最重要的原因之一是我们的语音和语言,所以大家可以在今天准时地来到这个地方和我们一起讨论人工智能激动人心的进展。语音和语言对人类的进化是起到决定性作用的,当然对人工智能的进化也有同等的重要性。

微软在过去的几年当中多次创造了接近人类水平的人工智能进展。以今天的ImageNet作为图像识别的标准,微软两年前就第一次在图像识别斯坦福大学的ImageNet达到了超越人的水平。去年微软又宣布公开测试级对话系统Switchboard的最新成果最新成果。这是语音领域大家都很熟悉的一个很重要的任务,就是识别两个人在电话上的交谈,微软第一次在业界达到了超过普通人的专业水平。今年在斯坦福大学的SQuAD阅读理解挑战赛,微软再次达到了媲美人类的水平。上个月微软再次创造了在中文和英文翻译上达到了超过专业人员翻译质量的水平,这是前所未有的。所以这确实是一个激动人心的时刻,人类进化的长河当中语音起了决定性的作用,今天在人工智能的进化当中语音和语言会起到同样的作用。

去年《经济学人》有一篇封面文章,总结了过去的四十年语音和语言的重要进展,早在五十年代IBM就开始了机器翻译的工作,那个时候我还没有出生。过去的几年当中有三个很重大的历史事件:苹果第一次推出Siri,也就是手机上的个人助理。Google推出了基于神经翻译的产品,大大推动了机器翻译的进步。微软第一次在业界历史性地创造了超越人的自然对话系统——语音识别系统。

这张图显示了过去的二十年当中语音识别的同行们通过不懈的努力,创造出了很多辉煌的成果,但有一条红线,就是Switchboard错误率一直在10%以上,直到最近几年因为深度学习的进展,微软和IBM的公开评测当中一直起到了领头羊的作用。

去年微软是第一次达到了5.1%的水平,超过了普通转录人员的标准,也是非常激动人心的进展。采用的方法是组合了多种不同的深度神经网络,包括ResNet、LACE和BLSTM,通过并行的处理组合成了一个工程上完美的语音识别系统,其实在云上是不费吹灰之力的,只是计算机的资源会比较多。

微软在语音合成领域也有很多进展。我们支持将近包括50种语言的语音合成系统,而且它的质量也达到了4.3 MOS, 这是非常振奋人心的。

这是微软和哈曼音箱联合推出的联想语音识别系统,唤醒智能音箱的时候不是非常自然,微软最近和小米联合推出了全双工的语音对话系统,就是唤醒以后可以连续讲,不需要每次都说唤醒词“小娜”再说语音指令。这是微软核心的语音技术在中国落地的一个非常好的案例,它的基本思想非常简单,就是我跟你讲话,比如我见到邓院士每次都说“邓院士,今天你好吗?”“邓院士,你今天吃饭了没有?”所以大家会觉得很烦,全双工的系统只要唤醒一次,接下来就可以很自然地跟它交互。

大家可以看出,全双工的语音交互在中国已经落地,和小米的合作产品今天可以很便宜地买到一台,让它帮你扫地、开灯、看股票,这些都没问题,如果实在闲得慌的话可以和小冰聊天斗嘴,这是已经落地的产品。

和大家介绍一下最近微软在机器翻译上的重大突破。就像《经济学人》说过的,1954年开始IBM Wason就开始了机器翻译的研发工作,那个时候是传统的机器翻译,根据自然语言的处理方法。后来IBM再次引导了新潮流,将语音识别的核心技术统计方法使用在机器翻译上,Peter Brown这些人把语音翻译的质量推向了新高度。过去的几年因为神经网络学习的进步,我们再次把机器翻译推向了新的高度,但还没有达到人的水平。

非常振奋人心的是,今年微软公司首次在公开测试当中中英新闻翻译当中第一次达到了类人的水平,这是非常了不起的历史性里程碑,这样对帮助中国的声音走向世界是毫无疑问的,因为翻译的水平和专业人员是同等可比的。

微软不仅是在研发上进行推广,实际上很多产品已经落地。比如PPT,你们只要下载一个Presentation Translator的插件,所有的讲话可以同声翻译、同声传录,而且是免费的。下载以后可以支持60种语言、100个人在课堂上同步交流。演讲之前可以让大家扫描二维码,通过微软翻译的手机应用可以加入对话。大家知道,字幕当中只能显示一种语言,如果是60种语言怎么办?没关系,也可以显示在你的手机上面。

分享一下我个人的经历,我在八十年代离开清华,当时在清华学的都是美式英语,然后到苏格兰爱丁堡大学留学,当时我就懵了,因为苏格兰教授的口音非常严重,当时我就想要是有一个字幕机多好?那是三十年前的痛点,今天可以很骄傲地告诉大家,这个痛点早就可以由微软Office免费为大家提供同声翻译服务。大家可以让教授在台上讲苏格兰英语,台下可以在你的手机上看到从希腊文到广东话的近60种语言的实时字幕翻译。这是非常振奋人心的时刻,如果今天还有哪位同学要去苏格兰留学,我想大家不会再为苏格兰英语而苦恼了。

所谓的中英翻译达到人的水平是怎么回事?这是一个标准的新闻翻译任务,也是在业界广泛使用的。在这之前,中国的搜狗在这个测试集上做到了最优秀,可以看出如果要人来评估,第三行的搜狗基本上是62分,就像老师打分一样,把这个东西翻译过来以后如果是十全十美的学生可以拿100分,如果出了很多错误的话这个老师非常严厉,可能会给零分。在微软技术突破之前,业界在这个测试任务上最先进的机器翻译系统是中国搜狗,达到了62.3分,现有的产品我也不说是谁的产品了,以免大家觉得我们对同行有不诚之意,只有54分左右。如果今天用微软的Microsoft Translator也只有56分,勉强及格。微软最新的机器翻译突破分数达到69分,拿到中英翻译执照的专业翻译人员得出的结果是68.5分,所以如果大家是翻译人员水平是67.3分。这是最新的机器中英翻译第一次取得历史性突破,对中国走向世界是非常有积极意义的。

下面简单介绍一下这个突破是怎么回事,它的主要核心技术用的是Transformer的机器翻译模型。

微软亚洲研究院自主研发的Dual Translation Learning,就是大家在中英翻译的时候,翻译成英文后再用一下反向翻译,就是英翻中,保证这两种翻译的一致性比较好,可以得到一个最高、最优的联合优化目标函数。通过这样一个正向和反向的翻译,我们可以大大提高现有机器翻译的质量,这是和人进行翻译的过程类似的机器学习的新算法,机器翻译上取得了长足的进步。

大家在做翻译作业的时候翻完了一遍是不是想再翻一遍把它优化?所以我们还有一个Deliberation,就是可以在第一次翻译的基础上同步优化,这样也更进一步提高了机器翻译的质量。

我们还有从左到右、从右到左的联合优化函数,再一次提高了机器翻译的质量,就是因为这些联合系统的组合造就了我们历史性地第一次达到了中翻英超人的水平。要做其它语言同样是没有问题的,我们希望其他语言和中英翻译的落地很快就会产业化,再再过一些时候你们再用Microsoft Translator的时候会享受到与真人相似的机器翻译质量。

这是微软公司在斯坦福大学对话文本理解上的进步,过去的几年当中斯坦福大学建立了图像认识的标准,现在自然语言处理方面也有一个华人教授和他的团队建立了阅读理解系统,微软亚洲研究院和微软的同事们又一次达到了超人的水平。

特定的认识对话方面的水平确实是相当高的,用的方法也像机器学习、机器翻译的系统一样有一个Embedding,通过不断的深度优化达到最优的结果,就像现在的机器翻译一样。

刚才我讲的过程是从认知到感知的循环系统,大家在对话的时候闭着眼睛也能听懂,但听懂的效果不是很好,睁开眼睛的话一定会帮助你理解语义,所以在人的交互过程当中一定是Congnitive Intelligence和Perceptive Intelligience的共同进展,现在自主学习、知识积累和长远规划方面没有多大进展,所以大家不要听人工智能的忽悠,现在我们基本上还早得很。机器翻译现在是基于这两种智能过渡的一个小成果。我们非常高兴,也非常激动人心,因为从感知到认知的过程当中人工智能深度学习终于有了一个长足的进步。

微软AI的平台把所有的认知服务都打包到了Azure这个云上,从最底层的核心架构到最高层的算法都有,大家可以去微软的平台选用、享受、分享微软的最新人工智能研发进展和工程化的结果。

这是第三方对微软、Google和亚马逊在语音和语言API方面的评估,可以看出微软中间绿颜色的比较多,这当然是符合大家预期的。另外想介绍一下几个简单的例子:极易中文学校是在西雅图的一个创新。海外的很多华人学习中文非常困难,他们用微软的语音认知服务,小孩学中文的兴趣大大进步了,不仅是兴趣进步,而且做家庭作业和掌握中文的速度也有一个长足的进步。所以用人工智能服务于教育,帮助小孩扩展中文文化,这在西雅图极易中文学校已经得到了非常高度的认可。我们知道中国的华为公司包括Mate10都预装了微软认知服务的机器翻译系统。我们最近跟小米生态系统中要推出的魔芋翻译机,更是人工智能翻译的一大杰出代表。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29740

    浏览量

    268037
  • 人工智能
    +关注

    关注

    1789

    文章

    46615

    浏览量

    236956

原文标题:AI 翻译能够取代人类?微软黄学东:我们仍在感知智能和认知智能的过渡期

文章出处:【微信号:gh_ecbcc3b6eabf,微信公众号:人工智能和机器人研究院】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    智能玩具用离线语音识别芯片有什么优势

    随着科技的发展,很多智能电子产品和儿童玩具实现了与人类的交互,语音芯片在这些人机交互中起到了不可替代的作用语音识别芯片在智能玩具中的应用就
    的头像 发表于 09-20 10:00 215次阅读
    智能玩具用离线<b class='flag-5'>语音</b>识别芯片有什么优势

    人类信息存储进化

    人类有智慧之后,就穷尽办法来存储和传递信息。
    的头像 发表于 08-30 10:14 391次阅读

    在运算放大器的输出端接一个电阻到地是起到什么作用

    请问一般在运算放大器的输出端接一个电阻到地是起到什么作用
    发表于 08-19 07:31

    XTR111中的D6是二极管吗?能起到什么作用

    XTR111中的D6是二极管吗?他能起到什么作用
    发表于 08-19 06:09

    智慧用电对学校起到至关重要的作用

         智慧用电对学校起到了多方面的重要作用: 1. 保障用电安全 : · 实时监测电气线路的运行状况,如电流、电压、漏电等,及时发现潜在的电气故障和安全隐患,例如线路老化、短路等问题,预防电气
    的头像 发表于 08-14 17:07 156次阅读
    智慧用电对学校<b class='flag-5'>起到</b>至关重要的<b class='flag-5'>作用</b>?

    LM3311脚在该电路中具体起到什么作用?CF电容怎样放电的?

    LM3311脚在该电路中具体起到什么作用CF电容怎样放电的
    发表于 08-13 07:51

    KT142C语音芯片工作电压多少?电流是多少?串口波特率多少?多大的喇叭?

    KT142C-sop16语音芯片ic工作电压多少?电流是多少?串口波特率是多少?支持多大的喇叭?
    的头像 发表于 05-23 09:45 405次阅读
    KT142C<b class='flag-5'>语音</b>芯片工作电压多少?电流是多少?串口波特率多少?<b class='flag-5'>多大</b>的喇叭?

    全新工业制造时代当中,EM-I12U加固平板终端起到了哪些决定性作用

    传统的工业生产、流水线操作都进入了智能化模式当中,可见效率、质量、价格、数据化已经摆到了每个行业的面前。
    的头像 发表于 02-18 09:58 224次阅读

    语音数据集在智能驾驶中的关键作用与应用

    一、引言 随着智能驾驶技术的快速发展,语音识别技术在其中扮演着越来越重要的角色。而语音数据集作为语音识别技术的基石,其质量和规模对整个系统的性能起着至关重要的作用。本文将深入探讨
    的头像 发表于 01-31 16:22 410次阅读

    语音通信线路板有哪些类型的功能和作用

    语音通信线路板有哪些类型的功能和作用语音通信线路板是一种用于通信设备的重要组成部分,它具有多种功能和作用。下面将详细介绍语音通信线路板的
    的头像 发表于 01-17 16:26 779次阅读

    电阻电容并联后在电路中起到什么作用

    电阻和电容并联,运放输出脚和地之间并联电阻电容,这个电阻容并联起到了一个什么作用,原理是什么?不太像是低通或高通滤波器,那样的话电阻和电容是串联的
    发表于 01-14 15:10

    语音数据集:推动智能语音技术发展的关键驱动力

    随着人工智能技术的不断进步,智能语音技术已经成为我们日常生活中不可或缺的一部分。语音数据集作为智能语音技术的核心,对于推动其发展起到了至关重要的作用
    的头像 发表于 12-28 13:46 491次阅读

    语音数据集:智能语音技术的基石与挑战

    随着人工智能技术的飞速发展,语音技术已成为人机交互领域的重要突破口。语音数据集作为支撑语音技术研发的核心资源,对于提高语音识别、合成及自然语言处理等技术的性能具有至关重要的
    的头像 发表于 12-28 11:28 665次阅读

    主轴之奥秘:探索主轴的定义、作用与应用?|深圳恒兴隆机电a

    中也发挥了重要作用。通过观察不同物种的主轴结构,科学家可以推测出生物体的进化历程。这一部分将介绍一些生物进化领域的研究成果,展示主轴在演化中的影响。五、主轴的未来发展趋势在技术不断进步
    发表于 12-11 10:27

    情感语音识别的前世今生

    一、引言 情感语音识别是指通过计算机技术和人工智能算法,对人类语音中的情感信息进行自动识别和理解。这种技术可以帮助我们更好地理解人类的情感状态,为智能客服、心理健康监测、娱乐产业等多个
    的头像 发表于 11-12 17:33 599次阅读