黄学东:大家好!今天我主要想和大家分享一下微软的故事,相信一定会很激动人心。但在正式分享之前,我想介绍一下人类进化的历程当中语音起到了多大的作用。
达尔文的进化论已经说明,最新的科学验证也再次证明,我们人和大猩猩DNA的相似度接近99%,就那1%的区别造就了我们是这个地球的主宰。为什么呢?因为我们更聪明吗?还是漫长的进化过程当中有什么其他因素?计算机视觉非常重要,但动物的视力其实比人还厉害,晚上的夜猫子看得比人更厉害,但我们仍然是这个地球的主宰。最重要的原因之一是我们的语音和语言,所以大家可以在今天准时地来到这个地方和我们一起讨论人工智能激动人心的进展。语音和语言对人类的进化是起到决定性作用的,当然对人工智能的进化也有同等的重要性。
微软在过去的几年当中多次创造了接近人类水平的人工智能进展。以今天的ImageNet作为图像识别的标准,微软两年前就第一次在图像识别斯坦福大学的ImageNet达到了超越人的水平。去年微软又宣布公开测试级对话系统Switchboard的最新成果最新成果。这是语音领域大家都很熟悉的一个很重要的任务,就是识别两个人在电话上的交谈,微软第一次在业界达到了超过普通人的专业水平。今年在斯坦福大学的SQuAD阅读理解挑战赛,微软再次达到了媲美人类的水平。上个月微软再次创造了在中文和英文翻译上达到了超过专业人员翻译质量的水平,这是前所未有的。所以这确实是一个激动人心的时刻,人类进化的长河当中语音起了决定性的作用,今天在人工智能的进化当中语音和语言会起到同样的作用。
去年《经济学人》有一篇封面文章,总结了过去的四十年语音和语言的重要进展,早在五十年代IBM就开始了机器翻译的工作,那个时候我还没有出生。过去的几年当中有三个很重大的历史事件:苹果第一次推出Siri,也就是手机上的个人助理。Google推出了基于神经翻译的产品,大大推动了机器翻译的进步。微软第一次在业界历史性地创造了超越人的自然对话系统——语音识别系统。
这张图显示了过去的二十年当中语音识别的同行们通过不懈的努力,创造出了很多辉煌的成果,但有一条红线,就是Switchboard错误率一直在10%以上,直到最近几年因为深度学习的进展,微软和IBM的公开评测当中一直起到了领头羊的作用。
去年微软是第一次达到了5.1%的水平,超过了普通转录人员的标准,也是非常激动人心的进展。采用的方法是组合了多种不同的深度神经网络,包括ResNet、LACE和BLSTM,通过并行的处理组合成了一个工程上完美的语音识别系统,其实在云上是不费吹灰之力的,只是计算机的资源会比较多。
微软在语音合成领域也有很多进展。我们支持将近包括50种语言的语音合成系统,而且它的质量也达到了4.3 MOS, 这是非常振奋人心的。
这是微软和哈曼音箱联合推出的联想语音识别系统,唤醒智能音箱的时候不是非常自然,微软最近和小米联合推出了全双工的语音对话系统,就是唤醒以后可以连续讲,不需要每次都说唤醒词“小娜”再说语音指令。这是微软核心的语音技术在中国落地的一个非常好的案例,它的基本思想非常简单,就是我跟你讲话,比如我见到邓院士每次都说“邓院士,今天你好吗?”“邓院士,你今天吃饭了没有?”所以大家会觉得很烦,全双工的系统只要唤醒一次,接下来就可以很自然地跟它交互。
大家可以看出,全双工的语音交互在中国已经落地,和小米的合作产品今天可以很便宜地买到一台,让它帮你扫地、开灯、看股票,这些都没问题,如果实在闲得慌的话可以和小冰聊天斗嘴,这是已经落地的产品。
和大家介绍一下最近微软在机器翻译上的重大突破。就像《经济学人》说过的,1954年开始IBM Wason就开始了机器翻译的研发工作,那个时候是传统的机器翻译,根据自然语言的处理方法。后来IBM再次引导了新潮流,将语音识别的核心技术统计方法使用在机器翻译上,Peter Brown这些人把语音翻译的质量推向了新高度。过去的几年因为神经网络学习的进步,我们再次把机器翻译推向了新的高度,但还没有达到人的水平。
非常振奋人心的是,今年微软公司首次在公开测试当中中英新闻翻译当中第一次达到了类人的水平,这是非常了不起的历史性里程碑,这样对帮助中国的声音走向世界是毫无疑问的,因为翻译的水平和专业人员是同等可比的。
微软不仅是在研发上进行推广,实际上很多产品已经落地。比如PPT,你们只要下载一个Presentation Translator的插件,所有的讲话可以同声翻译、同声传录,而且是免费的。下载以后可以支持60种语言、100个人在课堂上同步交流。演讲之前可以让大家扫描二维码,通过微软翻译的手机应用可以加入对话。大家知道,字幕当中只能显示一种语言,如果是60种语言怎么办?没关系,也可以显示在你的手机上面。
分享一下我个人的经历,我在八十年代离开清华,当时在清华学的都是美式英语,然后到苏格兰爱丁堡大学留学,当时我就懵了,因为苏格兰教授的口音非常严重,当时我就想要是有一个字幕机多好?那是三十年前的痛点,今天可以很骄傲地告诉大家,这个痛点早就可以由微软Office免费为大家提供同声翻译服务。大家可以让教授在台上讲苏格兰英语,台下可以在你的手机上看到从希腊文到广东话的近60种语言的实时字幕翻译。这是非常振奋人心的时刻,如果今天还有哪位同学要去苏格兰留学,我想大家不会再为苏格兰英语而苦恼了。
所谓的中英翻译达到人的水平是怎么回事?这是一个标准的新闻翻译任务,也是在业界广泛使用的。在这之前,中国的搜狗在这个测试集上做到了最优秀,可以看出如果要人来评估,第三行的搜狗基本上是62分,就像老师打分一样,把这个东西翻译过来以后如果是十全十美的学生可以拿100分,如果出了很多错误的话这个老师非常严厉,可能会给零分。在微软技术突破之前,业界在这个测试任务上最先进的机器翻译系统是中国搜狗,达到了62.3分,现有的产品我也不说是谁的产品了,以免大家觉得我们对同行有不诚之意,只有54分左右。如果今天用微软的Microsoft Translator也只有56分,勉强及格。微软最新的机器翻译突破分数达到69分,拿到中英翻译执照的专业翻译人员得出的结果是68.5分,所以如果大家是翻译人员水平是67.3分。这是最新的机器中英翻译第一次取得历史性突破,对中国走向世界是非常有积极意义的。
下面简单介绍一下这个突破是怎么回事,它的主要核心技术用的是Transformer的机器翻译模型。
微软亚洲研究院自主研发的Dual Translation Learning,就是大家在中英翻译的时候,翻译成英文后再用一下反向翻译,就是英翻中,保证这两种翻译的一致性比较好,可以得到一个最高、最优的联合优化目标函数。通过这样一个正向和反向的翻译,我们可以大大提高现有机器翻译的质量,这是和人进行翻译的过程类似的机器学习的新算法,机器翻译上取得了长足的进步。
大家在做翻译作业的时候翻完了一遍是不是想再翻一遍把它优化?所以我们还有一个Deliberation,就是可以在第一次翻译的基础上同步优化,这样也更进一步提高了机器翻译的质量。
我们还有从左到右、从右到左的联合优化函数,再一次提高了机器翻译的质量,就是因为这些联合系统的组合造就了我们历史性地第一次达到了中翻英超人的水平。要做其它语言同样是没有问题的,我们希望其他语言和中英翻译的落地很快就会产业化,再再过一些时候你们再用Microsoft Translator的时候会享受到与真人相似的机器翻译质量。
这是微软公司在斯坦福大学对话文本理解上的进步,过去的几年当中斯坦福大学建立了图像认识的标准,现在自然语言处理方面也有一个华人教授和他的团队建立了阅读理解系统,微软亚洲研究院和微软的同事们又一次达到了超人的水平。
特定的认识对话方面的水平确实是相当高的,用的方法也像机器学习、机器翻译的系统一样有一个Embedding,通过不断的深度优化达到最优的结果,就像现在的机器翻译一样。
刚才我讲的过程是从认知到感知的循环系统,大家在对话的时候闭着眼睛也能听懂,但听懂的效果不是很好,睁开眼睛的话一定会帮助你理解语义,所以在人的交互过程当中一定是Congnitive Intelligence和Perceptive Intelligience的共同进展,现在自主学习、知识积累和长远规划方面没有多大进展,所以大家不要听人工智能的忽悠,现在我们基本上还早得很。机器翻译现在是基于这两种智能过渡的一个小成果。我们非常高兴,也非常激动人心,因为从感知到认知的过程当中人工智能深度学习终于有了一个长足的进步。
微软AI的平台把所有的认知服务都打包到了Azure这个云上,从最底层的核心架构到最高层的算法都有,大家可以去微软的平台选用、享受、分享微软的最新人工智能研发进展和工程化的结果。
这是第三方对微软、Google和亚马逊在语音和语言API方面的评估,可以看出微软中间绿颜色的比较多,这当然是符合大家预期的。另外想介绍一下几个简单的例子:极易中文学校是在西雅图的一个创新。海外的很多华人学习中文非常困难,他们用微软的语音认知服务,小孩学中文的兴趣大大进步了,不仅是兴趣进步,而且做家庭作业和掌握中文的速度也有一个长足的进步。所以用人工智能服务于教育,帮助小孩扩展中文文化,这在西雅图极易中文学校已经得到了非常高度的认可。我们知道中国的华为公司包括Mate10都预装了微软认知服务的机器翻译系统。我们最近跟小米生态系统中要推出的魔芋翻译机,更是人工智能翻译的一大杰出代表。
-
AI
+关注
关注
87文章
31000浏览量
269333 -
人工智能
+关注
关注
1792文章
47354浏览量
238815
原文标题:AI 翻译能够取代人类?微软黄学东:我们仍在感知智能和认知智能的过渡期
文章出处:【微信号:gh_ecbcc3b6eabf,微信公众号:人工智能和机器人研究院】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论