依图强势进军智能语音，联合微软发布语音开放云平台-电子发烧友网

依图强势进军智能语音，联合微软发布语音开放云平台，携手华为发布软硬件一体化的智能语音联合解决方案。依图语音识别算法在全球最大开源中文数据库AISHELL-2上词错率仅3.71%，比原业内领先者提升约20%，大幅刷新现有纪录。比对各家语音识别算法，当今智能语音战场，英雄唯讯飞与依图尔？

2018年底，智能语音市场意外杀入一匹黑马。

素来被认为是“人脸识别独角兽”——或者更宽泛一点说，“计算机视觉独角兽”的依图科技，公布了他们中文语音识别技术的最新突破，以及令人瞩目的产业布局。

技术上，在全球最大的中文开源数据库AISHELL-2中，依图短语音听写的字错率（CER）达到3.71%[1]，相比原业内领先者提升约20%，大幅刷新现有纪录。

产业上，依图联合微软推出基于Azure云服务的语音开放平台，并携手华为发布软硬件一体化的“智能语音联合解决方案”，将依图语音识别技术提供给第三方应用开发者。

依图首席创新官吕昊博士

“语音一直以来都是依图关注的课题。作为对人工智能有着深入理解和推广应用的公司，我们自然而然进入语音识别领域。”依图首席创新官吕昊博士表示，依图是一家“人工智能公司”。

“作为语音行业的‘新生’，我们还是有很多向‘老生’学习的地方，但我们立志推动行业创新与发展，做世界最好的中文普通话语音识别技术。”

智能语音竞争还未开始，依图要做世界最好的中文语音识别

万物互联，语音为先。

语音识别是AI理解世界最重要的组成部分，也是AI能听会说善理解的必要条件。

近年来，深度学习的爆发驱动了语音识别技术的高速发展，催生了一大批智能语音创业公司，其中不乏实力强劲的竞争者。

除了中国智能语音“一哥”科大讯飞，百度、阿里、腾讯、京东等企业纷纷推出了智能语音产品，再加上雄踞国际战略高点的亚马逊、谷歌、微软……2017年底掀起的智能音箱“百箱大战”硝烟还未褪去，依图为何选择这个时间点入局？

“我觉得竞争都还没开始，不存在入场的问题。”依图科技联合创始人林晨曦在2018年1月接受新智元采访时说。

智能语音市场看似巨头林立，但林晨曦认为创业公司大有可为，依图不仅要做语音和自然语言处理，还要做到像人脸识别那样，超越人类水平。

依图技术负责人表示，尽管一些机构宣传其语音识别已经达到乃至超越了人类水平，但多数情况下，这些结果都来自安静、近场等受限场景。

“机器在语音环境比较理想的情况下是可以识别某些生僻词，或者在专有名词等识别方面比人强。但人的鲁棒性还是强于机器，人在熟人且熟悉领域上的语音识别还是明显能够做过算法。”

目前语音识别仍然存在很多瓶颈，例如在发音不清楚的情况下，如何结合更强的上下文语义信息给出准确的语音识别；如何在语音识别的全链路上，优化远场识别的性能；特殊情况的处理，比如人称代词、语气词助词；还有鸡尾酒问题（多人同时说话下，能够准确识别其中一人的语音）、电话场景的识别（低采样率下的语音识别）。

此次依图科技在语音识别技术方面的突破，不仅意味着依图首次涉足语音识别领域便已经跻身中文语音识别第一阵营，同时也说明语音识别在技术层面还有足够的进化空间，远远没有达到“超越人类”。

依图预计，在未来6个月到12个月，语音识别技术的算法性能将呈指数级增长，更多的场景将被解锁，为行业应用带来更大的价值。

科大讯飞和依图属于第一梯队，BAT差得远

作为进军智能语音的第一步棋，依图发布了“听写大会”微信小程序，它能将时长不超过60秒的语音转写成文字，支持普通话，并且兼容多种口音。

“听写大会”微信小程序：业界也属于首次公开透明地比对各类算法的水平差异

不过，“我们希望大家不要仅仅是关注在API本身，”依图首席创新管吕昊表示：“我们希望借助这个API，让大家去关注到整个语音识别行业的发展情况。”

吕昊说，一直以来语音识别业界都没有公开透明的语音识别比对，通过“听写大会”微信小程序，用户可以直观感受到各家语音识别技术的真实表现，在业界也属于首次公开透明地比对各类算法的水平差异。

讯飞依图BAT各家算法差异巨大，讯飞依图位列第一阵营

“目前语音识别业界存在两种认知误区，”吕昊说：“一种是极端的好，也就是各家都好没有差异；一种是极端的差，认为都不能解决问题。”

实际情况是，“科大讯飞的语音识别能力比BAT领先很多。在场景测试中，除了依图和科大讯飞之外，大部分厂家的算法字错率抖动大，意味着场景的通用性差。”

依图此次推出的中文语音识别算法，与业内原有领先者相比，不仅大幅提升了识别准确率，而且在单个算法模型上，有极为出色的多场景适用性表现。

一般认为，中文语音识别的字错率低于3%时不会影响可读性，而超过15%则毫无可读性。这是语音识别的两条红线，在不同场景下，不同算法的表现可能会有很大差异。

在全球最大中文开源数据库AISHELL-2[2] 的三个测试子集，以及来自第三方的近场口音测试集（Accent）、近场安静聊天测试集（Chat）、语音节目测试集、电话测试集、远场测试集等测试场景中，依图均处于业界领先水平，而且字错率几乎全部在15%以下。

其中，在AISHELL2的-2018A-EVAL数据集中，依图的识别准确率高达96.29%，字错率仅为3.71%，领先第二名约20%。

这意味着依图在语音领域做到了第一梯队 (甚至是领先) 的水平，在多场景的适用方面，也体现出显著优势。

左有微软，右有华为，用技术想象力撬动语音市场

“依图的语音API产品和语音开放平台刚刚上线，我们欢迎越来越多的开发者和客户使用依图的产品，共同改进产品性能，并探讨更具突破性的应用场景。”吕昊说。

关于未来预计推出的语音产品及其功能，吕昊表示，“实际上，我们认为技术和场景是比产品和功能更关键的要素，推动了技术发展进步，我们才可以领略到以前看不到的更多可能性，解决很多以前想象不到的问题。今天语音识别跟人类的能力还有巨大的差距，依图希望能够携手业界共同推动行业进步。”

发布会上，依图宣布与微软Azure云服务联合发布语音开放平台，将行业领先的语音识别技术能力开放给第三方应用开发者。此外，依图还将与微软在智能语音领域展开更深层次的合作，共建AI生态。

2018年4月，微软全球执行副总裁沈向洋（右）访问依图。依图科技联合创始人、CEO朱珑（左）曾在微软亚洲研究院（MSRA）研发人脸识别算法，导师就是沈向洋。依图科技联合创始人林晨曦，业务技术副总裁吴岷，研发总监周健等也都来自MSRA。图片来源：依图科技

与此同时，依图也携手华为联合发布“智能语音联合解决方案”，该方案基于依图语音开放平台，以及华为全栈全场景 Ascend（昇腾）系列芯片和面向数据中心侧的 Atlas 300 AI加速卡，将双方强大的技术研发能力与生态服务能力深度结合，形成软硬件一体化的联合解决方案，进一步帮助提升开发效率。

自2016年成为合作伙伴以来，依图和华为已形成全方位联动。今年3月，双方共同发布“华为－依图视频云人像大数据”解决方案，布局全球城市级公共安全。10月，2018华为全联接大会期间，依图作为大会安保唯一AI合作伙伴，与华为联合发布了分支视频云联合解决方案、智慧警务云解决方案和智慧园区解决方案，在平安城市、智慧警务、大数据应用等方面持续加深合作。

10月9日，华为轮值董事长徐直军（左二）、华为安平系统部总裁岳坤、华为企业BG行业Marketing与解决方案总裁喻东（左三）等一行到访依图。来源：依图科技

此前，有传言微软Azure云服务在中国的数据中心将使用华为的昇腾芯片，这一消息尚未得到证实。但本次由依图串接起来的微软、华为合作链，不禁让人浮想联翩。

根据2018中国语音产业联盟年会上周发布的《2017-2018中国智能语音产业白皮书》，全球智能语音产业规模持续增长，2014年至2018年，中国智能语音产业规模由30亿元增长至159.7亿元。

左有微软，右有华为，再加上自身的技术，依图在智能语音开局便凑齐了一手好牌。

最后要说的是依图科技的首席创新官吕昊。吕昊今年2月加入依图，之前是谷歌的研究科学家。根据依图科技官方介绍，吕昊在谷歌期间曾负责孵化安卓APP启动推荐系统，这是全球首个移动端APP启动推荐系统，也是全球首个基于机器学习的安卓产品。他会带领依图与华为孵化出怎样的智能语音联合解决方案？

林晨曦曾表示好的人才需要对未来充满想象力，朱珑也在文章里写因为看见，所以相信——现在这句话基本成了依图的Slogan。

“99%识别率的算法和99.99%的算法，区别在于可解锁的应用场景，对技术商业价值的想象力将回答AI的场景在哪里以及多快到来。”

“我们认为，目前语音识别仍处于初步发展的阶段，依图将始终保持在技术层面的投入，通过技术的突破来解锁更多的可能，也欢迎合作伙伴与我们共同探索语音技术的行业应用。”吕昊说。

注释

[1] 一般在英文语音识别中用“词错率”（WER），因为最小单元是词；中文语音识别一般使用“字错率”（CER），因为最小单元是字.

[2] AISHELL-2是AISHELL Foundation和希尔贝壳创建的开源数据库，含有1000小时中文语音数据，由1991名来自中国不同口音区域的说话者参与录制，经过专业语音校对人员转写标注，通过了严格质量检验，数据库文本正确率在96%以上，录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域.

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

微软

微软

+关注

关注
4

文章
6643

浏览量
104861
数据库

数据库

+关注

关注
7

文章
3868

浏览量
65025
智能语音

智能语音

+关注

关注
10

文章
790

浏览量
49066

原文标题：依图做语音了！识别精度创中文语音识别新高点

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

stm32语音通话

目前再做一个stm32语音通话，通过麦克风采集adc信号，在通过4G模块传输到云，然后另一个4G模块接受云的数据使用DAC输出，目前就是说话会断断续续的，可能是网络传输问题，请问各位老哥有没有什么解决的办法？只需要做到半双工即可

发表于 03-10 10:52

HarmonyOS NEXT 应用开发练习：AI智能语音播报

一、DEMO思路在这个HarmonyOS NEXT原生应用DEMO中，我们将使用ArkTS开发语言创建一个简单的AI智能语音播报应用。该应用能够接收用户输入的文本，并使用TTS

发表于 01-06 15:33

Tuya物联网平台阿里云版：助力客户打造融合开放的专属物联平台

在2024年9月的云栖大会上，涂鸦智能与阿里云联合发布了Tuya物联网平台阿里云版。此产品一经问世，就获得了来自新能源、新制造、新零售、智慧

发表于 01-03 17:32 •621次阅读

Tuya物联网<b class='flag-5'>平台</b>阿里<b class='flag-5'>云</b>版：助力客户打造融合<b class='flag-5'>开放</b>的专属物联<b class='flag-5'>平台</b>

解锁个性化语音交互新时代：九芯智能语音云平台，让创意声音触手可及！

九芯智能语音云平台提供全面高效安全的智能语音服务，支持自定义

发表于 01-02 16:51 •321次阅读

NV512H语音芯片赋能加湿器方案，集语音播报+平台自定义语音功能

在秋冬季节，天气逐渐转凉，空气变得干燥，加湿器成为了许多家庭和办公场所不可或缺的电器设备。NV512H语音芯片赋能的加湿器方案，不仅提升了加湿器的智能化水平，更在用户体验上实现了质的飞跃

发表于 12-26 13:35 •249次阅读

基于语音识别的智能会议系统具备哪些交互功能

标贝科技专注智能语音交互领域多年，在语音识别和语音合成领域有着多项大型企业合作案例，标贝与多个智能会议系统厂商合作，成功将

发表于 12-20 10:35 •328次阅读

基于智能语音交互的智能呼叫中心工作机制

作为实现智能呼叫中心的关键技术之一的智能语音交互技术，它通过集成自然语言处理（NLP）、语音识别（ASR）和语音合成（TTS）等先进技术，实

发表于 12-03 16:44 •467次阅读

智能语音的驱动力：揭秘8脚语音芯片在智能设备中的非凡角色

语音技术渗透生活，8脚语音芯片以微缩体积、低功耗、卓越性能成智能设备语音功能核心，集成识别、合成、压缩解码等功能，实现精准语音交互，让设备更

发表于 12-02 14:23 •293次阅读

离线语音芯片让家电变得智能

目前智能语音有多种方式，常见的有在线语音与离线语音。因为智能语音处理需要用到算力，所以刚开始都是

发表于 11-27 01:00 •316次阅读

离线语音：实现智能家居的无缝互操作

版，自然而然地成为了智能家居领域新的增长点，引领着行业迈向新的高度。智能语音，作为智能家居的启明星，早已吸引了国内外众多IT巨头的目光。谷歌以NEST为跳板，

发表于 11-15 01:02 •419次阅读

NVH-FLASH语音芯片支持平台做语音—打造音频IC技术革新

与灵活的支持平台，正逐步引领着音频设备向更高品质、更智能化方向发展。一、NVH-FLASH系列语音芯片概述NVH-FLASH系列语音芯片，以其内置的超大容量闪存技术

发表于 10-16 08:02 •336次阅读

语音集成电路是指什么意思

语音集成电路（Voice Integrated Circuit，简称VIC）是一种专门用于处理语音信号的集成电路。它通常包括了语音识别、语音合成、语

发表于 09-30 15:44 •582次阅读

智能密码、指纹锁语音芯片ic方案可存放40s语音内容 NVD语音芯片

随着科技的飞速发展，智能家居安全领域迎来了前所未有的变革。智能密码与指纹锁作为现代家庭安全防护的重要一环，其背后的语音芯片IC开发更是这一变革中的关键技术突破。智能密码、指纹锁

发表于 09-25 08:01 •385次阅读

微软网页版PPT新增语音识别及字幕生成功能

据报道，微软计划于今年六月份推出网页版PowerPoint全新语音识别功能。此项功能将能够监控PowerPoint视频中的声音，进而自动生成字幕。

发表于 05-16 14:36 •570次阅读

语音IC-智能语音芯片方案-您身边的智选升级

语音IC方案开发-智能语音升级OTP开发应用场景

发表于 04-12 17:00 •565次阅读

搜索历史

依图强势进军智能语音，联合微软发布语音开放云平台

评论

stm32语音通话

HarmonyOS NEXT 应用开发练习：AI智能语音播报

Tuya物联网平台阿里云版：助力客户打造融合开放的专属物联平台

解锁个性化语音交互新时代：九芯智能语音云平台，让创意声音触手可及！

NV512H语音芯片赋能加湿器方案，集语音播报+平台自定义语音功能

基于语音识别的智能会议系统具备哪些交互功能

基于智能语音交互的智能呼叫中心工作机制

智能语音的驱动力：揭秘8脚语音芯片在智能设备中的非凡角色

离线语音芯片让家电变得智能

离线语音：实现智能家居的无缝互操作

NVH-FLASH语音芯片支持平台做语音—打造音频IC技术革新

语音集成电路是指什么意思

智能密码、指纹锁语音芯片ic方案可存放40s语音内容 NVD语音芯片

微软网页版PPT新增语音识别及字幕生成功能

语音IC-智能语音芯片方案-您身边的智选升级