俞凯博士深度解读视觉与语音的区别-电子发烧友网

如果横向对比语音和视觉两种技术，大多数人可能会直观地认为视觉是比语音更复杂的一种技术，但事实真是如此吗？

在17日举办的中国人工智能产业大会上，思必驰首席科学家、“思必驰-上海交大智能人机交互联合实验室”主任、上海交通大学计算机教授俞凯博士在接受雷锋网采访时表示，“语音和视觉是两种不同的模态，前者是一维信号，后者是二维信号，视觉的帧率比语音低很多，因为视觉可能是一张图片或者是视频，视频一秒24帧，而语音1秒钟100帧就能听出来差别，所以从实时性来看，语音的难度要高于视觉，但是从本身处理的信息量来讲，视觉则会难于语音。”

当然语音交互涉及到的问题不仅如此，它所做的不仅仅是语音识别。

语音识别属于感知层，而感知只是语音交互的一部分

从上图来看，一个端到端的语音交互方案包括了感知、认知和知识处理三个部分。俞凯表示，“识别和合成都属于感知范畴，这部分的目的是把语音信号转为编码文字，在后端需要对转成的编码文字进行相应的理解决策以及相关的表述，这是认知。”如何把感知和认知连接起来是一个问题，也是目前思必驰正在做的一件事情。

如果只看感知和认知部分，大数据和深度学习无疑是最核心的两个因素。

俞凯举了两个例子：

不久前，微软研究院发布的最新的语音识别测试结果显示，电话语音在语音识别的测试当中已经达到了人类的水平（上图左上角），人类的水平是在5.9，而这次测试的数据达到了5.8。俞凯指出，语音识别能够达到这一水平的关键就是大幅度的计算。

第二个例子是上图左下角展示的结果，这是思必驰利用极深的神经网络在一组抗噪的语音识别上做的测试，测试结果是7.1，这是一个什么样的概念？

俞凯解释，在深度学习产生之前，全世界最好的结果是13.4，深度学习产生之后这一数值降到了12，而7.1是目前最好的结果，如果做到5以下，就达到了人类水平，事实上，在一些特定场景下，结合深度学习以及大数据的技术已经可以达到人的水平。因此，大数据和深度学习对人工智能的意义是显而易见的。

但俞凯强调，站在学术界和产业界的角度看，感知层并不是最高深的问题，远场和外噪声环境下的语音识别、非配合式的语音交互这些问题学术界和从业者进一步深入研究就可以解决。认知问题，是深度学习和大数据组合之外，业界需要探索的方向。

“认知的难点在于你并不知道什么是好的什么是坏的，我们很难去理解在什么程度上是好的，交互决策用什么精确的指标来客观的衡量它，现在有很多不同的指标提出来，所以在学术界和产业界都会存在很大的难点。”

认知计算是什么？

如果在网上查阅资料，你会发现认知计算算不上高频词，至少相比深度学习，认知计算在业界的热度还没那么高，俞凯坦言，关于认知计算业界目前还没有一个统一的定义。

那么它和深度学习相比有什么特点？

俞凯向雷锋网解释道，“深度学习是一种方法，我们可以把它用在人工智能和控制上，它解决的是输入和输出之间的映射（算法），例如输入语音，输出的是文字；而认知计算解决的是理解、反馈和学习问题，它对应于人脑当中比较抽象的推理部分，认知的输入和输出都不明确。”

它用坐标描述了语音交互在认知计算上的分类。按照对话的应用场景来看，以轮回的次数作为横坐标，结构的引进程度作为纵轴，我们就可以在坐标的象限里分成四个部分（如上图）：命令式、问答式、闲聊式和任务式四种场景。可以看出，命令式的交互和闲聊式的交互本质上都没有引进绝对的结构化信息，命令相对简单，闲聊会更复杂，而问答和任务这两种交互场景是目前应用得比较多的类型。

再来看看认知计算涉及到的技术，它包括深度（序列）学习、知识与数据双轮驱动以及强化学习。

1.深度学习带动了包括语音识别、对话交互在内的技术进步，而在认知系统里，最大的进步还是深度序列学习，即把整个文字序列看成学习目标。

2.知识与数据双轮驱动的应用越来越多，这其中出现了很多基于规则和统计混合的新的技术。

3.强化学习在AlphaGo之后被广泛关注，其在对话交互当中已经成为最前沿的一种方式，现在深度Q网络也已经被广泛应用起来了。

认知计算需要解决大数据和深度学习之外的问题

俞凯认为，深度学习和大数据是基础，但它们并不是万能的，认知计算需要解决的就是深度学习和大数据不能解决的问题。例如，一个方言识别器准确率即便达到了95%以上也不代表就有了好的交互体验，这涉及到的是深度学习和大数据之外的问题。

首先，在深度学习之外，有两个需要解决的问题：交互时机和异常处理。交互时机是指在对的时间切入交互，这里面包含了信号增强、对话状态追踪、失真及重叠语音的识别等任务；异常处理就是要知道如何去纠正，这其中的问题有异常检测及置信度衡量、异常类型划分等等。

除此之外，俞凯还介绍，大数据之外也涉及到了两个问题，即语义理解范畴延伸、知识库和应用规划的结合，这些都不是通过收集到的原始大数据就能解决的，它们都需要加入很多算法。

一言以蔽之，认知计算需要解决上述问题才能够在用户层面有好的交互体验。

“我们会看到大数据和深度学习对普适模型以及大一统方案上将有很大的进步，但是真正实际使用过程中，要一些新型技术结合进去才有可能解决，科学上的进步往往是从产业上的问题作为入手点，而提出的解决方案可能会超越大家现在的想象。”俞凯如此表示。言下之意，至少在语音交互上，产业界还存在很多问题亟待解决。

但我们对未来还是要保持乐观的心态，随着技术问题的进一步解决，语音交互领域未来会产生一些新的商业模式。俞凯告诉雷锋网，预计明年将会有很多专业领域提供语音识别服务的公司会涌现出来，如医疗、金融和教育等领域，这些都需要专业的人来做数据模型，他们只需要用一套标准化的方案就可以实现应用。换言之，虽然未来可能很难再有类似思必驰这些向第三方提供lisense的平台型的公司出现，但创业企业可以从这些平台公司获取基础技术，再根据细分行业的具体需求来形成应用，这是语音交互产业的未来一个发展方向。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

智能语音

智能语音

+关注

关注
10

文章
786

浏览量
48813
语音交互

语音交互

+关注

关注
3

文章
286

浏览量
28036
思必驰

思必驰

+关注

关注
4

文章
286

浏览量
14293

解读Air724UG低功耗4G模组软件的语音通话！

本篇文章以Air724UG模组为例，解读低功耗4G模组软件的语音通话，呈现实用教程供大家参考。

发表于 12-09 09:39 •283次阅读

<b class='flag-5'>解读</b>Air724UG低功耗4G模组软件的<b class='flag-5'>语音</b>通话！

DEKRA德凯实现高效认证与技术升级

授权(EU) 2022/30及EN 18031标准的关键要求和执行难点。深度聚焦EN 18031及RED DA网络安全认证方案在本次研讨会上，DEKRA德凯网络安全专家团队针对RED指令

发表于 11-24 14:25 •272次阅读

ASR与传统语音识别的区别

ASR（Automatic Speech Recognition，自动语音识别）与传统语音识别在多个方面存在显著的区别。以下是对这两者的对比：一、技术基础 ASR ：基于深度学习算

发表于 11-18 15:22 •531次阅读

4G模组加解密艺术：通用函数的深度解读

今天是对加解密通用函数的深度解读，我将详细讲解，建议收藏，不可错过。

发表于 11-12 09:58 •274次阅读

4G模组加解密艺术：通用函数的<b class='flag-5'>深度</b><b class='flag-5'>解读</b>

深度解读 VCXO VG7050CDN：可变晶体振荡器的卓越之选

发表于 07-24 10:58 •369次阅读

机器视觉和计算机视觉有什么区别

机器视觉和计算机视觉是两个密切相关但又有所区别的概念。一、定义机器视觉机器视觉，又称为计算机视觉

发表于 07-16 10:23 •558次阅读

计算机视觉与机器视觉的区别与联系

与紧密的联系。本文将从多个维度深入探讨计算机视觉与机器视觉的区别与联系，以期为读者提供一个全面而深入的理解。

发表于 07-10 18:24 •1572次阅读

机器人视觉与计算机视觉的区别与联系

机器人视觉与计算机视觉是两个密切相关但又有所区别的领域。 1. 引言在当今科技迅猛发展的时代，机器人和计算机视觉技术在各个领域发挥着越来越重要的作用。机器人

发表于 07-09 09:27 •693次阅读

计算机视觉和机器视觉区别在哪

计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。一、定义计算机视觉计算机视觉是一门研究如何使计算机能够像人类一样理解和解释

发表于 07-09 09:22 •468次阅读

深度学习在工业机器视觉检测中的应用

随着深度学习技术的快速发展，其在工业机器视觉检测中的应用日益广泛，并展现出巨大的潜力。工业机器视觉检测是工业自动化领域的重要组成部分，通过图像处理和计算机视觉技术，实现对产品表面缺陷、

发表于 07-08 10:40 •1108次阅读

深度学习与nlp的区别在哪

深度学习和自然语言处理（NLP）是计算机科学领域中两个非常重要的研究方向。它们之间既有联系，也有区别。本文将介绍深度学习与NLP的区别。深度

发表于 07-05 09:47 •973次阅读

深度学习在计算机视觉领域的应用

随着人工智能技术的飞速发展，深度学习作为其中的核心技术之一，已经在计算机视觉领域取得了显著的成果。计算机视觉，作为计算机科学的一个重要分支，旨在让计算机能够像人类一样理解和解析图像和视频中的信息。而

发表于 07-01 11:38 •847次阅读

机器视觉与计算机视觉的区别

很多方面有着相似之处，如基础理论、技术框架等，但它们在学科分类、应用领域、侧重点等方面存在明显的区别。本文将对机器视觉和计算机视觉进行详细的对比分析，以便读者更好地理解两者的差异。

发表于 06-06 17:24 •1363次阅读

PLC与视觉控制器的区别和关系

有着显著的区别。本文将从定义、功能、特点以及应用等方面，详细阐述PLC与视觉控制器的区别和关系，以期为读者提供全面、深入的了解。

发表于 06-06 14:10 •1509次阅读

AI语音与机器视觉开发应用系统

一、简介 AI语音与机器视觉开发应用系统是一款集成AI语音、机器视觉、深度学习基础、嵌入式Linux于一体的高端教学科研实验平台。整个教学

发表于 01-26 11:24 •422次阅读

搜索历史

俞凯博士深度解读视觉与语音的区别

评论

解读Air724UG低功耗4G模组软件的语音通话！

DEKRA德凯实现高效认证与技术升级

ASR与传统语音识别的区别

4G模组加解密艺术：通用函数的深度解读

深度解读 VCXO VG7050CDN：可变晶体振荡器的卓越之选

机器视觉和计算机视觉有什么区别

计算机视觉与机器视觉的区别与联系

机器人视觉与计算机视觉的区别与联系

计算机视觉和机器视觉区别在哪

深度学习在工业机器视觉检测中的应用

深度学习与nlp的区别在哪

深度学习在计算机视觉领域的应用

机器视觉与计算机视觉的区别

PLC与视觉控制器的区别和关系

AI语音与机器视觉开发应用系统