推出“唇语识别”技术，搜狗再上热门不出声也能“听”懂你-电子发烧友网

在人工智能概念火热的当下，人机交互的发展方向也正趋于多元化，从最初的键盘打字到触控屏，再到现在的语音交互和手势交互，无一不是前沿技术落地的结果。

12月14日消息，搜狗今天正式推出全新的人机交互新技术——唇语识别，这也是业内首个公开演示的唇语识别系统，通过机器视觉识别，不用听声音，仅靠识别说话人唇部动作，就能解读说话者所说的内容。

与已有的语音识别产品不同，唇语识别是一项基于机器视觉与自然语言处理于一体的技术，因此在研发难度上比语音识别大得多。

搜狗语音交互中心技术总监陈伟告诉记者，搜狗的唇语识别技术首创了复杂端到端深度神经网络技术进行中文唇语序列建模，通过数千小时的真实唇语数据训练，加上搜狗在自然语言处理方面的强大优势，最终取得了业界领先的唇语识别效果。

按照搜狗方面提供的数据显示，在非特定人开放口语测试集上，搜狗唇语识别系统已经达到60%以上的准确率，超过google发布的英文唇语系统50%以上的准确率，在垂直场景如车载、智能家居等场景下甚至已经达到90%的准确率。

在这里要着重说明的是，中文唇语识别的难度要高于英文唇语识别。

陈伟解释到，中文有四个声调，英文的基本发音单元在50个左右，而如果中文的声韵母切开来看，建模数量会超过200个。

在刚结束不久的乌镇世界互联网大会上，搜狗唇语识别技术亮相，在业内大多数唇语识别技术实用性尚待考证的环境下，成功完成了业内首个中文唇语识别系统的公开演示。

国内大部分企业都扎堆聚集在智能语音、图像识别等领域，陈伟表示，搜狗开发唇语识别技术是希望解决嘈杂环境下的语音识别准确度问题。

目前有两种方式可以解决这个问题：一是硬件层面的语音增强，对噪音进行屏蔽；二是增加多模态信息，比如唇语识别的图像信息。

作为人机交互的形式之一，未来唇语识别技术可以辅助语音交互及图像识别，在日常生活、安防、公益等各个领域实现广泛应用。

比如在车载场景下，周围噪音过大时会对语音指令产生干扰，通过唇语识别技术则可以规避干扰，保证人车交互的准确性和稳定性，日常不便发声的公共场所也可以保证说话内容的私密性；在安防领域，由于目前多数监控只有摄像头没有麦克风，往往只能看清嘴型却不知道在说什么，给案情分析带来很多难题，而唇语识别技术可以帮助公安人员获取重要的讲话信息，为公共安全提供有效支持。

除此之外，唇语识别技术还能发挥巨大的公益价值，帮助先天性听障人群或老年人，让他们更好地理解和表达自己。

搜狗近年来一直在集中资源做自然语言的研究，目前在语音识别、语义理解、机器翻译等方面均取得了比较领先的成果并实现产品落地，此次推出唇语识别技术，将推动整个AI行业的技术革新。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

搜狗

搜狗

+关注

关注
0

文章
90

浏览量
13930

原文标题：GGAI 技术前沿 | 搜狗推出“唇语识别”技术：不出声也能“听”懂你

文章出处：【微信号：ggservicerobot，微信公众号：高工智能未来】欢迎添加关注！文章转载请注明出处。

亮亮视野携听语者AR字幕眼镜亮相2024福祉博览会

全球康复辅具产业注入新的活力与动力！亮亮视野携听语者AR字幕眼镜亮相展会，以其创新的科技和服务模式，获得众多参观观众、机构的一致好评。

发表于 12-05 16:33 •343次阅读

语音识别与自然语言处理的关系

了人机交互的革命，使得机器能够更加自然地与人类沟通。语音识别技术概述语音识别，也称为自动语音识别（ASR），是指将人类的语音转换成文本的

发表于 11-26 09:21 •389次阅读

语音识别技术的应用与发展

语音识别技术的发展可以追溯到20世纪50年代，但直到近年来，随着计算能力的提升和机器学习技术的进步，这项技术才真正成熟并广泛应用于各个领域。语音识别

发表于 11-26 09:20 •461次阅读

TAS5630强行复位后有时能放出声音，但一会就保护了，为什么？

1.加电后，处于保护，SD低电平，otw1 otw2 高电平 2.强行复位后有时能放出声音，但一会就保护了。请问是何问题？

发表于 11-05 07:52

tas5186为什么死活不出声？

已经按照电路图接好了，就是不出声，reset 一点多伏，SD OTW负几毫伏，实在不可能，都接好了啊，大神帮我分析下，电压GVDD12.1V，PVDD33V，死活不出声

发表于 11-01 08:26

使用TAS5630DKD 保护后，再上电怎么也不能恢复，为什么？

用同一块电路板， 1、使用TAS5630DKD 保护后，再上电怎么也不能恢复（依旧保护）； 2、使用 TAS5630B DKD保护后再上电可以恢复，但某些时刻不能立刻恢复，得放置一段时间（时间没有

发表于 10-25 07:49

TAS5754M在电脑上Motherboard板弄不出声，是什么原因？

大家好，TAS5754M 在电脑上Motherboard板弄不出声输入是USB源是USB ，不知什么原因，附件是PurePath设置介面。我的初始化设置是这样的 Page0： Reg 0x25

发表于 10-23 08:19

使用LM49350做音频开发，调来调去还是发不出声音怎么办？

使用LM49350做音频开发，LM49350的寄存器太多了，调来调去还是发不出声音。因为项目时间比较紧，想请教一下大家有什么可以参考的LM49350的寄存器配置？

发表于 10-18 06:47

PCM1794A I2S 16bit数据不出声音的原因？

PCM1794A支持I2S协议的16bit数据吗？测试时不出声音，切换到24bit数据就能够正常出声了，手册里I2S协议给了参考波形是24bit数据的，PCM1794A是否支持向下兼容

发表于 09-30 08:06

知语科技无人机反制技术

知语科技无人机反制技术，顾名思义，是一种针对非法入侵无人机的技术手段。它通过采用雷达探测、光学识别、无线电干扰等多种方式，实现对无人机的精准定位、快速

发表于 06-11 16:26 •341次阅读

知语科技无人机反制新突破：激光打击技术引领安全新风尚

在无人机技术迅猛发展的今天，如何有效应对无人机带来的潜在威胁，成为公共安全领域亟待解决的问题。知语科技以其创新的无人机反制手段——激光打击技术，为这一难题提供了切实可行的解决方案。知语

发表于 05-15 16:22 •469次阅读

**十万级口语识别，离线自然说技术，让智能照明更懂你**

NLP技术。该技术基于端到端语音识别技术及端侧NLP技术，可识别端侧十万级别口语说法，打破传统的

发表于 04-29 17:09

华为公开智能驾驶新专利：可识别唇语并报警

华为技术有限公司最近公开了一项关于“报警方法、装置以及智能驾驶设备”的新专利，这项创新技术为智能驾驶领域注入了新的活力。

发表于 03-26 09:26 •646次阅读

颜色识别边界问题

颜色识别出现这种样的左右边框可能是什么原因？我感觉代码好像没有问题上下边界能画出来左右边界就画不出来

发表于 03-08 17:29

车内语音识别技术：智能驾驶的革新之源

一、引言随着科技的飞速发展，智能驾驶已经成为现代交通领域的热门话题。作为智能驾驶的关键技术之一，车内语音识别技术正在改变我们对驾驶的认知。它不仅提高了驾驶的便捷性和安全性，

发表于 02-19 10:10 •446次阅读

搜索历史

推出“唇语识别”技术，搜狗再上热门不出声也能“听”懂你

评论

亮亮视野携听语者AR字幕眼镜亮相2024福祉博览会

语音识别与自然语言处理的关系

语音识别技术的应用与发展

TAS5630强行复位后有时能放出声音，但一会就保护了，为什么？

tas5186为什么死活不出声？

使用TAS5630DKD 保护后，再上电怎么也不能恢复，为什么？

TAS5754M在电脑上Motherboard板弄不出声，是什么原因？

使用LM49350做音频开发，调来调去还是发不出声音怎么办？

PCM1794A I2S 16bit数据不出声音的原因？

知语科技无人机反制技术

知语科技无人机反制新突破：激光打击技术引领安全新风尚

十万级口语识别，离线自然说技术，让智能照明更懂你

华为公开智能驾驶新专利：可识别唇语并报警

颜色识别边界问题

车内语音识别技术：智能驾驶的革新之源

搜索历史

推出“唇语识别”技术， 搜狗再上热门 不出声也能“听”懂你

评论

推出“唇语识别”技术，搜狗再上热门不出声也能“听”懂你