0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

推出“唇语识别”技术, 搜狗再上热门 不出声也能“听”懂你

Qp2m_ggservicer 2017-12-15 11:26 次阅读

人工智能概念火热的当下,人机交互的发展方向也正趋于多元化,从最初的键盘打字到触控屏,再到现在的语音交互和手势交互,无一不是前沿技术落地的结果。

12月14日消息,搜狗今天正式推出全新的人机交互新技术——唇语识别,这也是业内首个公开演示的唇语识别系统,通过机器视觉识别,不用听声音,仅靠识别说话人唇部动作,就能解读说话者所说的内容。

与已有的语音识别产品不同,唇语识别是一项基于机器视觉与自然语言处理于一体的技术,因此在研发难度上比语音识别大得多。

搜狗语音交互中心技术总监陈伟告诉记者,搜狗的唇语识别技术首创了复杂端到端深度神经网络技术进行中文唇语序列建模,通过数千小时的真实唇语数据训练,加上搜狗在自然语言处理方面的强大优势,最终取得了业界领先的唇语识别效果。

按照搜狗方面提供的数据显示,在非特定人开放口语测试集上,搜狗唇语识别系统已经达到60%以上的准确率,超过google发布的英文唇语系统50%以上的准确率,在垂直场景如车载、智能家居等场景下甚至已经达到90%的准确率。

在这里要着重说明的是,中文唇语识别的难度要高于英文唇语识别。

陈伟解释到,中文有四个声调,英文的基本发音单元在50个左右,而如果中文的声韵母切开来看,建模数量会超过200个。

在刚结束不久的乌镇世界互联网大会上,搜狗唇语识别技术亮相,在业内大多数唇语识别技术实用性尚待考证的环境下,成功完成了业内首个中文唇语识别系统的公开演示。

国内大部分企业都扎堆聚集在智能语音、图像识别等领域,陈伟表示,搜狗开发唇语识别技术是希望解决嘈杂环境下的语音识别准确度问题。

目前有两种方式可以解决这个问题:一是硬件层面的语音增强,对噪音进行屏蔽;二是增加多模态信息,比如唇语识别的图像信息。

作为人机交互的形式之一,未来唇语识别技术可以辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。

比如在车载场景下,周围噪音过大时会对语音指令产生干扰,通过唇语识别技术则可以规避干扰,保证人车交互的准确性和稳定性,日常不便发声的公共场所也可以保证说话内容的私密性;在安防领域,由于目前多数监控只有摄像头没有麦克风,往往只能看清嘴型却不知道在说什么,给案情分析带来很多难题,而唇语识别技术可以帮助公安人员获取重要的讲话信息,为公共安全提供有效支持。

除此之外,唇语识别技术还能发挥巨大的公益价值,帮助先天性听障人群或老年人,让他们更好地理解和表达自己。

搜狗近年来一直在集中资源做自然语言的研究,目前在语音识别、语义理解、机器翻译等方面均取得了比较领先的成果并实现产品落地,此次推出唇语识别技术,将推动整个AI行业的技术革新。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 搜狗
    +关注

    关注

    0

    文章

    90

    浏览量

    13919

原文标题:GGAI 技术前沿 | 搜狗推出“唇语识别”技术:不出声也能“听”懂你

文章出处:【微信号:ggservicerobot,微信公众号:高工智能未来】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    TAS5630强行复位后有时出声音,但一会就保护了,为什么?

    1.加电后,处于保护,SD低电平,otw1 otw2 高电平 2.强行复位后有时出声音,但一会就保护了。 请问是何问题?
    发表于 11-05 07:52

    tas5186为什么死活不出声

    已经按照电路图接好了,就是不出声,reset 一点多伏,SD OTW负几毫伏,实在不可能,都接好了啊,大神帮我分析下,电压GVDD12.1V,PVDD33V,死活不出声
    发表于 11-01 08:26

    使用TAS5630DKD 保护后,再上电怎么不能恢复,为什么?

    用同一块电路板, 1、使用TAS5630DKD 保护后,再上电怎么不能恢复(依旧保护); 2、使用 TAS5630B DKD保护后再上电可以恢复,但某些时刻不能立刻恢复,得放置一段时间(时间没有
    发表于 10-25 07:49

    TAS5754M在电脑上Motherboard板弄不出声,是什么原因?

    大家好,TAS5754M 在电脑上Motherboard板弄不出声输入是USB源是USB ,不知什么原因,附件是PurePath设置介面。 我的初始化设置是这样的 Page0: Reg 0x25
    发表于 10-23 08:19

    使用LM49350做音频开发,调来调去还是发不出声音怎么办?

    使用LM49350做音频开发,LM49350的寄存器太多了,调来调去还是发不出声音。 因为项目时间比较紧,想请教一下大家有什么可以参考的LM49350的寄存器配置?
    发表于 10-18 06:47

    PCM1794A I2S 16bit数据不出声音的原因?

    PCM1794A支持I2S协议的16bit数据吗?测试时不出声音,切换到24bit数据就能够正常出声了,手册里I2S协议给了参考波形是24bit数据的,PCM1794A是否支持向下兼容
    发表于 09-30 08:06

    科技无人机反制技术

    科技无人机反制技术,顾名思义,是一种针对非法入侵无人机的技术手段。它通过采用雷达探测、光学识别、无线电干扰等多种方式,实现对无人机的精准定位、快速
    的头像 发表于 06-11 16:26 303次阅读
    知<b class='flag-5'>语</b>科技无人机反制<b class='flag-5'>技术</b>

    **十万级口语识别,离线自然说技术,让智能照明更懂你**

    NLP技术。该技术基于端到端语音识别技术及端侧NLP技术,可识别端侧十万级别口语说法,打破传统的
    发表于 04-29 17:09

    华为公开智能驾驶新专利:可识别并报警

    华为技术有限公司最近公开了一项关于“报警方法、装置以及智能驾驶设备”的新专利,这项创新技术为智能驾驶领域注入了新的活力。
    的头像 发表于 03-26 09:26 604次阅读

    颜色识别边界问题

    颜色识别出现这种样的左右边框可能是什么原因?我感觉代码好像没有问题上下边界画出来左右边界就画不出
    发表于 03-08 17:29

    车内语音识别技术:智能驾驶的革新之源

    一、引言 随着科技的飞速发展,智能驾驶已经成为现代交通领域的热门话题。作为智能驾驶的关键技术之一,车内语音识别技术正在改变我们对驾驶的认知。它不仅提高了驾驶的便捷性和安全性,
    的头像 发表于 02-19 10:10 411次阅读

    功放不出声音怎么修?

    功放不出声音怎么修? 功放是音频系统中不可或缺的组成部分,但有时我们可能会遇到功放无法发出声音的问题。这可能是由各种原因引起的,包括连接问题、设备故障或设置错误。在本文中,我们将详细探讨此类
    的头像 发表于 12-19 11:04 5434次阅读

    美光高性能内存与存储赋生成式AI和SR技术发展

    美光云计算高级业务发展经理 Eric Booth 90 岁的祖母患有严重的听力障碍,即使佩戴助听器很难听清别人在说什么。Eric 注意到,她需要凑近讲话者,识别他们的,努力理解他
    的头像 发表于 12-07 09:34 495次阅读
    美光高性能内存与存储赋<b class='flag-5'>能</b>生成式AI和SR<b class='flag-5'>技术</b>发展

    离线语音识别及控制是怎样的技术

    引言:  随着人工智能的飞速发展,离线语音识别技术成为了一项备受瞩目的创新。离线语音识别技术能够将人的语音转化为可理解的文本,无需依赖网络连接,极大地提升了语音
    发表于 11-24 17:41

    汽车多模态交互研究:大模型及多模态融合,推进AI Agent上车

    语音交互方面:语音交互在AI大模型的赋下,功能愈加智能化、情感化。识别、声纹识别技术的上车,使语音交互精准度得到进一步提升,控制范围
    的头像 发表于 11-24 16:12 1468次阅读
    汽车多模态交互研究:大模型及多模态融合,推进AI Agent上车