0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

推出“唇语识别”技术, 搜狗再上热门 不出声也能“听”懂你

Qp2m_ggservicer 2017-12-15 11:26 次阅读

人工智能概念火热的当下,人机交互的发展方向也正趋于多元化,从最初的键盘打字到触控屏,再到现在的语音交互和手势交互,无一不是前沿技术落地的结果。

12月14日消息,搜狗今天正式推出全新的人机交互新技术——唇语识别,这也是业内首个公开演示的唇语识别系统,通过机器视觉识别,不用听声音,仅靠识别说话人唇部动作,就能解读说话者所说的内容。

与已有的语音识别产品不同,唇语识别是一项基于机器视觉与自然语言处理于一体的技术,因此在研发难度上比语音识别大得多。

搜狗语音交互中心技术总监陈伟告诉记者,搜狗的唇语识别技术首创了复杂端到端深度神经网络技术进行中文唇语序列建模,通过数千小时的真实唇语数据训练,加上搜狗在自然语言处理方面的强大优势,最终取得了业界领先的唇语识别效果。

按照搜狗方面提供的数据显示,在非特定人开放口语测试集上,搜狗唇语识别系统已经达到60%以上的准确率,超过google发布的英文唇语系统50%以上的准确率,在垂直场景如车载、智能家居等场景下甚至已经达到90%的准确率。

在这里要着重说明的是,中文唇语识别的难度要高于英文唇语识别。

陈伟解释到,中文有四个声调,英文的基本发音单元在50个左右,而如果中文的声韵母切开来看,建模数量会超过200个。

在刚结束不久的乌镇世界互联网大会上,搜狗唇语识别技术亮相,在业内大多数唇语识别技术实用性尚待考证的环境下,成功完成了业内首个中文唇语识别系统的公开演示。

国内大部分企业都扎堆聚集在智能语音、图像识别等领域,陈伟表示,搜狗开发唇语识别技术是希望解决嘈杂环境下的语音识别准确度问题。

目前有两种方式可以解决这个问题:一是硬件层面的语音增强,对噪音进行屏蔽;二是增加多模态信息,比如唇语识别的图像信息。

作为人机交互的形式之一,未来唇语识别技术可以辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。

比如在车载场景下,周围噪音过大时会对语音指令产生干扰,通过唇语识别技术则可以规避干扰,保证人车交互的准确性和稳定性,日常不便发声的公共场所也可以保证说话内容的私密性;在安防领域,由于目前多数监控只有摄像头没有麦克风,往往只能看清嘴型却不知道在说什么,给案情分析带来很多难题,而唇语识别技术可以帮助公安人员获取重要的讲话信息,为公共安全提供有效支持。

除此之外,唇语识别技术还能发挥巨大的公益价值,帮助先天性听障人群或老年人,让他们更好地理解和表达自己。

搜狗近年来一直在集中资源做自然语言的研究,目前在语音识别、语义理解、机器翻译等方面均取得了比较领先的成果并实现产品落地,此次推出唇语识别技术,将推动整个AI行业的技术革新。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 搜狗
    +关注

    关注

    0

    文章

    90

    浏览量

    13930

原文标题:GGAI 技术前沿 | 搜狗推出“唇语识别”技术:不出声也能“听”懂你

文章出处:【微信号:ggservicerobot,微信公众号:高工智能未来】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    亮亮视野携者AR字幕眼镜亮相2024福祉博览会

    全球康复辅具产业注入新的活力与动力!亮亮视野携者AR字幕眼镜亮相展会,以其创新的科技和服务模式,获得众多参观观众、机构的一致好评。
    的头像 发表于 12-05 16:33 343次阅读

    语音识别与自然语言处理的关系

    了人机交互的革命,使得机器能够更加自然地与人类沟通。 语音识别技术概述 语音识别称为自动语音识别(ASR),是指将人类的语音转换成文本的
    的头像 发表于 11-26 09:21 389次阅读

    语音识别技术的应用与发展

    语音识别技术的发展可以追溯到20世纪50年代,但直到近年来,随着计算能力的提升和机器学习技术的进步,这项技术才真正成熟并广泛应用于各个领域。语音识别
    的头像 发表于 11-26 09:20 461次阅读

    TAS5630强行复位后有时出声音,但一会就保护了,为什么?

    1.加电后,处于保护,SD低电平,otw1 otw2 高电平 2.强行复位后有时出声音,但一会就保护了。 请问是何问题?
    发表于 11-05 07:52

    tas5186为什么死活不出声

    已经按照电路图接好了,就是不出声,reset 一点多伏,SD OTW负几毫伏,实在不可能,都接好了啊,大神帮我分析下,电压GVDD12.1V,PVDD33V,死活不出声
    发表于 11-01 08:26

    使用TAS5630DKD 保护后,再上电怎么不能恢复,为什么?

    用同一块电路板, 1、使用TAS5630DKD 保护后,再上电怎么不能恢复(依旧保护); 2、使用 TAS5630B DKD保护后再上电可以恢复,但某些时刻不能立刻恢复,得放置一段时间(时间没有
    发表于 10-25 07:49

    TAS5754M在电脑上Motherboard板弄不出声,是什么原因?

    大家好,TAS5754M 在电脑上Motherboard板弄不出声输入是USB源是USB ,不知什么原因,附件是PurePath设置介面。 我的初始化设置是这样的 Page0: Reg 0x25
    发表于 10-23 08:19

    使用LM49350做音频开发,调来调去还是发不出声音怎么办?

    使用LM49350做音频开发,LM49350的寄存器太多了,调来调去还是发不出声音。 因为项目时间比较紧,想请教一下大家有什么可以参考的LM49350的寄存器配置?
    发表于 10-18 06:47

    PCM1794A I2S 16bit数据不出声音的原因?

    PCM1794A支持I2S协议的16bit数据吗?测试时不出声音,切换到24bit数据就能够正常出声了,手册里I2S协议给了参考波形是24bit数据的,PCM1794A是否支持向下兼容
    发表于 09-30 08:06

    科技无人机反制技术

    科技无人机反制技术,顾名思义,是一种针对非法入侵无人机的技术手段。它通过采用雷达探测、光学识别、无线电干扰等多种方式,实现对无人机的精准定位、快速
    的头像 发表于 06-11 16:26 341次阅读
    知<b class='flag-5'>语</b>科技无人机反制<b class='flag-5'>技术</b>

    科技无人机反制新突破:激光打击技术引领安全新风尚

    在无人机技术迅猛发展的今天,如何有效应对无人机带来的潜在威胁,成为公共安全领域亟待解决的问题。知科技以其创新的无人机反制手段——激光打击技术,为这一难题提供了切实可行的解决方案。 知
    的头像 发表于 05-15 16:22 469次阅读

    **十万级口语识别,离线自然说技术,让智能照明更懂你**

    NLP技术。该技术基于端到端语音识别技术及端侧NLP技术,可识别端侧十万级别口语说法,打破传统的
    发表于 04-29 17:09

    华为公开智能驾驶新专利:可识别并报警

    华为技术有限公司最近公开了一项关于“报警方法、装置以及智能驾驶设备”的新专利,这项创新技术为智能驾驶领域注入了新的活力。
    的头像 发表于 03-26 09:26 646次阅读

    颜色识别边界问题

    颜色识别出现这种样的左右边框可能是什么原因?我感觉代码好像没有问题上下边界画出来左右边界就画不出
    发表于 03-08 17:29

    车内语音识别技术:智能驾驶的革新之源

    一、引言 随着科技的飞速发展,智能驾驶已经成为现代交通领域的热门话题。作为智能驾驶的关键技术之一,车内语音识别技术正在改变我们对驾驶的认知。它不仅提高了驾驶的便捷性和安全性,
    的头像 发表于 02-19 10:10 446次阅读