0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中国团队将计算机“词汇级唇读”精度提高到84.41%

独爱72H 来源:DeepTech 作者:DeepTech 2020-03-19 16:38 次阅读

(文章来源:DeepTech)

近年来,随着深度学习的迅速发展和广泛的潜在应用,基于计算机视觉的唇读技术受到越来越多的关注,它在实践中有许多重要的应用,如辅助语音识别、生物认证、帮助听障人士等。但是唇读任务的难度非常高,一个关键点是如何有效地获取唇部的运动信息,同时抵抗由姿势、光线变化引起的识别困难,讲话人的外貌、讲话速度变化等干扰因素,此外,如何把唇语图像特征与词汇文本进行精确关联或者区分同音词也挑战重重。

来自浙江工业大学、中国科学院智能信息处理重点实验室以及中国科学院计算技术研究所的研究人员针对这些问题,提出在局部特征层和全局序列层引入互信息约束,以增强唇部视觉特征与语音内容的关系。通过在一些主流数据集上测试,该团队提出的方法有望同时具有较好的鉴别能力和鲁棒性,以实现有效的唇读。

唇读领域有一个重要技术分支即词汇级唇读,对于该任务,需要用单个单词标签对每个输入视频进行注释,尽管在同一视频中也存在其他单词,如上图所示:(a)中的视频样本总共包括 29 帧,被注释为 “ABOUT”,但是单词“ABOUT” 的实际帧仅包括时间步骤 T=1219 的帧,这个间隔前后的帧分别对应于单词是 “JUST” 和“TEN”,而不是“ABOUT”。在基于唇语视觉的研究中,我们总是很难划分一个单词的确切边界。

这种特性要求一个好的唇读模型能够学习到同一个词标签下不同视频中反映的潜在但一致的特性,从而能够更多地关注有效的关键帧,而较少关注其他无关帧。除了不精确的词汇边界挑战外,对应于同一个词标签的视频样本总是具有极大的多样化和外观变化,如(b)所示,所有这些特性都要求唇读模型能够抵抗序列中的噪声,从而在不同的语音条件下捕获一致的潜在模式。

同时,由于唇部动作的有效面积有限,不同的词在说话过程中可能表现出相似的现象。特别是,同音词的存在,不同的词看起来可能相同或非常相似,增加了许多额外的困难,这些属性要求模型能够发现与帧级别中不同单词相关的细粒度差异,以便区分每个单词。为了解决上述问题,研究人员在不同层次上引入了互信息最大化(MIM),以帮助该模型学习鲁棒性和区分性表示,从而实现有效的唇读。

一方面,通过施加局部互信息最大化约束(LMIM)来约束每个时间步产生的特征,使其与语音内容之间具有很强的相关性,从而提高了模型发现精细的嘴唇动作的能力,以及发音相似的单词之间的细微差别,比如 “spend” 和“spending”;另一方面,引入了全局序列水平上的互信息最大化约束(GMIM),使得模型能够更加注意区分与语音内容相关的关键帧,而且在说话过程中出现的各种噪音也较少。

此外,GMIM 迫使模型学习不同样本中同一个词标签的潜在一致全局模式,同时对姿势、光照和其他不相关条件的变化具有鲁棒性;LMIM 可增强每个时间步与单词相关的细粒度运动,进一步增强不同单词之间的差异。通过将这两类约束结合起来,模型可以自动发现和区分目标词的有效重要帧,而忽略其他无关帧,进一步提高了识别的精准度。

最后,团队在两个大规模的单词级唇读数据集 LRW 和 LRW-1000 上与同行提出的主流唇语识别模型方法做了对比评估,这两个数据集的样本都是从各种不同的电视节目中收集的,并且演讲条件也有很大的变化,涵盖了包括灯光条件、分辨率、姿势、性别、化妆等在内的多种说话条件。

LRW 于 2016 年发布,包括 500 个单词的唇形样本,1000 多个演讲者,训练集中的实例数达到 488766 个,验证和测试集中的每个实例数为 25000 个;LRW-1000 数据集则是一个大规模的自然分布的字级基准数据集,总共有 1000 个中文词汇,总计大约 718018 个样本实例,持续时间约 57 小时,不过该数据集旨在覆盖不同语音模式和成像条件下的自然变化,以纳入实际应用中遇到的挑战。

在 LRW 数据集上,引入 LMIM 之后,在基线准确率基础上提高了约 1.19%,LMIM 有望为主要任务捕获更具区分性和细粒度的特征,同时引入 GMIM 则把精度提高到了 84.41%,主要得益于其对不同帧的不同关注。

不过,在 LRW-1000 数据集上因其语音条件变化较大,包括灯光条件、分辨率、演讲者年龄、姿势、性别、化妆等,此前行业最佳测试结果仅为 38.19%。在这个数据集上获得良好的识别效果仍是一个挑战,新的模型方式获得了 38.79% 的识别精度,略微优于现有的最新结果。

结果表明,该团队提出的方法在不使用额外数据或额外的预训练模型的情况下,在两个具有挑战性的数据集上相比其他唇语识别模型,呈现出一种新的实时性能状态。此外,团队表示,该方法还可以很容易地修改为其他任务的模型,从而为其他任务的研究提供一些有意义的见解。
(责任编辑:fqj)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7390

    浏览量

    87680
  • 深度学习
    +关注

    关注

    73

    文章

    5485

    浏览量

    120937
收藏 人收藏

    评论

    相关推荐

    工业中使用哪种类型的计算机

    工业计算机:稳健应用的基本解决方案各行各业对强大计算解决方案的需求日益增长,导致人们高度依赖工业计算机。这些专用系统专为典型消费电脑无法适应的环境而设计。从制造业
    的头像 发表于 10-22 17:10 255次阅读
    工业中使用哪种类型的<b class='flag-5'>计算机</b>?

    TAS5630B PBTL模式下,将音频信号幅度提高到1.5倍,后的功放需不需要提高功率?

    我使用的TAS5630B,PBTL模式,之前音频信号声音偏小,现在将音频信号幅度提高到1.5倍,不知道后的功放需不需要提高功率,还是音频信号幅度提高不影响后
    发表于 10-16 08:08

    工业控制计算机的特点 工业控制计算机的应用领域

    工业控制计算机是一种专门为工业自动化和控制系统设计的计算机。它具有高度的可靠性、稳定性和实时性,能够满足工业生产过程中对控制精度和响应速度的严格要求。 工业控制计算机的特点 高可靠性
    的头像 发表于 06-16 11:30 1370次阅读

    工业计算机与普通计算机的区别

    在信息化和自动化日益发展的今天,计算机已经成为了我们日常生活和工作中不可或缺的工具。然而,在计算机领域中,工业计算机和普通计算机虽然都具备基本的计算
    的头像 发表于 06-06 16:45 1149次阅读

    本源超导量子计算机自主制造链11类产品系列之十:中国首套量子计算机应用软件与解决方案

    本源超导量子计算机自主制造链由11个部分组成,该制造链生产的中国自主超导量子计算机已向中国用户交付多台,本源基于该制造链自主研制的中国第三代
    的头像 发表于 06-06 08:22 397次阅读
    本源超导量子<b class='flag-5'>计算机</b>自主制造链11类产品系列之十:<b class='flag-5'>中国</b>首套量子<b class='flag-5'>计算机</b>应用软件与解决方案

    《环球时报》中英文刊发中国第三代自主超导量子计算机“悟空”研制团队主要负责人专访

    《环球时报》中英文刊发中国第三代自主超导量子计算机“悟空”研制团队主要负责人专访
    的头像 发表于 06-01 08:22 306次阅读
    《环球时报》中英文刊发<b class='flag-5'>中国</b>第三代自主超导量子<b class='flag-5'>计算机</b>“悟空”研制<b class='flag-5'>团队</b>主要负责人专访

    如何选择嵌入式主板或单板计算机

    当寻求将计算平台嵌入设备、机器或外壳中时,与嵌入式或工业计算平台相比,消费或业余爱好者主板之间存在一些不容忽视的细微差别。如果没有深入
    的头像 发表于 05-21 16:31 813次阅读
    如何选择嵌入式主板或单板<b class='flag-5'>计算机</b>

    【量子计算机重构未来 | 阅读体验】+ 了解量子叠加原理

    ,发现只要是涉及量子计算机原理方面的资料,其中提及最多的就是量子叠加,直接忽视专业大神的那些不太友好的解释,只看科普性的解释:量子叠加原理是量子力学的基本原理之一;量子比特可以同时处于多个状态,这种
    发表于 03-13 17:19

    【量子计算机重构未来 | 阅读体验】第二章关键知识点

    计算机能够减少计算和操作的繁琐程度 作者从如何提高计算机的运算速度上,提出了提高计算速度的两个方
    发表于 03-06 23:17

    【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

    大语言模型训练会是一个怎样的情景。。。。。。 希望量子计算机尽快走出实验室,能够早日进入寻常百姓家,更希望我国的量子计算机取得突破,蓬勃发展,也能遥遥领先! 今天先研读至此,后续所所感将继续分享。 附
    发表于 03-05 17:37

    国产计算机平台介绍——龙芯

    你了解中国的自主平台的计算机吗?不仅是中国制造,而是由中国自主研发,可以持续迭代产品,而且还能够决定产品用途、决定技术归属权的国产计算机才是
    的头像 发表于 03-05 11:40 721次阅读
    国产<b class='flag-5'>计算机</b>平台介绍——龙芯

    中国第三代自主超导量子计算机“本源悟空”上线运行

    1月6日上午9时,中国第三代自主超导量子计算机“本源悟空”,在本源量子计算科技(合肥)股份有限公司(简称本源量子)正式上线运行。图为中国第三代自主超导量子
    的头像 发表于 01-07 08:21 779次阅读
    <b class='flag-5'>中国</b>第三代自主超导量子<b class='flag-5'>计算机</b>“本源悟空”上线运行

    量子计算机的作用有哪些

    量子计算机是一种基于量子力学原理的新型计算机,它利用量子比特(qubit)进行信息处理,具有传统计算机无法比拟的计算能力和潜力。量子计算机
    的头像 发表于 12-30 14:32 1797次阅读

    工业计算机与商用计算机的区别

    工业计算机与商用计算机的区别  工业计算机和商用计算机是两种应用于不同领域的计算机系统。虽然它们在技术方面存在一些共性,但在功能、设计、可靠
    的头像 发表于 12-27 10:50 588次阅读

    什么是后量子密码学?量子计算机vs经典计算机

    后量子密码学(Post-Quantum Cryptography,PQC)是在经典计算机上定义和执行算法,研究量子计算机和经典计算机都无法破解的新密码系统。后量子密码学的提出是为了抵抗量子计算
    的头像 发表于 12-19 11:42 1586次阅读