0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里读唇AI帮助5亿听障人士

汽车玩家 来源:venturebeat 作者:venturebeat 2019-12-06 16:00 次阅读

阿里又出黑科技。新的唇语阅读 AI 系统在识别准确率表现上不仅超越基线标准,也优于专家级人类水平,有望为全球近 5 亿听障人士带来福音。

阿里巴巴又出黑科技,AI 看唇语知内容!

实际上,能够从视频中读取嘴唇的 AI 和机器学习算法并没有什么不同。早在 2016 年,来自 Google 和牛津大学的研究人员就详细介绍了一种系统,该系统可以 46.8% 的准确度注释视频录像,这个表现明显优于专业唇语识别人士 12.4% 准确度。但是,即使是最先进的系统,也难以克服唇语识别时的歧义问题,这使唇语 AI 的性能一直难以超越音频语音识别

为了追求更好的性能,浙江阿里巴巴公司和史蒂文斯理工学院的研究人员联合设计了一种方法,称为 LIBS,该方法利用从语音识别器中提取的特征作为唇语识别时的补充信息。研究人员表示,LIBS 系统在两个基准测试中都达到了业界领先的准确度,在识别字符错误率方面,LIBS 分别较基线性能高出 7.66% 和 2.75%。

LIBS 和其他类似的解决方案一样,都可以帮助听障人士观看缺少字幕的视频。据估计,全世界有 4.66 亿人患有失能性听力障碍,约占世界人口的5%。根据世界卫生组织的数据,到 2050 年,这一数字可能会超过 9 亿。

LIBS 会从说话人的视频中以多种不同尺度提取有用的音频信息,包括序列级、上下文级和帧级。然后,系统会识别这些信息之间的对应关系,将数据与视频数据进行对齐(由于开头或结尾有时会出现采样率不一致、视频和音频序列的长度不一致等情况),并利用过滤技术来优化蒸馏功能。


LIBS 系统架构示意图

LIBS 的语音识别器和口语阅读器组件均基于注意力的 seq2seq 体系结构,这是一种机器翻译方法,可将序列的输入(即音频或视频)映射到带有标签的输出和注意力值上。研究人员对上述内容在 LRS2 和 CMLR 数据集上进行了训练,LRS2 包含来自 BBC 的 45000 多个口语句子,CMLR 则是最大的中文普通话口语语料库,包括了来自中国网络电视台网站的 10 万余个自然句(包括 3000 多个汉字和 20000 多个短语)。

不过,研究团队也表示,由于某些句子长度太短,该模型难以在 LRS2 数据集上实现“合理的”结果。(解码器从少于 14 个字符的句子中提取相关信息时会遇到困难。)但是,一旦对最大长度为 16 个单词的句子进行了预训练,解码器将可以通过对上下文级别的知识进行设置,提高 LRS2 数据中句子结尾部分的质量。

研究人员在描述其工作的论文中写道:“ LIBS 减少了对无关框架的关注。” “帧级知识提炼进一步提高了视频帧特征的可分辨性,使注意力更加集中。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30763

    浏览量

    268912
  • 语音识别
    +关注

    关注

    38

    文章

    1739

    浏览量

    112638
  • 阿里
    +关注

    关注

    6

    文章

    438

    浏览量

    32828
收藏 人收藏

    评论

    相关推荐

    阿里国际推出全球首个B2B AI搜索引擎Accio

    近日,在欧洲科技峰会Web Summit上,阿里国际正式推出了全球首个B2B领域的AI搜索引擎——Accio。这一创新产品面向全球商家开放,标志着阿里国际正式入局当前备受瞩目的AI S
    的头像 发表于 11-15 16:53 692次阅读

    阿里达成股东诉讼和解协议 阿里同意支付超30亿元和解

    阿里的消息总是被大家关注;我们看到在26日,阿里巴巴集团发布了一份公告,公告中称阿里同意支付4.335亿美元(换算下来约30.87亿元人民币
    的头像 发表于 10-28 16:28 347次阅读

    阿里巴巴季报出炉 阿里云二季度营收增长6%

    调整EBITA利润达到450.35亿阿里巴巴的季度经营业绩超出市场预期。AI则是一个大亮点;AI正推动阿里云重回增长。
    的头像 发表于 08-16 16:45 494次阅读

    阿里云推出首个域名AI大模型应用

    阿里云近日宣布其域名产品服务已全面完成AI化升级,并成功推出首个基于通义大模型的域名AI应用。此次升级不仅引入了“.ai”等40多个热门新域名后缀,还纳入了2000万个全球域名资源,极
    的头像 发表于 08-09 14:55 505次阅读

    Cohere融资5亿美元,加速AI赛道竞争步伐

    据最新金融时报报道,加拿大人工智能初创企业Cohere在最新一轮融资中成功筹集了高达5亿美元的资金,这一壮举不仅巩固了其在全球AI领域的领先地位,也显著提升了其与行业巨头如OpenAI
    的头像 发表于 07-23 14:38 528次阅读

    阿里巴巴完成50亿美元可转换优先票据发行

    阿里巴巴已向美国证券交易委员会递交了6-K表格,内容涉及已完成的私募发行,其中包括初始购买者有权额外购买最多5亿美元(约合36.3亿元人民币)的票据。
    的头像 发表于 05-30 10:20 496次阅读

    阿里与京东将发行可转债,拟募集超50亿美元资金

    5 月 23 日消息,彭博社透露,阿里巴巴正在考虑发行可转债筹集大约 50 亿美元资金,以支持股票回购及业务增长。据悉,阿里已与投行沟通发行事宜,且最早有望于本周启动发行程序。
    的头像 发表于 05-23 16:13 667次阅读

    阿里云 all in AI 的决心

    “第一个提出MaaS的阿里云,能否成为云厂商在AI时代变革的新范本?”如何抓住AI的机会?这是进入大模型时代后,面对新的起点,各大云厂商在不断思考的问题。毋庸置疑,AI与云已经成为紧密
    的头像 发表于 05-17 08:04 323次阅读
    <b class='flag-5'>阿里</b>云 all in <b class='flag-5'>AI</b> 的决心

    阿里宣布派发约40亿美元股息 财报显示AI相关收入实现三位数同比增长

    阿里宣布派发约40亿美元股息 财报显示AI相关收入实现三位数同比增长 日前,阿里巴巴集团发布了2024财年Q4及全年业绩数据;财报显示阿里
    的头像 发表于 05-15 12:13 770次阅读

    虹软PhotoStudio AI入驻阿里1688平台,加码B2B商拍服务!

    虹软PhotoStudio® AI(简称PSAI)喜迎新进展,已于5月11日正式入驻阿里1688平台,将为数千万网商提供高效、便捷的AI商拍服务。
    的头像 发表于 05-13 11:43 594次阅读
    虹软PhotoStudio <b class='flag-5'>AI</b>入驻<b class='flag-5'>阿里</b>1688平台,加码B2B商拍服务!

    创客打造智能眼镜,助人士理解手语

    据悉,知名创客Nekhil近期将树莓派进行深度改装,成功研发出一款可用于解读手语的智能眼镜,以解决人士的沟通问题。
    的头像 发表于 04-23 15:32 460次阅读

    阿里云内部全面推行AI写代码

    阿里云正在内部全面推行 AI 编程,使用通义灵码辅助程序员写代码、代码、查 BUG、优化代码等。
    的头像 发表于 04-07 09:22 557次阅读

    阿里大模型“通义悟”升级

    阿里旗下的强大模型产品“通义悟”近日迎来了一系列功能升级,其中包括备受瞩目的音视频问答助手“小悟”的正式上线。这一新功能凭借出色的多语言Query处理能力、长篇章文本理解能力以及指令演化框架优化
    的头像 发表于 03-21 11:30 1027次阅读

    大模型初创公司MiniMax估值超25亿美元

    近日,据业内消息人士透露,阿里巴巴集团已经领投了中国AI初创公司MiniMax的新一轮融资,此次融资后,MiniMax的估值已经飙升至超过25亿美元,显示出市场对该公司的高度认可与期待
    的头像 发表于 03-07 10:39 1467次阅读

    让“聋人”看到声音 行空板 —“AI助听器”

    世界上有各种各样的残障人士,这些人或不能说话,或听不见声音。聋人,是听力因先天遗传或后天人为因素而受损的残疾人,也叫听力障碍者,简称人。根据最近的全国人口普查统计,全中国大约有2700多万
    的头像 发表于 01-12 13:12 436次阅读