0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里读唇AI帮助5亿听障人士

汽车玩家 来源:venturebeat 作者:venturebeat 2019-12-06 16:00 次阅读

阿里又出黑科技。新的唇语阅读 AI 系统在识别准确率表现上不仅超越基线标准,也优于专家级人类水平,有望为全球近 5 亿听障人士带来福音。

阿里巴巴又出黑科技,AI 看唇语知内容!

实际上,能够从视频中读取嘴唇的 AI 和机器学习算法并没有什么不同。早在 2016 年,来自 Google 和牛津大学的研究人员就详细介绍了一种系统,该系统可以 46.8% 的准确度注释视频录像,这个表现明显优于专业唇语识别人士 12.4% 准确度。但是,即使是最先进的系统,也难以克服唇语识别时的歧义问题,这使唇语 AI 的性能一直难以超越音频语音识别

为了追求更好的性能,浙江阿里巴巴公司和史蒂文斯理工学院的研究人员联合设计了一种方法,称为 LIBS,该方法利用从语音识别器中提取的特征作为唇语识别时的补充信息。研究人员表示,LIBS 系统在两个基准测试中都达到了业界领先的准确度,在识别字符错误率方面,LIBS 分别较基线性能高出 7.66% 和 2.75%。

LIBS 和其他类似的解决方案一样,都可以帮助听障人士观看缺少字幕的视频。据估计,全世界有 4.66 亿人患有失能性听力障碍,约占世界人口的5%。根据世界卫生组织的数据,到 2050 年,这一数字可能会超过 9 亿。

LIBS 会从说话人的视频中以多种不同尺度提取有用的音频信息,包括序列级、上下文级和帧级。然后,系统会识别这些信息之间的对应关系,将数据与视频数据进行对齐(由于开头或结尾有时会出现采样率不一致、视频和音频序列的长度不一致等情况),并利用过滤技术来优化蒸馏功能。


LIBS 系统架构示意图

LIBS 的语音识别器和口语阅读器组件均基于注意力的 seq2seq 体系结构,这是一种机器翻译方法,可将序列的输入(即音频或视频)映射到带有标签的输出和注意力值上。研究人员对上述内容在 LRS2 和 CMLR 数据集上进行了训练,LRS2 包含来自 BBC 的 45000 多个口语句子,CMLR 则是最大的中文普通话口语语料库,包括了来自中国网络电视台网站的 10 万余个自然句(包括 3000 多个汉字和 20000 多个短语)。

不过,研究团队也表示,由于某些句子长度太短,该模型难以在 LRS2 数据集上实现“合理的”结果。(解码器从少于 14 个字符的句子中提取相关信息时会遇到困难。)但是,一旦对最大长度为 16 个单词的句子进行了预训练,解码器将可以通过对上下文级别的知识进行设置,提高 LRS2 数据中句子结尾部分的质量。

研究人员在描述其工作的论文中写道:“ LIBS 减少了对无关框架的关注。” “帧级知识提炼进一步提高了视频帧特征的可分辨性,使注意力更加集中。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    31845

    浏览量

    270676
  • 语音识别
    +关注

    关注

    38

    文章

    1745

    浏览量

    113015
  • 阿里
    +关注

    关注

    6

    文章

    447

    浏览量

    32919
收藏 人收藏

    评论

    相关推荐

    苹果AI中国战局大逆转!百度出局,阿里上位

    电子发烧友网报道(文 / 吴子鹏)据科技媒体 The Information 援引消息人士报道,苹果公司正与阿里巴巴展开合作,共同开发并推出面向中国 iPhone 用户的人工智能(AI)。目前,双方
    的头像 发表于 02-13 00:20 1688次阅读

    巨人网络与阿里云深化AI合作

    巨人网络近日宣布与阿里云进一步深化合作关系,双方将在游戏场景的AI落地应用及算力生态建设等领域展开更为紧密的合作,共同推动AI技术与巨人网络业务的深度融合。 基于近年来在“游戏+AI
    的头像 发表于 02-14 14:06 145次阅读

    阿里国际站AI升级,接入DeepSeek等先进模型

    今年春节期间,阿里国际站AI外贸产品传来捷报,成功助力商家接到了价值2000万美元的中东大单。这一成就不仅彰显了阿里国际站AI外贸产品的强大实力,也预示着其在外贸领域的持续深耕和创新。
    的头像 发表于 02-13 09:52 145次阅读

    阿里巴巴否认投资DeepSeek

    近日,有传闻称阿里巴巴计划以100亿美元的估值,投资10亿美元认购中国AI初创企业DeepSeek的10%股权。然而,阿里高管颜乔迅速对此进
    的头像 发表于 02-08 16:47 305次阅读

    阿里否认投资DeepSeek传闻

    近日,有关阿里巴巴投资AI大模型DeepSeek的传闻在市场上流传甚广。然而,阿里巴巴方面迅速对此进行了澄清,明确表示并未投资DeepSeek。 据阿里相关
    的头像 发表于 02-08 09:30 240次阅读

    阿里AI To C业务调整:天猫精灵与夸克融合,探索AI眼镜

    业务。 据知情人士透露,虽然智能互联事业群将保持独立运作,但天猫精灵业务中心负责人宋刚将直接向吴嘉汇报。此外,天猫精灵的硬件团队已经开始与夸克产品团队进行融合,共同规划新一代AI产品,并探索如何将夸克的AI能力与天猫精
    的头像 发表于 01-17 10:16 282次阅读

    中科芯:科技之光温暖人群

    树立行业标杆,讲好中国故事,传递中国声音,充分展现腾飞的中国经济、崛起的民族品牌和向上的企业家精神。近日,“崛起的民族品牌”专题系列节目对话天津中科芯科技有限公司(简称:中科芯)的创始人兼总经理
    的头像 发表于 01-13 10:54 189次阅读
    中科<b class='flag-5'>听</b>芯:科技之光温暖<b class='flag-5'>听</b><b class='flag-5'>障</b>人群

    阿里达成股东诉讼和解协议 阿里同意支付超30亿元和解

    阿里的消息总是被大家关注;我们看到在26日,阿里巴巴集团发布了一份公告,公告中称阿里同意支付4.335亿美元(换算下来约30.87亿元人民币
    的头像 发表于 10-28 16:28 428次阅读

    阿里巴巴季报出炉 阿里云二季度营收增长6%

    调整EBITA利润达到450.35亿阿里巴巴的季度经营业绩超出市场预期。AI则是一个大亮点;AI正推动阿里云重回增长。
    的头像 发表于 08-16 16:45 563次阅读

    Cohere融资5亿美元,加速AI赛道竞争步伐

    据最新金融时报报道,加拿大人工智能初创企业Cohere在最新一轮融资中成功筹集了高达5亿美元的资金,这一壮举不仅巩固了其在全球AI领域的领先地位,也显著提升了其与行业巨头如OpenAI
    的头像 发表于 07-23 14:38 610次阅读

    阿里云 all in AI 的决心

    “第一个提出MaaS的阿里云,能否成为云厂商在AI时代变革的新范本?”如何抓住AI的机会?这是进入大模型时代后,面对新的起点,各大云厂商在不断思考的问题。毋庸置疑,AI与云已经成为紧密
    的头像 发表于 05-17 08:04 323次阅读
    <b class='flag-5'>阿里</b>云 all in <b class='flag-5'>AI</b> 的决心

    阿里宣布派发约40亿美元股息 财报显示AI相关收入实现三位数同比增长

    阿里宣布派发约40亿美元股息 财报显示AI相关收入实现三位数同比增长 日前,阿里巴巴集团发布了2024财年Q4及全年业绩数据;财报显示阿里
    的头像 发表于 05-15 12:13 841次阅读

    创客打造智能眼镜,助人士理解手语

    据悉,知名创客Nekhil近期将树莓派进行深度改装,成功研发出一款可用于解读手语的智能眼镜,以解决人士的沟通问题。
    的头像 发表于 04-23 15:32 594次阅读

    阿里云内部全面推行AI写代码

    阿里云正在内部全面推行 AI 编程,使用通义灵码辅助程序员写代码、代码、查 BUG、优化代码等。
    的头像 发表于 04-07 09:22 617次阅读

    阿里大模型“通义悟”升级

    阿里旗下的强大模型产品“通义悟”近日迎来了一系列功能升级,其中包括备受瞩目的音视频问答助手“小悟”的正式上线。这一新功能凭借出色的多语言Query处理能力、长篇章文本理解能力以及指令演化框架优化
    的头像 发表于 03-21 11:30 1131次阅读