0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌AI探索无障碍沟通

23gi_ifanr 来源:fqj 2019-05-12 09:14 次阅读

Steve Saling 罹患肌萎缩性脊髓侧索硬化症(ALS)已有 13 年光景,这是一段人生大门逐渐关闭的过程。

ALS 俗称渐冻症,发病后肌肉僵硬,抽搐,造成说话或吞咽困难,再逐渐到手臂和腿部无力,最终失去自主控制运动的能力。英国著名物理学家霍金即患此病。Steve Saling 与人交流,是通过眼球追踪技术来控制计算机上的虚拟键盘打字,沟通十分低效。

图 | 渐冻症患者 Steve Saling

如今,在新技术的帮助下,他在观看运动赛事的精彩瞬间时,竟然可以发出欢呼。只不过,声音是通过脸部表情控制机器发出的。通过加入谷歌的 Project Euphonia 项目,Steve Saling 可以自主训练机器学习模型,当模型更了解他的面部表情,不出声即可操作 Google Home。

图 | Steve Saling 正在自主训练机器学习模型

在 2019 谷歌开发者大会上,失聪设计师 Elise Roy 与谷歌科学家、哈佛教授 Michael Brenner 共同宣布 Project Euphonia 项目。Michael Brenner 博士确信 AI 技术能解决 ALS 患者这一特定的语言障碍问题,但同时也需要大众的协助,提供更多的声音样本供模型训练。

生活中的方方面面都涉及到与他人沟通,以及被他人理解。

想象一下,如果旁人难以理解我们的说话或表达方式时,生活会变成什么样,是不是会感到不便和心情沮丧?

然而,对上千万的中风、ALS 、多发性硬化、创伤性脑损伤和帕金森氏症等神经系统疾病而产生语言障碍的人士来说,这就是他们每天都必须面对的情况。

造成语言障碍的成因有很多,有些是听力受损,有的是脑部控制语言的神经系统受到创伤,还有的是脸部肌肉不受控制,导致发音模糊,含糊不清。

非营利组织 ALS-TDI(美国 ALS 研究机构)的临床团队在过去几年中发现,即使有严重发音障碍(语言障碍)的 ALS 患者,也可以被亲密朋友和家人理解。这说明,只要有足够多的声音样本,AI 可以学习如何解释受损的声音。

看到这一技术实现的可能性后,谷歌在 2019 开发者大会上推出 Project Euphonia,计划用 AI 来了解语言障碍者的讲话方式,例如含糊不清、不完整的讲话,从而实现精准的语音转写。

此项目的声音样本主要通过与 ALS-TDI(美国 ALS 研究机构)与 ALS Residence Initiative(ALS 住宅计划)合作获得,录下 ALS 患者的声音,然后将录下的语音转成声谱图,或以更视觉化的图像方式来呈现声音。接着计算机用转录的声谱图拿来训练模型,以更准确辨识这类非典型的语音。

目前设计的 AI 模型是以典型的 ALS 相关障碍的英语人士为目标对象,相信不久后这项研究将可应用到更大范围的不同语言障碍人群。

谷歌语音研究员 Dimitri Kanevsky 是一名听力障碍者,幼年失聪后才开始学的英文,他的主要语言障碍是发音不标准,吐字模糊。

谷歌的语音转录程序显然无法对非标准发音的句子进行高精确识别。于是 Kanevsky 研究员录入了 15000 条自己的语音数据来对模型训练,起初效果并不明显,但在他的坚持下模型终于有了不错的表现,程序可以很准确识别他的声音,适应了他讲话的方式。

不同语言障碍的人群所需要的技术不同,技术实现的难度也不同,但最终实现的效果是一样的,理解和被理解。这是人类沟通的快乐源泉。

目前谷歌的 Live Transcribe 转录技术也可以作为听障人士的辅助交流工具。

图 | Live Transcribe 转录过程

此次谷歌开发者大会上,谷歌也推出了 Live Relay 功能,可以让设备在语音和文本之间进行转换,语音信息实时转化成文本,并且以语音的形式转换回来,可以帮助听力障碍或失聪人士打电话。

Live Relay 是系统中原生功能,不需要联网就可以在终端上运行,因此能确保通话的隐私性。

虽然 Live Relay 还在早期研究阶段,不过谷歌对 Live Relay 的长期发展十分乐观,这项技术不光是给语言障碍人群提供方便,未来所有用户都能因这项服务受益。比如,很多用户都曾有需要接听重要电话,但无法离开当下手边正在进行的事项的经历,在 Live Relay 的帮助下,用户不必实际与对方交谈,也能随时随地通过输入文本的方式接听电话,甚至可集成即时翻译功能,让用户能与世界各地的人通话,完全不必担心语言隔阂。

谷歌 AI 在语音识别和转录技术上已达到非常领先的水准,虽然在理解语言障碍者的发音和讲话方式还在探索中,但这无疑是离终极目标——无障碍沟通最近的一次。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6129

    浏览量

    105034
  • AI
    AI
    +关注

    关注

    87

    文章

    29952

    浏览量

    268253

原文标题:为了追求一个更真实的游戏世界,我们还缺乏什么?| 近未来 ⑤

文章出处:【微信号:ifanr,微信公众号:爱范儿】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    HarmonyOS NEXT应用元服务开发标注屏幕朗读内容的场景

    控件包含显示文本(text)、无障碍文本(accessibilityText)2个属性,其中,显示文本为用户界面上呈现的信息,无障碍文本为无障碍专有的朗读信息,不在界面上显示。屏幕朗读提取信息进行
    发表于 10-12 15:52

    开发者大会成功举办 vivo用科技搭建人与数字世界的无障碍桥梁

    2024年10月10日,vivo开发者大会在深圳举办,其中信息无障碍分会场受到外界广泛关注。vivo副总裁、OS产品副总裁、vivo AI全球研究院院长周围及全国政协委员,中国残疾人联合会理事,中国
    发表于 10-12 14:18 110次阅读
    开发者大会成功举办 vivo用科技搭建人与数字世界的<b class='flag-5'>无障碍</b>桥梁

    HarmonyOS NEXT应用元服务开发Accessibility(信息无障碍)介绍

    Accessibility(信息无障碍),是指任何人在任何情况下都能平等、方便地获取信息并利用信息。其目的是缩小全社会不同阶层、不同地区、不同年龄、不同健康状况的人群在信息理解、信息交互、信息利用
    发表于 10-09 10:29

    苹果承认使用谷歌芯片来训练AI

    苹果公司最近在一篇技术论文中披露,其先进的人工智能系统Apple Intelligence背后的两个关键AI模型,是在谷歌设计的云端芯片上完成预训练的。这一消息标志着在尖端AI训练领域,大型科技公司正积极
    的头像 发表于 07-30 17:03 675次阅读

    华为致力于推动无障碍技术发展

    的智能生活新纪元。这场聚焦前沿科技的盛会并未止步于技术的展示,而是进一步拓展至人文情怀与平等包容,用一场“湖畔对谈”无障碍活动以及TECH4ALL数字包容展馆,为我们呈现了一次科技与人文的对话。   今年已经是第三年,华为在HDC现场举办与华为无障碍用户交流
    的头像 发表于 06-29 16:13 677次阅读

    鸿蒙ArkTS声明式开发:跨平台支持列表【无障碍属性】 通用属性

    组件可以设置相应的无障碍属性和事件来更好地使用无障碍能力。
    的头像 发表于 06-11 17:30 355次阅读
    鸿蒙ArkTS声明式开发:跨平台支持列表【<b class='flag-5'>无障碍</b>属性】 通用属性

    荣耀新品将搭载谷歌AI功能,提升生成式AI体验

    荣耀于5月22日宣布,将在新款智能手机上集成谷歌AI功能,实现生成式AI体验。此外,新机还将得到谷歌云服务的支持。
    的头像 发表于 05-23 08:51 444次阅读

    谷歌增强安卓无障碍体验:用AI描述周围环境等

     据悉,Lookout是谷歌专为盲人与低视力Android用户设计的应用,旨在协助他们识别周边环境并阅读文档。此次升级后,Lookout新增了一种查找模式,可识别包括座椅、桌子等在内的七大类物品,并告知用户距离及行走方向。
    的头像 发表于 05-17 10:18 364次阅读

    谷歌发布多模态AI新品,加剧AI巨头竞争

    在全球AI竞技场上,谷歌与OpenAI一直稳居领先地位。近日,谷歌在I/O开发者大会上掀起了一股新的技术浪潮,发布了多款全新升级的多模态AI产品。
    的头像 发表于 05-16 09:28 413次阅读

    交通运输部大力推广适老化无障碍交通服务

    4月3日,交通运输部发布了关于2024年适老化无障碍交通出行服务扩容提质增效的实施方案。方案明确了出租车电动召回和网络预约车辆的“一键召唤”服务要在地级市以上的所有城市实现全区覆盖;
    的头像 发表于 04-03 16:15 863次阅读

    基于STM32H743IIT6开发的代码,是否能不经修改无障碍地运行在STM32H753IIT6上?

    基于 STM32H743IIT6 开发的代码,是否能不经修改无障碍地运行在STM32H753IIT6上?
    发表于 03-29 06:19

    苹果iOS 18和macOS 15无障碍功能升级

    Adaptive Voice Shortcuts功能可让用户把独特的口语短语绑定到无障碍设定中。用户能自行设定定制化短语,只需讲述这段话便能启动他们所需的辅助功能设置; 例如VoiceOver,语音控制,缩放等诸多现有辅助功能都能用此方法进行快速切换。
    的头像 发表于 03-08 11:08 661次阅读

    谷歌AI大模型Gemma全球开放使用

    谷歌公司近日宣布,其全新的AI大模型Gemma现已在全球范围内开放使用。这一重要举措不仅彰显了谷歌AI领域的领先地位,还为其在全球范围内的竞争力增添了新
    的头像 发表于 02-28 18:12 1080次阅读

    2023“科技无障碍”不谈价值观

    “实用”只是无障碍改造的第一步
    的头像 发表于 12-06 09:35 862次阅读
    2023“科技<b class='flag-5'>无障碍</b>”不谈价值观

    Google 无障碍功能更新 | 第二期

    为了让每个人都能体验精彩世界,Google 无障碍团队始终致力于打造更舒适的日常生活、更完善的无障碍体验。我们希望通过专题系列视频 "Google 无障碍功能更新" 与您分享近期无障碍
    的头像 发表于 11-27 18:40 528次阅读