0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人工智能如何拯救濒危语言

NVIDIA英伟达 来源:cc 2019-01-29 15:25 次阅读

据语言学家估计,在全球化、文化同化等多种因素的影响下,到本世纪末,世界上约 7000 种的语言至少有一半将会消失。

记录及振兴濒危语言的工作充满挑战,其中部分原因在于缺乏相应的文本和语音记录。塞内卡语是北美地区六个易洛魁联盟所使用的语言之一,目前,仅有约 100 人将塞内卡语作为第一语言,另有数百位非母语人士正在学习塞内卡语。

自动语音识别 (ASR) 技术已被广泛应用于转写英语和汉语等大语种,这些语言的使用人数高达数百万至数十亿。但对于塞内卡语这类使用人数稀少且可用数据极度贫乏的语言来说,自动语言识别技术发挥出的作用只是皮毛而已。

现在,纽约罗切斯特理工学院的一组研究人员以及布法罗大学的同事正在利用深度学习技术来增强自动语音识别的功能。该项目现阶段的工作核心是塞内卡语,但研究人员的愿景是将其应用于全球各种濒危语言的保护,使之成为全人类共同文化历史的重要组成部分。

“接触不同的语言可以让我们更多地了解大脑的运作机制”,波士顿学院计算机科学助理教授兼罗切斯特理工学院研究员 Emily Prud'hommeaux 说道,“在记录一种语言时,保存下来的不仅是这种语言本身,还有人类使用语言的基本方式”。

Prud’hommeaux 及其同事选择从塞内卡语开始入手并非偶然。她表示,团队中有三名成员是塞内卡人,在此类研究中,这种直接的联系实属罕见。

项目带头人是 Robbie Jimerson,他是罗切斯特理工学院 Golisano 计算与信息科学学院的博士研究生,也是塞内卡印第安人部落中的一员,热衷于保护塞内卡语免于消亡。

“部落中的长老为塞内卡语的保护和推广付出了很大的努力” ,Jimerson 说道,“我也在寻找机会贡献自己的一份力量”。

利用生成对抗网络创建更多语言样本

目前,该项目已经进行到了第三个年头,在积累语言数据时,研究人员遇到了一些挑战。Jimerson 说,塞内卡群体在与外人分享东西时十分谨慎,所以塞内卡语的录音资料非常少。而他则迎难而上。

一开始,他把会说塞内卡语的朋友和老人当作录音对象,并请求这些人录下他们和各自朋友的谈话录音。每当有人在公共场合说塞内卡语时,他都不会错过录音的机会。此外,他还请家人录下老人讲述的古老传说,同时也搜集了互联网上一切可以公开获取的视频和录音资料。

研究团队精心编写了一款专门用来处理塞内卡语的自动语音识别模型,并通过生成对抗网络利用有限的录音创建出更多的语音样本。该模型将录音的波形文件转换为字符流,同时计算出概率并进行校正。

随后,他们将得出的数据输入深度学习模型,后者反过来增强了自动语言识别模型的准确度。

研究团队的网络采用了两种计算配置:其一是配备了九台服务器的机器学习实验室,实验室中运行着若干台 NVIDIA Tesla GPU;另一种是配备了大型服务器的大学集群,每台服务器上运行着 10 台NVIDIA Tesla P4 GPU。每个集群都运行着一系列深度学习框架,如 TensorFlow 和 Caffe。

“计算工程集群供计算机工程学院的所有学生使用,所以大家会‘争抢’资源”,Ray Ptucha 如是说,他是罗切斯特理工学院计算机工程学院的助理教授,也是本项目的另一位成员。

有了这些弥足珍贵的集群,Jimerson 可以在运行着NVIDIA TITAN X的本地机器上测试代码并检查模型的稳定性,从而避免运行可能会崩溃的模型,以至于为其他学生带来不便。

准确度更上一层楼

到目前为止,经过团队的不懈努力,其自动语音识别模型的文字错误率已由 70% 降至 56%。Prud’hommeaux 称,他们的目标是将错误率降低至 25%,这一水平相当于几年前使用自动语音识别系统处理英语语音的水平。

团队可以积累的塞内卡语语音和文字样本越多,识别错误率就会越低。(如今,英语自动语音识别模型可以达到低至 5% 的错误率。)

该团队取得的成果有望为全球其他语种的保护工作提供帮助。

据 Prud’hommeaux 称,团队已与一家存档机构达成协议,这是美国国家科学基金会为该项目提供的资助条件。当他们开展记录濒危语言的其他工作时,可使用最终形成的语言存档数据库作为可用资源。

与此同时,Prud’hommeaux 还表示,团队的工作将为只能利用有限数据量的深度学习研究提供思路。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    46845

    浏览量

    237535
  • 深度学习
    +关注

    关注

    73

    文章

    5492

    浏览量

    120975

原文标题:人工智能帮助濒危语言 “复活”

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    嵌入式和人工智能究竟是什么关系?

    、连接主义和深度学习等不同的阶段。目前,人工智能已经广泛应用于各种领域,如自然语言处理、计算机视觉、智能推荐等。 嵌入式系统和人工智能在许多方面都存在密切的关联性。首先,嵌入式系统可
    发表于 11-14 16:39

    《AI for Science:人工智能驱动科学创新》第6章人AI与能源科学读后感

    探讨了人工智能如何通过技术创新推动能源科学的进步,为未来的可持续发展提供了强大的支持。 首先,书中通过深入浅出的语言,介绍了人工智能在能源领域的基本概念和技术原理。这使得我对人工智能
    发表于 10-14 09:27

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    很幸运社区给我一个阅读此书的机会,感谢平台。 《AI for Science:人工智能驱动科学创新》第4章关于AI与生命科学的部分,为我们揭示了人工智能技术在生命科学领域中的广泛应用和深远影响。在
    发表于 10-14 09:21

    《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    周末收到一本新书,非常高兴,也非常感谢平台提供阅读机会。 这是一本挺好的书,包装精美,内容详实,干活满满。 《AI for Science:人工智能驱动科学创新》这本书的第一章,作为整个著作的开篇
    发表于 10-14 09:12

    risc-v在人工智能图像处理应用前景分析

    RISC-V在人工智能图像处理领域的应用前景十分广阔,这主要得益于其开源性、灵活性和低功耗等特点。以下是对RISC-V在人工智能图像处理应用前景的详细分析: 一、RISC-V的基本特点 RISC-V
    发表于 09-28 11:00

    人工智能ai 数电 模电 模拟集成电路原理 电路分析

    人工智能ai 数电 模电 模拟集成电路原理 电路分析 想问下哪些比较容易学 不过好像都是要学的
    发表于 09-26 15:24

    人工智能ai4s试读申请

    目前人工智能在绘画对话等大模型领域应用广阔,ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题,本书对ai4s基本原理和原则,方法进行描诉,有利于总结经验,拟按照要求准备相关体会材料。看能否有助于入门和提高ss
    发表于 09-09 15:36

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    活的世界? 编辑推荐 《AI for Science:人工智能驱动科学创新》聚焦于人工智能与材料科学、生命科学、电子科学、能源科学、环境科学五大领域的交叉融合,通过深入浅出的语言和诸多实际应用案例,介绍了
    发表于 09-09 13:54

    报名开启!深圳(国际)通用人工智能大会将启幕,国内外大咖齐聚话AI

    8月28日至30日,2024深圳(国际)通用人工智能大会暨深圳(国际)通用人工智能产业博览会将在深圳国际会展中心(宝安)举办。大会以“魅力AI·无限未来”为主题,致力于打造全球通用人工智能领域集产品
    发表于 08-22 15:00

    FPGA在人工智能中的应用有哪些?

    FPGA(现场可编程门阵列)在人工智能领域的应用非常广泛,主要体现在以下几个方面: 一、深度学习加速 训练和推理过程加速:FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性
    发表于 07-29 17:05

    人工智能自然语言处理

    人工智能教学资料。
    发表于 07-17 17:15 0次下载

    自然语言处理属于人工智能的哪个领域

    自然语言处理(Natural Language Processing,简称NLP)是人工智能(Artificial Intelligence,简称AI)领域的一个重要分支。它涉及到计算机与人类语言
    的头像 发表于 07-03 14:09 1128次阅读

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V2)

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V2) 课程类别 课程名称 视频课程时长 视频课程链接 课件链接 人工智能 参赛基础知识指引 14分50秒 https
    发表于 05-10 16:46

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V1)

    课程类别 课程名称 视频课程时长 视频课程链接 课件链接 人工智能 参赛基础知识指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:参赛基础知识指引
    发表于 04-01 10:40

    嵌入式人工智能的就业方向有哪些?

    嵌入式人工智能的就业方向有哪些? 在新一轮科技革命与产业变革的时代背景下,嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下,众多名企也纷纷在嵌入式人工智能领域布局
    发表于 02-26 10:17