国际顶级语音会议ASRU 2023(IEEE Workshop on Automatic Speech Recognition and Understanding,简称ASRU)于12月16日-20日顺利举办。传音AI技术部在ASRU 2023 MADASR(Model ADaptation for ASR in low-resource Indian languages,简称MADASR)关于孟加拉语和博杰普尔语的低资源语音识别比赛中斩获多项佳绩,在受限和非受限的4个赛道、2个语种与WER、CER 2个评价指标共16个细分子赛道上获得2个第一名、6个第二名和5个第三名。
ASRU研讨会是语音与语言处理学术圈的顶级会议,由IEEE语音和语言处理技术委员会主办,每两年举行一次,历史悠久,影响广泛。此次MADASR比赛是ASRU 2023的重要赛事,由IBM、布尔诺理工大学、微软研究院、爱丁堡大学和印度科学研究所举办,旨在以孟加拉语和博杰普尔语为例,探索低资源语言的语音识别难题。比赛吸引了中科院自动化所、爱沙尼亚塔林理工大学、印度坎普尔理工学院、印度科学研究所-马德拉斯语音实验室、印度科学研究所-孟买数字音频处理实验室、印度浦那高级计算发展中心等多家国内外知名高校和研究机构参赛。
自动语音识别(Automatic Speech Recognition,简称ASR)主要用于将人类语音转换为计算机可读的文本或命令,实现人机交互和自然语言处理。近年来,得益于基于自监督学习的声学模型(如 wav2vec2)和大规模多语言训练(如 Whisper),自动语音识别性能大幅提高,然而低资源语言由于音频和文本数据有限,仍面临巨大的挑战。
在ASRU 2023 MADASR比赛中,传音AI技术部开发的语音识别系统,在算法层面使用了两种方案,一种是基于U2(Unified-2 pass)框架的编码器和解码器结构,使用短时连接分类(Connectionist Temporal Classification)和注意力重打分(Attention Rescore);另一种是基于Whisper的改进和微调的结构。该系统显著提升了低资源语言语音识别的准确性和效率,克服了语音数据的稀缺难题,其解决方案将为其他低资源语言提供参考。
据Ethnologue网站统计,世界上有7000多种语言,其中90%的语种使用人数少于10万人,不同语种尤其是小语种之间的沟通交流仍面临极大挑战。传音长期深耕新兴市场,面对新兴市场智能语音技术空白,不断加强多语种数据建设,开发小语种语音识别、语义理解、知识图谱、语音合成等算法模型,除了提供多语种语音转写的服务能力,未来还将提供大语言模型生成式交互和跨语种翻译能力,使不同语种之间的交流更顺畅,让更多的小语种使用群体受益。
传音始终以新兴市场的消费者为中心,重视新兴市场用户的需求。未来,传音将继续结合行业技术发展趋势和本地消费者洞察,在AI技术研究和智能终端应用领域发力,通过技术为用户、为社会创造更多价值,让尽可能多的人尽早享受科技和创新带来的美好生活。
-
语音识别
+关注
关注
38文章
1721浏览量
112535 -
ai技术
+关注
关注
1文章
1256浏览量
24240 -
传音
+关注
关注
0文章
54浏览量
6204
原文标题:传音AI技术部在ASRU 2023 MADASR低资源语音识别比赛斩获多项佳绩
文章出处:【微信号:TranssionHoldings,微信公众号:传音控股】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论