0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

传音AI技术部在ASRU 2023 MADASR低资源语音识别比赛斩获多项佳绩

传音控股 来源:传音控股 2023-12-21 16:33 次阅读

国际顶级语音会议ASRU 2023(IEEE Workshop on Automatic Speech Recognition and Understanding,简称ASRU)于12月16日-20日顺利举办。传音AI技术部在ASRU 2023 MADASR(Model ADaptation for ASR in low-resource Indian languages,简称MADASR)关于孟加拉语和博杰普尔语的低资源语音识别比赛中斩获多项佳绩,在受限和非受限的4个赛道、2个语种与WER、CER 2个评价指标共16个细分子赛道上获得2个第一名、6个第二名和5个第三名。

ASRU研讨会是语音与语言处理学术圈的顶级会议,由IEEE语音和语言处理技术委员会主办,每两年举行一次,历史悠久,影响广泛。此次MADASR比赛是ASRU 2023的重要赛事,由IBM、布尔诺理工大学、微软研究院、爱丁堡大学和印度科学研究所举办,旨在以孟加拉语和博杰普尔语为例,探索低资源语言的语音识别难题。比赛吸引了中科院自动化所、爱沙尼亚塔林理工大学、印度坎普尔理工学院、印度科学研究所-马德拉斯语音实验室、印度科学研究所-孟买数字音频处理实验室、印度浦那高级计算发展中心等多家国内外知名高校和研究机构参赛。

自动语音识别(Automatic Speech Recognition,简称ASR)主要用于将人类语音转换为计算机可读的文本或命令,实现人机交互和自然语言处理。近年来,得益于基于自监督学习的声学模型(如 wav2vec2)和大规模多语言训练(如 Whisper),自动语音识别性能大幅提高,然而低资源语言由于音频和文本数据有限,仍面临巨大的挑战。

在ASRU 2023 MADASR比赛中,传音AI技术部开发的语音识别系统,在算法层面使用了两种方案,一种是基于U2(Unified-2 pass)框架的编码器和解码器结构,使用短时连接分类(Connectionist Temporal Classification)和注意力重打分(Attention Rescore);另一种是基于Whisper的改进和微调的结构。该系统显著提升了低资源语言语音识别的准确性和效率,克服了语音数据的稀缺难题,其解决方案将为其他低资源语言提供参考。

b69609e2-9faf-11ee-8b88-92fbcf53809c.jpg

b6ad96a2-9faf-11ee-8b88-92fbcf53809c.jpg

据Ethnologue网站统计,世界上有7000多种语言,其中90%的语种使用人数少于10万人,不同语种尤其是小语种之间的沟通交流仍面临极大挑战。传音长期深耕新兴市场,面对新兴市场智能语音技术空白,不断加强多语种数据建设,开发小语种语音识别、语义理解、知识图谱、语音合成等算法模型,除了提供多语种语音转写的服务能力,未来还将提供大语言模型生成式交互和跨语种翻译能力,使不同语种之间的交流更顺畅,让更多的小语种使用群体受益。

传音始终以新兴市场的消费者为中心,重视新兴市场用户的需求。未来,传音将继续结合行业技术发展趋势和本地消费者洞察,在AI技术研究和智能终端应用领域发力,通过技术为用户、为社会创造更多价值,让尽可能多的人尽早享受科技和创新带来的美好生活。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    38

    文章

    1721

    浏览量

    112535
  • ai技术
    +关注

    关注

    1

    文章

    1256

    浏览量

    24240
  • 传音
    +关注

    关注

    0

    文章

    54

    浏览量

    6204

原文标题:传音AI技术部在ASRU 2023 MADASR低资源语音识别比赛斩获多项佳绩

文章出处:【微信号:TranssionHoldings,微信公众号:传音控股】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    自定义大模型应用并接入到开发套件上实现语音交互,由浅入深地展示如何开发自己的大模型助手。 离线AI能力示例SDK清单 序号AI 能力 1语音唤醒 + 坐姿检测 2
    发表于 06-18 17:33

    加码多肤色影像技术 这是找到的“出海利器“?

    全球化时代,市场竞争愈演愈烈,产品差异化已然成为了企业脱颖而出的关键。黄、白肤色长期占据人像摄影主赛道的背景下,就凭借独一无二的多肤色影像技术走出非洲,走向了更广阔的新兴市场。
    的头像 发表于 06-13 16:43 383次阅读

    研发中心与腾讯游戏语音GVoice移动语音技术领域展开深入合作

    近日,研发中心与腾讯游戏语音GVoice在上海研创园签署了技术创新合作协议,双方将在移动
    的头像 发表于 06-07 16:46 807次阅读

    控股2023年业绩出炉:手机出货量增24%,营收增34.88%

    5月17日夜晚,控股发布了一项股权转让计划,该公司旗下的深圳投资将出售1%的股票。值得注意的是,
    的头像 发表于 05-18 14:57 709次阅读

    复盘控股2023年报:中国企业是如何赢得海外市场的?

    近日,控股相继发布了2023年报和第一季度财报,根据两阶段报告显示,新市场开拓、产品结构升级及成本优化,成为整体出货量及销售收入增长
    的头像 发表于 05-16 15:13 469次阅读

    控股2023年净利润增幅达122.93%,非洲智能机市场占比再创新高

    控股表示,公司积极拓展新兴市场,得益于产品结构升级与成本优化,整体出货量和毛利率均有显著提高。2023年,控股手机总销量约为1.94
    的头像 发表于 04-24 09:36 360次阅读

    AI等前沿技术大放异彩 控股以创新突围海外市场

    近日,第四届深圳企业创新促进大会暨深圳工业总会2023年度年会上,控股凭借扎实的创新实力入选“2023粤港澳大湾区企业创新力榜单——创
    的头像 发表于 03-28 10:24 382次阅读

    车内语音识别技术智能驾驶中的应用与前景

    详细介绍车内语音识别技术智能驾驶中的应用、挑战以及未来的发展趋势。 二、车内语音识别
    的头像 发表于 02-19 11:46 749次阅读

    首次跻身全球智能机市场第四 手机新兴市场“杀疯了”?

    近日,研究机构IDC全球手机季度跟踪报告显示,2023年第四季度全球智能手机市场同比增长8.5%,出货量达3.261 亿台,其中控股的业绩表现尤为亮眼,第四季度智能手机出货量达2820万
    的头像 发表于 01-31 10:44 641次阅读

    紫光展锐接连斩获多项行业重要荣誉

    近期,紫光展锐凭借技术和产品创新领域的实力和成果,接连斩获多项行业重要荣誉。
    的头像 发表于 01-20 17:21 1243次阅读

    南芯科技获控股【2023年度精诚合作伙伴】称号

    本月5日,控股2023年度优秀供应商颁奖典礼于大厦隆重举行。
    的头像 发表于 01-18 18:17 1122次阅读

    控股为晶能光电颁发2023年度“卓越质量奖”

    近日,素有“非洲手机之王”之称的控股(Transsion)为晶能光电隆重颁发了2023年度“卓越质量奖”,
    的头像 发表于 01-18 16:23 477次阅读

    敦泰荣获2023年度精诚合作伙伴”奖

    近日,知名智能终端厂商向敦泰颁发 “2023年度精诚合作伙伴”奖,以此表达对敦泰现场应用技术支持服务的认可与信任。
    的头像 发表于 01-15 10:46 571次阅读

    语音数据集:AI语音技术的灵魂

    一、引言 人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据集则是AI语音
    的头像 发表于 12-14 14:33 974次阅读

    离线语音识别及控制是怎样的技术

    了对网络依赖的程度。  二、离线语音识别技术的优势  离线语音识别的优势主要体现在以下几个方面:  1. 隐私保护:离线
    发表于 11-24 17:41