0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云知声AGI技术实力在2023年再次获得国际顶会认可

云知声 来源:云知声 2023-09-07 10:27 次阅读

近日,国际性语音及语言科学技术领域盛会INTERSPEECH 2023在爱尔兰都柏林举行。云知声联合上海师范大学发表的4篇论文被大会成功收录,成果覆盖语言增强、语音识别、防攻击声纹等研究方向。这是继ACM MM 2023后,云知声AGI技术实力在2023年再次获得国际顶会认可。

INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力,是由国际语音通讯协会(ISCA)创办的旗舰级国际会议,是国际性语音及语言科学技术领域的顶级会议之一,对参会企业和单位有着严苛的准入门槛,历届INTERSPEECH会议都倍受全球各地语音研究领域人士的广泛关注。

此次获得国际顶会认可,既是云知声与上海师范大学通力合作、持续探索智能语音技术的结果,也离不开云知声AGI技术架构的有力支撑。

云知声:通过通用人工智能(AGI)创建互联直觉的世界

云知声AI技术体系及U+X战略

作为中国AGI技术产业化的先驱之一,云知声于2016年打造Atlas人工智能基础设施,并构建公司云知大脑(UniBrain)技术中台,以山海(UniGPT)通用认知大模型为核心,包括多模态感知与生成、知识图谱、物联平台等智能组件,并通过领域增强能力,为云知声智慧物联、智慧医疗等业务提供高效的产品化支撑,推动“U(云知大脑)+X(应用场景)”战略落实,践行公司“通过通用人工智能(AGI)创建互联直觉的世界”的使命。

作为云知大脑(UniBrain)的重要组件,智能语音技术包含语音识别、声纹识别、语音合成等,目前已广泛应用于家居、车载、客服等领域。以车载场景为例,在云知声智能语音技术的加持下,可实现多音区识别、连续语音交互、个性化语音播报、所见即可说、模糊指令匹配等强大语音能力,为用户带来更智能更自然的交互体验。随着云知声智能语音技术的不断发展,其在各个场景的落地应用也将进一步提速。此次论文收录,充分印证了云知声在智能语音领域的技术创新实力,同时,也将进一步夯实其AGI技术底座,加速千行百业的智慧化升级。

接下来,云知声将继续践行“U+X”战略,携手上海师范大学等高校机构,共同加强AI基础理论和关键技术的研发,不断拓展AGI应用场景,为智慧物联与智慧医疗两大领域提供更广泛、更深入的人工智能解决方案,致力实现以人工智能赋能千行百业的美好愿景。

以下为入选论文概览:

研究方向:语音增强

目前主流时频语音增强系统以复频谱作为输入,存在着训练工具不支持复数,复数建模方式不易训练,以及基于掩蔽的方法理论上无法完全恢复出干净语音的问题。为解决以上问题,本文提出了一种无需掩蔽的语音增强系统。该系统利用短时离散余弦变换(STDCT)作为特征,不仅与STFT同样具备信息完备性,而且是一种实数特征。我们在MetaFomer基础上,结合MobileNet block的轻量架构以及NAFNet的设计理念构建了全局局部模块,整个网络由此模块堆叠而成。结果表明,相比其他网络,MFNet的性能达到了SOTA水平,且计算量具有优势。

1b353b40-4c9d-11ee-a25d-92fbcf53809c.png

研究方向:语音识别

Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition

低资源重口音语音识别是当前ASR技术在实际应用中面临的重要挑战之一。在这项研究中,我们提出了一个基于Conformer的架构,称为Aformer,以利用大量非口音和有限口音训练数据的声学信息。在Aformer中设计了一个普通编码器和一个口音编码器来提取互补的声学信息。此外,我们使用多通道的方式训练Aformer,并研究了三种交叉信息融合方法,以有效地结合来自一般编码器和口音编码器的信息。结果表明,在六个域内和域外口音测试集上,我们提出的方法优于Conformer基线,词/字错误率相对减少了10.2%到24.5%。

1b7e7af8-4c9d-11ee-a25d-92fbcf53809c.png

研究方向:语音识别

Phonetic-assisted Multi-Target Units Modeling for Improving Conformer-Transducer ASR system

在端到端的自动语音识别(ASR)中,开发有效的目标建模单元是非常重要的,也是大家一直关注的问题。我们提出一种语音辅助的多目标单元(PMU)建模方法,以渐进式表征学习的方式增强Conformer-TransducerASR系统。具体来说,PMU首先使用语音辅助子词建模(PASM)和字节对编码(BPE)分别产生语音诱导和文本诱导的目标单元;在此基础上,我们提出了三种增强声学编码器的框架,包括基本PMU、paraCTC和paCTC,它们集成了不同层次的PASM和BPE单元,用于CTC和transducer多任务训练。在LibriSpeech和口音ASR测试集上的实验结果表明,与传统的BPE相比,提出的PMU方法显著降低了LibriSpeech clean、other和6个重音ASR测试集的WER,分别降低了12.7%、6.0%和7.7%。

1bb882ac-4c9d-11ee-a25d-92fbcf53809c.png

研究方向:防攻击声纹

Advanced RawNet2 with Attention-based Channel Masking for Synthetic Speech Detection

自动扬声器验证系统通常很容易受到欺骗攻击,特别是不可见的攻击。由于语音合成和语音转换算法的多样性,如何提高合成语音检测系统的泛化能力是一个具有挑战性的问题。为了解决这个问题,我们提出了一种改进的RawNet2,通过引入一个基于注意力的通道掩蔽模块来改进RawNet2,其中包括三个主要组成部分:SE、通道掩蔽和全局-局部特征聚合。在ASVspoof2019和ASVspoof 2021数据集上评估了该系统的有效性。其中,ARawNet2在ASVspoof 2019 LA任务上达到了4.61%,在ASVspoof 2021 LA和DF任务上的EER分别达到了8.36%和19.03%,比RawNet2基线分别降低了12.00%和14.97%。

1beb130c-4c9d-11ee-a25d-92fbcf53809c.png

1c1799ea-4c9d-11ee-a25d-92fbcf53809c.png

审核编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    38

    文章

    1709

    浏览量

    112474
  • 人工智能
    +关注

    关注

    1789

    文章

    46566

    浏览量

    236890
  • Agi
    Agi
    +关注

    关注

    0

    文章

    76

    浏览量

    10181
  • 云知声
    +关注

    关注

    0

    文章

    160

    浏览量

    8351

原文标题:云知声4篇论文入选国际顶会INTERSPEECH 2023

文章出处:【微信号:云知声,微信公众号:云知声】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    黄伟:AGI产业升级新范式

    近日,由国枫律师事务所联合上海交通大学凯原法学院共同主办的国枫律师事务所三十周系列活动之“通用人工智能(AGI):科技创新、产业迭代与法治发展”论坛沪举行,汇集科技界、投资界、法学界、企业界等
    的头像 发表于 09-12 14:39 470次阅读

    荣获“年度车载AGI解决方案高成长供应商”

      近日,2024高工智能汽车开发者大会暨舱驾智能与跨域论坛沪举行,同期举办中国汽车新供应链百强颁奖盛典,凭借车载语音交互全链路方案,荣获“年度车载
    的头像 发表于 07-11 16:07 563次阅读

    边缘侧大模型技术探索和应用

    解决的课题。 2024高工智能汽车开发者大会暨舱驾智能与跨域论坛上,智慧座舱解决方案中心总经理鲍晴峰以《边缘侧大模型带来智能座舱交互新体验》为题,分享了
    的头像 发表于 06-29 15:30 749次阅读

    携手耘途教育成立学院福建分院

    近日,与耘途教育携手,共同成立了学院福建分院,此举标志着双方智慧教育领域展开了深度合
    的头像 发表于 05-13 10:38 360次阅读

    携手耘途教育成立学院福建分院,探索智慧教育新思路

    近日,与耘途教育联合成立学院福建分院,深入探索智慧教育新模式、新思路。
    的头像 发表于 05-11 15:52 483次阅读
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>声</b>携手耘途教育成立<b class='flag-5'>云</b><b class='flag-5'>知</b>学院福建分院,探索智慧教育新思路

    荣登“2023度中国高科技高成长企业系列榜单”

    近日,由第一新声、天眼查共同发起的“数字未来”系列之2023度中国高科技高成长企业系列榜单正式发布,凭借出色的市场表现,
    的头像 发表于 04-10 10:28 351次阅读
    ​<b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>声</b>荣登“<b class='flag-5'>2023</b><b class='flag-5'>年</b>度中国高科技高成长企业系列榜单”

    携山海大模型再赴港IPO

    智能科技股份有限公司(简称“”)于3月15日更新了招股书,继续其
    的头像 发表于 03-22 14:51 645次阅读

    推进港交所主板上市进程

    近日,智能科技股份有限公司(以下简称“”)再次
    的头像 发表于 03-22 14:45 905次阅读

    再闯港股IPO

    近日,备受瞩目的智能科技股份有限公司(以下简称
    的头像 发表于 03-22 14:42 632次阅读

    推进港股IPO!AI解决方案收入排名中国第四,2023营收破7亿

    于2012,当时国内的AI产业刚刚萌芽,它率先开启AGI技术商业化。成立仅三个月后,
    的头像 发表于 03-22 00:12 3351次阅读
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>声</b>推进港股IPO!AI解决方案收入排名中国第四,<b class='flag-5'>2023</b><b class='flag-5'>年</b>营收破7亿

    再闯港股IPO,深耕AI领域

    近日,智能科技股份有限公司(简称:)正式向港交所递交了招股书,计划主板IPO上市。这
    的头像 发表于 03-19 15:36 749次阅读

    再次冲刺港交所上市

    备受瞩目的“AI语音第一股”智能科技股份有限公司(简称“”)更新了其招股书,并继续稳
    的头像 发表于 03-19 14:59 837次阅读

    山海大模型获得华为昇腾技术认证

    山海大模型近日取得了重大突破,顺利通过了华为Atlas 800训练服务器和华为AI框架昇思MindSpore的兼容性测试。这一成就标志着
    的头像 发表于 02-05 09:32 931次阅读

    荣获2023产业数字化金铲奖

    近日,产业家联合数字化报、IT桔子发布第三届产业数字化【金铲奖】。凭借人工智能赛道的创新实践,荣膺「2023产业数字化金铲奖」。
    的头像 发表于 01-18 10:58 770次阅读

    推动医疗产业数字化智能化发展

    由亿欧大健康主办的CHS 2023第八届中国大健康产业升级峰会在北京成功召开,活动现场发布“CHS 2023中国大健康产业榜”系列榜单。凭借医疗领域的大模型实践探索,
    的头像 发表于 12-25 17:23 758次阅读