思必驰人工智能：10篇论文被收录在INTERSPEECH 2020-电子发烧友网

国际顶级的语音技术圈会议INTERSPEECH 2020于10月25-30日在中国上海举办，本次会议主题为“Cognitive Intelligence for Speech Processing”。思必驰作为国内领先的对话式人工智能平台公司参加该国际顶会，支持大会在这不平凡的2020年顺利举行，致力推进产学研用的一体化进程。

思必驰-上海交通大学智能人机交互联合实验室

10篇论文被INTERSPEECH 2020收录

INTERSPEECH 2020共接收有效论文总数2100余篇，实际收录数量为1022篇。其中，思必驰-上海交通大学智能人机交互联合实验室10篇论文被正式收录，涉及说话人识别、语音识别及合成、多模态语音分离、口语语义理解等多方面的技术创新研究。

10篇论文简要介绍如下：

《用于单通道多说话人语音识别的上下文嵌入表示学习方法》

Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition

端到端多说话人语音识别是近年来的热门话题。本文探讨了利用上下文信息来提升多说话人语音识别的性能。我们设计了嵌入表示学习模型来直接从多说话人混合语音中准确地提取上下文嵌入表示，同时进一步提出了两种高级的训练策略来改进该新模型，即嵌入表示采样和两阶段训练。实验结果表明，我们的方法在多说话人语音识别上取得了显著改进，与端到端多说话人语音识别的基线模型相比，本文提出的方法减少了相对25％的词错误率。

图：基于上下文嵌入表示的多说话人语音识别模型结构

《在鸡尾酒会中聆听、观察、理解：音频-视频-上下文的多模态语音分离》

Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation

多个说话人同时说话时，人类可以通过听混合语音，观看说话者并理解上下文信息，将注意力集中在感兴趣的语音上。我们尝试使用三种模态（视觉模态、语音模态以及上下文信息模态）来解决与说话者无关的语音分离问题。与以前的应用纯音频/音视频模态的方法相比，我们设计了特定模型来直接从语音混合中提取所有目标说话人的上下文语言信息，然后将这些提取的上下文知识通过适当的注意力机制进一步合并到基于多模态信息的语音分离体系结构中。实验表明，在新提出的基于上下文信息的语音分离模型上可以观察到性能显著改善。

图：基于音频-视频-上下文的多模态语音分离示意图

《多模态作用很大: Voxceleb数据集上的性能飞跃》

Multi-modality Matters: A Performance Leap on VoxCeleb

来自不同模态的信息通常相互补偿。我们在说话人嵌入特征级别探索了视听人员验证系统的不同信息融合策略和损失函数。我们在说话人嵌入特征级别上使用视听知识的最佳系统在VoxCeleb1的三个公开测试列表上达到了0.585％，0.427％和0.735％的EER，这是该数据集上报告的最好的结果。此外，我们基于VoxCeleb1数据集构建了一个嘈杂的测试集。我们在说话人嵌入特征级别使用数据增广策略来帮助视听系统区分噪声和干净的嵌入。通过这种数据增广策略，所提出的视听人员验证系统在嘈杂的测试集上取得了更好的效果。

图：在带噪测试集上的性能比较

《BERT联合编码词混淆网络和对话上下文的口语语义理解方法》

Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding

口语理解可以将自动语音识别得到的假设转换为结构化的语义表示，语音识别错误会使后续口语理解模块的性能严重下降。为了缓解口语理解不确定性的问题，本文提出一种新颖的基于词混淆网络（WCN）和BERT预训练模型的口语语义理解模型（WCN-BERT SLU），对话上下文中的上一轮系统行为也被用作附加输入。该模型对WCN和对话上下文进行联合编码，在BERT架构中集成了词混淆网络的结构信息和语音识别的后验概率。在口语理解的基准数据集DSTC2上进行的实验表明，该方法大大优于以前的最佳模型。

图：与已发表结果在 DSTC2 数据集上的比较

《将部分共享神经网络应用于基于对抗训练的说话人验证领域自适应》

Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network

我们使用领域对抗训练来研究具有不同语言的数据集之间的领域自适应策略。这种架构可以帮助嵌入特征提取器学习域不变特征，同时不会牺牲说话者辨别能力。在SRE16粤语和菲律宾语评估测试集上实现了约25.0％的相对平均等错误率（EER）的改进。

《基于双重对抗领域自适应的泛化重放攻击检测》

Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection

我们提出了对偶对抗领域自适应的框架，通过使用两个领域鉴别器分别对欺骗数据和真实数据进行细粒度的对齐，从而提高欺骗检测的性能。实验表明：该框架对于通用的重放攻击检测更加地鲁棒和有效。

《噪声环境下通过半监督音频事件检测模型训练的语音端点检测器》

Voice activity detection in the wild via weakly supervised sound event detection

我们提出了两种弱监督训练的通用VAD模型，GPV-F和GPV-B。在真实场景的测试中，GPV-F模型比标准VAD模型提升很多，GPV-B模型也获得和标准VAD模型可比的性能。

《神经同态声码器》

Neural Homomorphic Vocoder

本文提出了神经同态声码器（NHV），一种基于源-滤波器模型的神经网络声码器框架，能够通过多分辨率 STFT 损失和对抗损失函数联合进行优化，计算效率高，可控性和可解释性好。

《基于双编码器多专家模型结构的中英文语种混杂语音识别》

Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts

我们研究使用一种崭新的端到端模型来进行中英文语种混杂语音识别。实验结果表明，相比于基线的Transformer模型，我们的结构可以取得大幅度的性能提升。

思必驰拥有全链路的软硬一体化端到端语音交互系统能力，近年来不断加码源头技术的持续创新，通过思必驰-上海交通大学智能人机交互联合实验室、上交大苏州智研院合作的共同努力，在模型泛化及快速定制能力、变帧率语音识别解码技术、说话人识别技术、超高压缩比神经网络模型压缩技术、多模态感知及理解和表达技术等方面，均有显著突破。围绕对话式AI能力，思必驰会不断夯实“全链路智能对话”技术以及“高自由度定制”方案能力。未来也会持续加大对基础源头技术创新与核心产品能力升级的核心投入，持续提升AI+智能终端、AI+智慧服务的快速规模化能力，加速向更多行业场景纵深赋能。

思必驰xiaochi获2020 AESR

“口音种类识别“冠军和“口音英语语音识别”亚军

2020 AESR，即“INTERSPEECH 2020口音英语语音识别挑战赛（Interspeech2020 Accented English Speech Recognition)”，向参赛者开放八种口音英文数据，设置了“Track1-口音种类识别”和“Track2-口音英语语音识别”两个赛道。由思必驰组建的“xiaochi”队伍表现优异，分别获得“口音种类识别”第一名（全球共30个队伍参赛），和“口音英语语音识别”第二名（全球42个队伍参赛）。

在“Track1-口音种类识别”技术挑战赛中，参赛队伍需要使用官方提供的各种口音英文的训练数据，训练语种分类模型。xiaochi队伍的准确率高出第二名11个百分点，最终摘得冠军。

数据策略上，xiaochi对8种口音训练音频进行变语速数据增强，利用kaldi工具模拟噪声和远场，使用8种口音训练数据+librispeech数据训练TTS合成器，并生成8种口音训练音频，最后对测试音频采用sox变语速后与原始音频拼接。模型训练时，采用了多机多卡的并行训练策略，有效降低了模型迭代和实验速度。最终我们采用深层的TDNN模型，结合AAM loss等进行优化，来训练8种口音的8分类模型。

经过多个不同策略组合的实验测试，最终发现，“利用PPG等特征，结合基于tts的数据生成，多嵌入多层联合优化”等方法，能够最高效快速识别不同口音种类。这也为未来业界进行多语种混合识别提供了很好的参考策略。

思必驰语音应用负责人薛少飞

参与INTERSPEECH工业论坛并在线分享

今年INTERSPEECH 2020首次推出虚拟展会，以直播的方式举办在线论坛。思必驰高级技术总监、语音应用技术负责人薛少飞，10月29日（今晚）将在线分享思必驰在语音识别、语音唤醒、音频检测等语音交互关键技术方面的新进展。

责任编辑：xj

原文标题：【会员风采】亮剑INTERSPEECH 2020，思必驰10篇论文被收录

文章出处：【微信公众号：深圳市汽车电子行业协会】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人机交互

人机交互

+关注

关注
12

文章
1217

浏览量
55597
语音识别

语音识别

+关注

关注
38

文章
1746

浏览量
113016
思必驰

思必驰

+关注

关注
4

文章
295

浏览量
14352

原文标题：【会员风采】亮剑INTERSPEECH 2020，思必驰10篇论文被收录

文章出处：【微信号：qidianxiehui，微信公众号：深圳市汽车电子行业协会】欢迎添加关注！文章转载请注明出处。

广西壮族自治区领导莅临思必驰调研

开展专题调研，并于当天上午莅临广西思必驰，探究“人工智能+赋能产业高质量发展”的实践成果与创新路径，聚焦人工智能产业链发展现状与未来规划。广

发表于 02-17 16:18 •106次阅读

思必驰亮相2025年苏州市“人工智能+”创新发展推进大会

近日，2025年苏州市“人工智能+”创新发展推进大会暨人工智能赋能新型工业化深度行(苏州站)活动隆重举行，专家学者、产业大咖、金融精英齐聚苏州，共商“人工智能+”融合创新。作为人工智能

发表于 02-17 16:16 •112次阅读

思必驰完成5亿元融资

近日，思必驰完成五亿元融资，本轮融资由知名产业基金、国资平台、私募基金共同参与。思必驰将围绕“云

发表于 01-14 14:52 •250次阅读

思必驰入选国家级专精特新“小巨人”企业

思必驰凭借深厚的技术积累、卓越的创新能力以及稳健的市场表现，成功入选2024年工信部第六批国家级专精特新“小巨人”企业名单。近日，2025年苏州工业园区新型工业化推进会议顺利举行，会上，思

发表于 01-08 16:32 •312次阅读

思必驰参与的智能家居团体标准发布

近日，中国标准化协会发布通知：《智能家居场景工程技术规范》T/CAS 979-2024已起草完成并审查通过，正式准予发布，思必驰为该标准起草单位。

发表于 12-31 16:57 •597次阅读

思必驰携手长城汽车入选2024年人工智能先锋案例集

日前，中国人工智能产业发展联盟《2024年人工智能先锋案例集》正式发布，长城汽车与思必驰联合申报的“长城汽车Coffee Al语音助手”成功

发表于 11-26 17:56 •1057次阅读

带来全新办公体验！思必驰发布AI办公本Turbo

是基于千万小时的会议训练数据进行优化的。它能够实现手写输入、图像扫描、语音输入以及历史笔记文档的跨模态融合，从而极大地提升了用户在会议记录、整理等方面的效率。智能笔记是思必驰AI办公

发表于 11-06 11:30 •740次阅读

思必驰发布AI办公本Turbo，搭载专业级跨模态会议大模型

近日，思必驰正式发布了其最新的AI办公本Turbo，该设备搭载了专业级的跨模态会议大模型。这一创新技术的引入，标志着思必

发表于 10-31 17:03 •660次阅读

思必驰AI办公本Turbo重磅发布

近日，思必驰AI办公本新品发布会如约而至，思必驰IOT事业部首席产品官马斌斌详细介绍了

发表于 10-31 14:23 •689次阅读

思必驰10月份大事件盘点

日前，省科技厅党组书记、厅长徐光辉一行在思必驰进行调研。思必驰董事长、CEO高始兴，副总裁李春梅

发表于 10-30 15:01 •414次阅读

思必驰9月份大事件盘点

在“人工智能+”创新发展试验区推进大会上，思必驰发布了苏州市制造业应用模型——中枢大模型，围绕人工智能在行业中的痛点问题，整合多模态数据，实

发表于 10-14 14:05 •632次阅读

思必驰AI中枢大模型打造多维生态融合

由南京经济技术开发区管理委员会、南京市工业和信息化局主办，中国信息通信研究院、中国人工智能产业发展联盟承办的“2024南京人工智能产业发展论坛”在南京汉府饭店举行。思必

发表于 09-18 11:34 •744次阅读

广西柳州的思必驰智能制造基地正式投入试运行

近日，随着一台台智能智造设备的陆续进厂和调试完成，位于广西柳州的思必驰智能制造基地正式投入试运行。

发表于 05-29 10:32 •559次阅读

AWE现场 | 思必驰×康佳：智能声控，视听随心

(AWE2024)在上海新国际博览中心盛大开幕。展会现场,思必驰展台展示的康佳电视吸引了大批消费者和媒体记者的驻足。作为国内知名品牌,康佳电视无论是在画质还是音质上都表现的非常出色。在思

发表于 03-18 12:15 •432次阅读

北汽研究总院与思必驰签署战略合作协议

2月29日，北汽研究总院与思必驰科技股份有限公司（以下简称思必驰）签署战略协议，将依托各自优势，

发表于 03-11 14:59 •711次阅读

搜索历史

思必驰人工智能：10篇论文被收录在INTERSPEECH 2020

评论

广西壮族自治区领导莅临思必驰调研

思必驰亮相2025年苏州市“人工智能+”创新发展推进大会

思必驰完成5亿元融资

思必驰入选国家级专精特新“小巨人”企业

思必驰参与的智能家居团体标准发布

思必驰携手长城汽车入选2024年人工智能先锋案例集

带来全新办公体验！思必驰发布AI办公本Turbo

思必驰发布AI办公本Turbo，搭载专业级跨模态会议大模型

思必驰AI办公本Turbo重磅发布

思必驰10月份大事件盘点

思必驰9月份大事件盘点

思必驰AI中枢大模型打造多维生态融合

广西柳州的思必驰智能制造基地正式投入试运行

AWE现场 | 思必驰×康佳：智能声控，视听随心

北汽研究总院与思必驰签署战略合作协议