阿里达摩院公布自研语音识别模型DFSMN，识别准确率达96.04%-电子发烧友网

【导读】：日前，阿里巴巴达摩院机器智能实验室推出了新一代语音识别模型DFSMN，据悉语音识别准确率达96.04%，未来将用于智能家居设备。

达摩院机器智能实验室的语音识别团队主导了这个模型的研发，并宣布向全世界企业与个人开源。对比目前业界使用最为广泛的LSTM模型，DFSMN模型训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备，相比前代技术深度学习训练速度提到了3倍，语音识别速度提高了2倍。

在近期举行的云栖大会武汉峰会上，装有DFSMN语音识别模型的“AI收银员”在与真人店员的PK中，在嘈杂环境下准确识别了用户的语音点单，在短短49秒内点了34杯咖啡。此外，装备这一语音识别技术的自动售票机也已在上海地铁“上岗”。

著名语音识别专家，西北工业大学教授谢磊表示：“阿里此次开源的DFSMN模型，在语音识别准确率上的稳定提升是突破性的。是近年来深度学习在语音识别领域最具代表性的成果之一。对全球学术界和AI技术应用都有巨大影响。”有业内人士称，DFSMN有望成为继传统的LSTM模型后，成为全球语音识别领域最主要的声学识别模型之一。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

阿里巴巴

阿里巴巴

+关注

关注
7

文章
1613

浏览量
47169
语言识别

语言识别

+关注

关注
0

文章
15

浏览量
4824

如何提升人脸门禁一体机的识别准确率？

准确率，可以从以下几个方面进行改进。一、优化算法与模型人脸识别的核心在于算法的优化和模型的调整，目前深度学习技术在图像识别中的应用取得了显著

发表于 12-10 15:05 •115次阅读

如何提升人脸门禁一体机的<b class='flag-5'>识别</b><b class='flag-5'>准确率</b>？

语音识别与自然语言处理的关系

了人机交互的革命，使得机器能够更加自然地与人类沟通。语音识别技术概述语音识别，也称为自动语音识别

发表于 11-26 09:21 •329次阅读

语音识别技术的应用与发展

体验。语音识别技术的原理语音识别技术的核心在于将声波信号转换为可理解的文本信息。这一过程通常包括以下几个步骤：声学模型：用于

发表于 11-26 09:20 •394次阅读

ASR与传统语音识别的区别

识别技术。构建更深更复杂的神经网络模型，利用大量数据进行训练。提高了语音识别的准确率和稳定性。传统

发表于 11-18 15:22 •445次阅读

ai人工智能回答准确率高吗

，AI可能表现出较高的准确率。例如，在图像识别、语音识别等领域，经过大量训练的AI系统通常能够取得令人满意的准确率。然而，在其他领域或场景

发表于 10-17 16:30 •2973次阅读

阿里达摩院发布玄铁R908 CPU

在杭州第四届RISC-V中国峰会上，阿里达摩院再次展现技术实力，隆重推出了玄铁处理器家族的最新成员——R908 CPU。此次发布标志着玄铁系列在高端计算领域的全面升级，吸引了业界的广泛瞩目。

发表于 08-23 16:27 •978次阅读

NRK3301识别语音芯片在智能按摩椅中的应用与体验提升

了新的变革。‌一、高识别准确率和快速响应‌NRK3301语音识别芯片采用最新的神经网络（‌TDNN）‌算法，‌具有高识别

发表于 08-03 08:07 •401次阅读

什么是离线语音识别芯片？与在线语音识别的区别

离线语音识别芯片适用于智能家电等，特点为小词汇量、低成本、安全性高、响应快，无需联网。在线语音识别功能更广泛、识别

发表于 07-22 11:33 •398次阅读

Transformer模型在语音识别和语音生成中的应用优势

随着人工智能技术的飞速发展，语音识别和语音生成作为人机交互的重要组成部分，正逐渐渗透到我们生活的各个方面。而Transformer模型，自其

发表于 07-03 18:24 •1083次阅读

有效提升智能会议系统语音识别准确性案例分享

语音识别技术是在智能会议系统中至关重要，准确的智能会议语音识别能力，意味着会议参与者可以通过语音

发表于 06-21 11:15 •331次阅读

有效提升智能会议系统语音识别准确性案例分享

语音识别技术是在智能会议系统中至关重要，准确的智能会议语音识别能力，意味着会议参与者可以通过语音

发表于 06-21 11:13 •473次阅读

阿里达摩院提出“知识链”框架，降低大模型幻觉

近日，阿里巴巴达摩院（湖畔实验室）携手新加坡南洋理工大学等研究机构，共同推出了大模型知识链（CoK）框架。该框架不仅可实时检索异构知识源，还能逐步纠正推理错误，有效提高了大

发表于 05-10 11:46 •688次阅读

在全志V853平台上成功部署深度学习步态识别算法

集上测试了NB模型的步态识别准确率。CASIA-B是一个大规模、多视角的步态识别数据集，共包含124个样本，每个样本都有10种步态序列，分为6个正常行走的序列（NM），2个身着长外套行

发表于 03-04 10:15

阿里达摩院在上海成立新公司，聚焦人工智能与软件开发

天眼查信息显示，达摩院（上海）科技有限公司已正式成立，法定代表人为张建锋，注册资本为1000万人民币。该公司由阿里巴巴旗下阿里巴巴达摩

发表于 02-04 10:52 •999次阅读

重塑翻译与识别技术：开源语音识别模型Whisper的编译优化与部署

模型介绍Whisper模型是一个由OpenAI团队开发的通用语音识别模型。它的训练基于大量不同的音频数据集，是一个多任务

发表于 01-06 08:33 •3635次阅读