0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

「揭秘」Speech AI 技术发展与前沿应用

NVIDIA英伟达企业解决方案 来源:未知 2022-11-10 11:00 次阅读

Speech AI 线上技术研讨会

精彩议程抢先看



自二十世纪下半叶第一个基于计算机的语音合成系统诞生,至以隐马尔可夫模型为代表的统计机器学习合成语音占据主流,再到近十年来基于神经网络的语音合成快速发展,计算机语音合成技术如今已能媲美真人发声,并走向大规模的商业化落地阶段。


Gartner 技术成熟度曲线表明,语音识别和语音合成技术如今已经达到稳步爬升恢复期和生产成熟期。国内的智能语音市场也形成了比较成熟的格局,智能语音科技企业和互联网企业成为主导。因此,要实现差异化竞争,企业也在纷纷思考如何从单一的智能语音技术提供商转型为提供全方位的人工智能技术和应用的服务商。此外,尽管技术已经趋近成熟,门槛大大降低,开发和运行可落地的语音人工智能服务仍然是一项复杂而艰巨的任务,通常需要面临实时性、可理解性、自然性、低资源、鲁棒性等挑战。


在智能语音市场的竞争格局中,一大空缺是算法、通用类芯片和云端 AI 芯片。借助以 GPU 为代表的通用类芯片上的技术优势,NVIDIA 进军了智能语音领域。基于自动语音识别( ASR )和语音合成( TTS ),NVIDIA Riva 简化了开发语音 AI 服务的端到端流程,并为语音交互提供实时性能。此外,包括 NVIDIA TensorRTTriton 推理服务器在内的诸多 NVIDIA 技术也帮助各种 Speech AI 工作负载进行大幅的降本增效。不论是 AI 呼叫中心、虚拟主力语音接口,还是视频会议中的实时字幕等应用,NVIDIA GPU 及 NVIDIA 加速技术都在帮助用户进一步为技术落地降低门槛,为自动驾驶、医疗等场景的智能语音应用创新赋能。


2022 年 10 月 25 日和 27 日,NVIDIA 在 DataFun 直播间,举办 Speech AI 线上技术研讨会,由资深专家介绍 NVIDIA NeMo / RIVA 构建语音应用的工作流GPU 加速和部署 Speech AI 任务全流程的最佳实践,更荣幸邀请到了 WeNet 开源社区发起人为我们分享 WeNet 社区的最新技术进展


议题介绍


NVIDIA NeMo 工具介绍,以及如何利用 NeMo 进行语音相关任务的训练


NeMo 是 NVIDIA 推出的一款主打GPU 训练的工具,可以支持常见的 Speech AI 相关的任务,例如ASR、NLP、TTS、Speaker Recognition 等。将以中文语音识别为例,介绍如何利用 NeMo 快速地完成该任务的训练。同时也会介绍 NeMo 中目前已有的一些功能,例如 VAD、说话人日志等。


通过本次演讲您将收获以下内容:


  • 如果利用 NeMo 训练 ASR 模型?


  • NeMo 对中文语音任务的支持有哪些?


  • NeMo 支持其他哪些 Speech processing 的任务?



演讲嘉宾


丁文 NVIDIA 解决方案架构师

毕业于上海交通大学,导师为俞凯教授。毕业后曾就职于头部互联网公司语音交互部门,主要负责流式 ASR 的迭代与优化、粤语 ASR 等。目前就职于 NVIDIA,负责 Riva 中文 ASR 模型迭代,中文 ASR 模型 GPU 部署方案落地与优化等。


使用 NVIDIA Riva 部署企业级 ASR 服务


NVIDIA Riva 提供了最先进的 GPU 优化部署解决方案,用于构建和部署完全可定制的实时语音识别服务,用于诸如呼叫中心代理协助、虚拟助理、数字化身、品牌语音和视频会议转录等应用程序。


本次分享将为大家介绍 NVIDIA Riva 的主要特性,包括高精度的预训练语音模型,高性能推理模型,以及高可扩展的推理服务。


通过本次演讲您将收获以下内容:


  • 如何使用 NVIDIA Riva 在 GPU 上快速部署语音识别服务?


  • Riva 是如何针对 GPU 进行优化加速的?


  • 怎样进行定制化达到更好的语音识别精度?



演讲嘉宾


齐家兴 NVIDIA 解决方案架构师

德国亚琛工业大学博士,目前于英伟达企业解决方案部门担任高级架构师,多年来从事自然语言处理和语音识别等方向研究,助力多家企业基于 GPU 平台实现高效易用的训练和推理平台。他是英伟达 NeMo,Riva 语音识别训练推理平台的中文模型开发者之一。


利用 Triton Inference Server 和 TensorRT 加速语音 AI 在云端的运行效率


演讲将主要介绍云上部署端到端 ASR 服务最佳实践以及云上部署端到端 TTS 服务最佳实践。


通过本次演讲您还将收获以下内容:


  • 了解如何加速语音 AI 模型


  • 了解如何节省语音 AI服务的部署成本



演讲嘉宾


刘川 NVIDIA 资深解决方案架构师

NVIDIA 中文语音解决方案主要负责人,对基于 GPU 的语音识别和语音合成在云上的部署有丰富经验。


WeNet 在 Speech AI 的应用与探索


演讲将主要介绍开源极简史、语音开源简史、WeNet 开源社区以及基于 GPU 的语音识别实践。


通过本次演讲您将收获以下内容:


  • 了解 WeNet 开源社区


  • WeNet 社区中如何支持和使用 GPU



演讲嘉宾


张彬彬 WeNet 开源社区发起人

硕士毕业于西北工业大学音频语音与语音处理研究组。WeNet 开源社区发起人,主导了业界领先的开源端到端语音识别项目 WeNet 和大规模多领域中文语音识别开源数据集 WenetSpeech 的开发。现任地平线语音算法专家,曾先后在微软、出门问问等公司从事语音识别算法和产品研发。



参与方式


精彩连续,点击“阅读原文”扫描下方海报二维码,马上注册预约!



原文标题:「揭秘」Speech AI 技术发展与前沿应用

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3749

    浏览量

    90893

原文标题:「揭秘」Speech AI 技术发展与前沿应用

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    直流高压电源技术发展浅析

    等高端领域。 随着开关电源技术发展与成熟,采用高频开关变换技术结合高压电源的特点而研制的直流高压电源成为主流,新一代直流高压电源具有更高的转换效率、更低的损耗和更强的稳定性。 ▍高输出电压: 能够
    发表于 11-28 18:20

    DEKRA德凯探讨AI安全技术前沿趋势

    近日,DEKRA德凯在苏州成功举办了一场聚焦智能化发展的研讨会,深入探讨了汽车、高科技及工业领域人工智能(AI)应用中的安全与管理。研讨会吸引了众多行业专家及产业链合作伙伴的参与,共同探讨了AI安全
    的头像 发表于 11-14 13:48 223次阅读

    揭秘高精度贴装技术如何助力AI芯片量产飞跃

    在当今科技日新月异的时代,人工智能(AI)作为推动社会进步和产业升级的关键力量,正以前所未有的速度改变着我们的生活和工作方式。而AI芯片,作为支撑AI技术发展的核心硬件,其性能与生产效
    的头像 发表于 10-29 11:09 272次阅读
    <b class='flag-5'>揭秘</b>高精度贴装<b class='flag-5'>技术</b>如何助力<b class='flag-5'>AI</b>芯片量产飞跃

    智能驾驶技术发展趋势

    智能驾驶技术是当前汽车行业的重要发展趋势之一,它融合了传感器技术、人工智能、大数据和云计算等多种先进技术,旨在实现车辆的自主驾驶和智能化管理。以下是对智能驾驶
    的头像 发表于 10-23 15:41 538次阅读

    AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    ,推动科学研究的深入发展。 总结 通过阅读《AI for Science:人工智能驱动科学创新》第二章,我对AI for Science的技术支撑有了更加全面和深入的理解。我深刻认识到
    发表于 10-14 09:16

    科幻前沿技术发展论坛召开 十余名科幻大咖畅议科幻创意赋能科技创新

    提供无限可能。那么下一个,会是什么呢? 4月28日,2024第八届中国科幻大会科幻前沿技术发展论坛在石景山区首钢园召开。 论坛由北京市科学技术委员会、中关村科技园区管理委员会主办,石景山区人民政府、首钢集团联合主办,北京
    的头像 发表于 09-10 17:18 220次阅读
    科幻<b class='flag-5'>前沿技术发展</b>论坛召开 十余名科幻大咖畅议科幻创意赋能科技创新

    开启全新AI时代 智能嵌入式系统快速发展——“第六届国产嵌入式操作系统技术与产业发展论坛”圆满结束

    航空计算技术研究所研究员崔西宁做了“AI时代的机载嵌入式操作系统”专题报告。 崔西宁回顾了机载软件技术发展历程,介绍机载智能计算的演进之路,分享了天脉操作系统现状和发展计划。 图3
    发表于 08-30 17:24

    无线充电技术发展趋势

    目前无线充电技术还处于发展阶段,距离方案的成熟尚需不断探索和完善!降低热损耗,提升效率缩短充电时间,改良充电曲线以更好的保护负载设备(终端或者电池等)。
    发表于 08-03 14:26

    阿丘科技携前沿AI技术实践亮相VisionChina2024上海站

    展暨机器视觉技术及工业应用研讨会将在上海新国际博览中心举办。阿丘科技将以其前沿AI技术实践,为观众带来一场AI+工业的视觉盛宴。本次展会,
    的头像 发表于 07-04 08:25 710次阅读
    阿丘科技携<b class='flag-5'>前沿</b><b class='flag-5'>AI</b><b class='flag-5'>技术</b>实践亮相VisionChina2024上海站

    Build 2024发布多项Azure AI Speech全新多模态功能

    客户们持续使用 Azure OpenAI 和 Azure AI Speech 进行创新,为企业引入新的效率,并构建新的多模态体验。
    的头像 发表于 05-28 09:08 545次阅读
    Build 2024发布多项Azure <b class='flag-5'>AI</b> <b class='flag-5'>Speech</b>全新多模态功能

    揭秘气候技术发展的关键平台Earth-2的核心—CorrDiff

    在全球变暖背景下,NVIDIA Earth-2 已成为推动气候技术发展的关键平台。针对因气候变化而日益加重的灾难性极端天气影响,该平台能够生成可供执行的洞察。
    的头像 发表于 04-20 09:23 584次阅读

    高通在2024 MWC展示AI领域新突破

    在2024年巴塞罗那世界移动通信大会(2024 MWC)上,高通技术公司展现了其在AI领域的最新成果,从全新的高通®AI Hub到前沿研究突破,再到
    的头像 发表于 02-27 10:57 950次阅读

    AI大模型加速落地! 西部数据助力数据中心智能化升级

    面对AI大模型的发展和普及,西部数据作为全球数据存储解决方案提供商,如何看待这种浪潮到来,生成式AI技术发展对现有基础设施部署工作带来哪些挑战?对存储产品带来了哪些新的
    的头像 发表于 02-18 00:03 4554次阅读
    <b class='flag-5'>AI</b>大模型加速落地! 西部数据助力数据中心智能化升级

    AI加速智能家居分布式语音技术发展

    中的任何地方通过语音命令来控制智能设备,实现更具有体验性的居家生活。   什么是分布式语音技术?   分布式语音技术,也称为DSR(Distributed Speech Recognition),是一种将语音识别任务分布到多个计
    的头像 发表于 02-01 00:16 5774次阅读

    2024年可预见的蓝牙技术发展趋势

    近期,Silicon Labs(亦称“芯科科技”)负责蓝牙技术的高级产品经理Parker Dorris先生参与蓝牙技术联盟(Bluetooth SIG)的会员访谈,就2024年可预见的蓝牙技术发展趋势进行了讨论,包括电子货架标签
    的头像 发表于 01-08 17:27 1471次阅读