Build 2024发布多项Azure AI Speech全新多模态功能-电子发烧友网

客户们持续使用 Azure OpenAI 和 Azure AI Speech 进行创新，为企业引入新的效率，并构建新的多模态体验。Azure AI，我们持续与客户合作，并将新的创新推向市场——我们看到了各种用例，包括通话分析、医疗转录、字幕、聊天机器人等。

以下是我们在今年 Microsoft Build 大会上宣布的所有多模态创新，特别是包括语音和文本的创新。

语音分析

今天我们宣布预览版的语音分析服务。语音分析是 Azure AI Studio 中的一项新服务，它结合了 Azure AI 服务和 PromptFlow，只需将音频数据上传到云存储，就可以自动处理和分析。

通过语音分析，可以轻松获取呼叫中心对话的见解，或使用 Azure OpenAI 和 Azure AI Language 的 AI 模型从 Azure AI Speech 生成的准确转录中提取对话摘要。从呼叫中心对话中获取见解可以帮助企业更好地理解客户需求、产品反馈和支持趋势，从而改善客户体验。

使用我们的post-call 分析模板，客户可以快速设置提取常见的见解，如呼叫摘要、客户情绪和关键主题。客户还可以轻松修改默认提示，以提取更多见解，甚至修改完整的提示流程，以全面定制分析，提取广泛的信息，如讨论要点，甚至预测可能的对话流程。语音分析还可以轻松支持多种语言、口音、领域和场景，并扩展到大规模生产使用。语音分析帮助我们的客户获取客户对话的见解，改善客户体验、销售和营销策略。这也是多模态数据分析的一个基础，未来将能够从不同类型的数据中获得更丰富和更深入的见解。

以下是Speech Processing Solutions（飞利浦听写）使用 Azure AI 服务（包括语音分析）构建的一套示例技术：

语音分析将于 6 月供开发者试用。想了解更多信息，请在Azure AI Studio中试用。

快速转录

今天我们还宣布预览版的快速转录API。该 API 是 Azure AI Speech 系列的一部分，通过简单的 REST 调用，可以在几秒钟内转录大小达 200MB 的音频文件。

客户希望在获取转录结果的速度至关重要的场景中使用该 API，例如在面试结束或电话结束后立即获得转录结果。该 API 是转录领域的一次变革，可以以高达实时 40 倍的速度转录音频文件，例如在 15 秒内转录 10 分钟的音频文件，而不会牺牲准确性。API 提供了一种简单而强大的转录音频的方式，并打开了一组新的场景，其中之一是呼叫中心内的“代理笔记记录”。

高效笔记记录

一个典型的呼叫中心代理在每次通话后花费 3 到 5 分钟创建笔记。快速转录 API 结合 Azure OpenAI 服务可以自动执行此任务，为呼叫中心节省数千小时的工作时间。医疗从业者记录与患者的对话后，可以在几秒钟内分析这些记录。类似地，媒体和内容创作者可以在播客或采访完成后立即分析并提取见解。

IntelePeer通过高级 AI 驱动的解决方案简化通信自动化，帮助企业和联系中心降低成本并丰富客户体验。

微软的快速 API 在离线转录方面的性能远远超过了竞争对手。在比较相同的样本语料库时，快速 API 在低质量音频转录方面表现最好，结果比其他供应商好70%

Parloa是一家为企业下一代客户服务构建联系中心 AI 平台的软件开发公司，一直在预览版中使用快速转录API。

快读转录 API 提供了市场上最快、最准确和最具成本效益的转录选项。

OPPO是一家全球技术品牌，以其创新的智能手机和智能设备闻名，正在使用 Azure AI 语音转文本快速转录和 Azure AI 文本转语音来试验其新 AI 手机上的新客户体验。

快速转录 API将于 2024 年 6 月供开发者使用，敬请期待更多信息。

视频翻译服务

视频翻译服务已经推出预览版，这是一项开创性的服务，旨在改变企业本地化视频内容的方式。这项新服务为开发人员提供了一种高效而无缝的解决方案，以满足对翻译视频内容和克服语言障碍不断增长的需求，让内容所有者能够触达更广泛的受众。无论是用于教育视频、营销活动还是娱乐内容，视频翻译都能确保您的信息以任何支持的语言被传达出去。

该服务使开发者能够使用预构建的神经语音和内容编辑功能，或通过个人语音功能（一种限制访问功能）将内容翻译成 10 种语言。您可以在Speech Studio中了解更多关于视频翻译服务的信息，并试用您自己的视频。

Vimeo 致力于简化制作、管理和分享视频所需的一切——所有这些都在一个易于使用的平台中。

Vimeo 正在与微软视频翻译服务密切合作，对其为全球客户解锁的用例感到兴奋。

多语言语音翻译

我们宣布对我们的多语言语音翻译能力进行了新的增强。我们引入了多语言检测功能，能够在同一音频流中检测语言切换，并自动语言检测，消除了开发者指定输入语言的需求，以及集成的自定义翻译功能，以适应您的领域特定词汇。

有了这些功能，开发者不再需要指定输入语言，可以在同一会话中处理语言切换，并支持实时流翻译到目标语言。

此功能对于字幕使用场景特别有帮助。字幕是为音频或视频内容添加文本，以便让听力困难或说不同语言的人更容易访问和理解。在许多国家，字幕不仅是法律义务，也是社会责任和包容的良好实践。内容创作者现在可以吸引更广泛和更多样化的受众，并轻松提高用户体验和参与度。

宣布个人语音的全面可用性

我们的语音服务还提供了自然语音的功能。客户可以利用该平台为头像、聊天机器人和 IVR 创建逼真且自然的语音。通过 Azure AI 语音，您可以选择使用现有的语音模型，选择多种不同的语音和风格，也可以使用您自己的数据和录音创建自定义的语音。

我们还宣布 Azure AI 语音推出了新的个人化语音功能。该功能目前以有限的访问权限推出，以确保适当的保障措施并避免滥用。该功能允许用户仅通过提供简短的语音样本作为音频提示，在几秒钟内创建 AI 语音。该功能可用于各种用例，例如为聊天机器人个性化语音体验，或者利用演员的母语声音将视频内容翻译成不同的语言。

总之，我们强大而多功能的平台帮助客户将语音输入和输出与其他 AI 功能结合起来。这使得开发者能够为新场景创建高质量的工作负载。无论您是需要人类对话的见解、实时或录制的字幕，还是为您的虚拟形象、聊天机器人或 IVR 创建逼真和自然的语音，Azure AI 都能帮助客户提供快速、可靠和可定制的解决方案。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

智能手机

智能手机

+关注

关注
66

文章
18543

浏览量
180966
机器人

机器人

+关注

关注
211

文章
28632

浏览量
208279
OpenAI

OpenAI

+关注

关注
9

文章
1123

浏览量
6680

原文标题：Build 2024发布多项 Azure AI Speech 全新多模态功能

文章出处：【微信号：mstech2014，微信公众号：微软科技】欢迎添加关注！文章转载请注明出处。

体验MiniCPM-V 2.6 多模态能力

多模态组网

jf_23871869

发布于 :2025年01月20日 13:40:48

亥步多模态医疗大模型发布：人工智能引领医疗新纪元

当下，人工智能（AI）正以不可阻挡之势渗透到各行各业，包括医疗行业。12月14日，2024中国医学人工智能大会的召开。会上，一款名为“亥步”的多模态医疗大模型的正式

发表于 12-19 17:56 •232次阅读

微软发布Azure AI Foundry，推动云服务增长

微软近日发布了一款旨在协助云客户构建和部署人工智能应用的新工具——Azure AI Foundry。此举不仅体现了微软在生成式人工智能领域的深入布局，更彰显了其从AI应用中获取更多收入

发表于 11-21 11:32 •502次阅读

苹果发布300亿参数多模态AI大模型MM1.5

苹果近日推出了全新的多模态AI大模型MM1.5，该模型拥有高达300亿的参数规模，是在前代MM1架构的基础上进一步发展而来的。

发表于 10-14 15:50 •316次阅读

HPMicro Arduino支持包v0.1.0发布，适配功能揭晓！

发表于 07-11 08:18 •571次阅读

HPMicro Arduino支持包v0.1.0<b class='flag-5'>发布</b>，适配<b class='flag-5'>功能</b>揭晓！

商汤“日日新”大模型全面赋能2024 WAIC

7月6日，WAIC 2024迎来第三天。商汤科技全新升级的「日日新SenseNova 5.5」备受热议，作为国内首个具备流式原生多模态交互能力的大模型，交互效果和

发表于 07-08 15:54 •684次阅读

智谱AI发布全新多模态开源模型GLM-4-9B

近日，智谱AI在人工智能领域取得重大突破，成功推出全新开源模型GLM-4-9B。这款模型以其卓越的多模态能力，再次刷新了业界对于大型语言模型的认识。

发表于 06-07 09:17 •813次阅读

微软Build 2024：宣布开放AI GPT-40及Phi-3-visio

5 月 22 日，微软Build 2024大会在美正式开幕。萨提亚·纳德拉CEO、董事长宣布，OpenAI新款旗舰模型GPT-4o已经在Azure AI Studio上线，并开放API

发表于 05-22 11:18 •552次阅读

谷歌发布多模态AI新品，加剧AI巨头竞争

在全球AI竞技场上，谷歌与OpenAI一直稳居领先地位。近日，谷歌在I/O开发者大会上掀起了一股新的技术浪潮，发布了多款全新升级的多模态

发表于 05-16 09:28 •486次阅读

人大系初创公司智子引擎发布全新多模态大模型Awaker 1.0

人大系初创公司智子引擎近日震撼发布了新一代多模态大模型Awaker 1.0，这一里程碑式的成果标志着公司在通用人工智能（AGI）领域取得了重要突破。与前代ChatImg序列模型相比，Awaker 1.0凭借其独特的MOE架构和业

发表于 05-06 09:59 •663次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

李未可科技多模态 AI 大模型正式发布，积极推进 AI 在终端的场景应用 4月18日，2024

发表于 04-18 17:01 •655次阅读

微软Build 2024 大会5月21日举行，将带来全新Windows AI功能

　WindowsCentral已提前获取Build 2024各分会场主题和概要。尽管微软尚未公开详情，但仍可据此瞥见其今年Build大会的核心焦点，如以“推介下一代Windows on Arm”为题的分会场，预计将揭示Windo

发表于 04-12 14:42 •1140次阅读

谷歌推出多模态VLOGGER AI

谷歌最新推出的VLOGGER AI技术引起了广泛关注，这项创新的多模态模型能够让静态肖像图“活”起来并“说话”。用户只需提供一张人物肖像照片和一段音频内容，VLOGGER AI就能让图

发表于 03-22 10:45 •898次阅读

MWC2024：高通推出全新AI Hub及前沿多模态大模型

2024年世界移动通信大会（MWC）上，高通再次展现其技术领导力，通过发布全新的高通AI Hub和展示前沿的多

发表于 02-26 16:59 •1333次阅读

苹果全新AI功能今年发布

苹果公司CEO蒂姆·库克近日在财报会议上宣布，苹果将在今年发布全新AI（人工智能）功能，这是继推出Siri语音助手之后的又一重要创新。

发表于 02-03 09:16 •1228次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

Build 2024发布多项Azure AI Speech全新多模态功能

评论