AIoT下的多模态演变之路垂直领域竞争激烈-电子发烧友网

2018年人工智能（AI）行业成为了最受关注的热点之一，不同场景的AI芯片层出不穷，成为了智能时代的“入场券”，大多数业者称“得芯者得天下”，将2018年定义为“芯片元年”。

语音垂直应用领域，“造芯”似已成为云知声、出门问问、Rokid 、思必驰、科大讯飞从算法出发“软硬兼施”一条必走之途，但也显得语音AI市场变得异常竞争激烈。

在此背景下，2018年5月，云知声推出首款物联网AI芯片——雨燕（Swift），通过“唯快不破”的发展思路，很快在语音识别风口中和科大讯飞比肩，并完成C轮1亿美元的融资跻身国内众多AI独角兽榜单中的一员。

而在2019年开年之际，云知声继续抢跑，于1月2日召开了“2019云知声多模态AI芯片战略发布会”，会上正式公布了其多模态AI技术，以及正在研发中的多款定位不同场景的AI芯片，包括实用性更广的超轻量级物联网语音芯片雨燕（Lite）、可面向智慧城市场景提供对语音和图像等多模态计算支持的海豚（Dolphin），以及面向智慧出行场景的车规级芯片雪豹（Leopard）。以上三款芯片计划于2019年启动量产。

AIoT下的多模态演变之路

云知声创始人兼CEO黄伟认为，5G与人工智能的结合将真正促使万物智联（AIoT）的落地与实现。可以预见的是，未来巨量的多维数据（如语音、图像、视频等）集中处理与边缘式分布计算的需求，势必将进一步挑战AI底层支持硬件——芯片的计算能力。

与此同时，AI应用对于端云互动有着强需求。强大的云会让端能力更强，而强大的端则可提升数据处理的实时性和有效性，进而增强云的能力。二者需要紧密结合，这要求对芯片设计和云端架构进行统一考量。传统的通用方案架构由于在高实时性、高智能化场景中的算力有限，且无法平衡好成本、功耗、安全性等诸多现实需求，因此具备多维度AI数据集中处理能力的多模态AI芯片将成必由之路。

为实现多模态AI芯片的战略落地，目前云知声已在加速技术布局，并在机器视觉方面取得飞速进展。其中，面向机器视觉的轻量级图像信号处理器已可实现在不依赖外部内存的情况下，在30 fps的速率下实时对传感器的图片进行预处理，以进一步提高后续机器视觉处理模块的处理速度和效果。借助基于人脸信息分析的多模态技术，已可实现人脸/物体识别、表情分析、标签化、唇动状态跟踪等功能，可为产品交互和用户体验提供更多的可玩性和灵活性。

此外，云知声发布多模态人工智能核心IP——DeepNet2.0，可兼容LSTM/CNN/RNN/TDNN等多种推理网络，支持可重构计算与Winograd处理，最高可配置算力达4T。目前云知声DeepNet2.0已在FPGA上得到验证，将在2019年落地的全新多模态AI芯片海豚（Dolphin）上落地。

直面思必驰、科大讯飞垂直领域竞争

语音识别与语义分析，这是人们比较能理解的人工智能应用领域。虽然在这条起跑线上，云知声后来追上，但不难发现，与其业务重合度较高的莫过于思必驰和科大讯飞两家公司。

梳理之下可以看出，在产品线竞争上，云知声围绕智能家居、智能车载、机器人、智慧医疗和智慧教育等的五大领域四面受敌。

云知声产品线中的智能家居方案、智能车载方案和机器人方案，直面与思必驰构成业务重叠，竞争态势强烈。据思必驰CMO龙梦竹曾介绍，思必驰车载语音在智能车载后装市场占据约60%的份额，在智能后视镜领域约为70%，HUD领域已高达80%。

在智慧医疗与智慧教育领域里，科大讯飞仍是摆在眼前的不小阻力。除了双方均大力布局将语音转成结构化电子病历系统与智能口语评测外，科大讯飞还在医学影像辅助诊断和基于认知计算的辅助诊疗系统方面有所布局，并且根据科大讯飞2017年财报表示，其智慧教育产品已经覆盖全国15000余所学校，深度用户超过1500万，占总主营业务收入的25.54%。

因此，对于云知声而言，面对行业里既有科大讯飞这样的“老大”，又有不断加码人工智能投入的BAT等巨头，由应用场景来定义AI芯片的研发与产品形态无疑是其独立发展的最佳路径。

以语音病历系统为例。医生在说话时，能轻松地与电脑、iPad、移动查房设备等建立联系；说话的内容会被转录成文字并显示在医院专门的HIS、PACS、CIS等系统中。但是在医疗这个专业性非常强的领域，常规语音识别系统并不能完美胜任。

为此，云知声针对医院不同科室的业务进行了梳理，整理了超过30GB的医疗文本资料，并对这些资料进行分类、检索等处理，使得定制语音模型覆盖各个科室常用病症、药品名称、操作步骤等关键信息，使语音识别准确率超过95%。同时，针对医生的口音问题，云知声提出了无监督自适应技术，提高对医生口语的识别率。

所以，在这一轮人工智能风潮的到来，最重要的是芯片定位。云知声的做法是，针对细分客户的需求做极致化服务，从算法公司的角度出发做芯片，软硬结合打造出一个好用的芯片，欲成为语音交互佼佼者，同时希望推出语音AI芯片打造生态，从而实现价值的提升。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音交互

语音交互

+关注

关注
3

文章
283

浏览量
27989
AI芯片

AI芯片

+关注

关注
17

文章
1862

浏览量
34931

原文标题：“声”势惊人 AI语音交互芯片启动新一轮垂直领域战场

文章出处：【微信号：DIGITIMES，微信公众号：DIGITIMES】欢迎添加关注！文章转载请注明出处。

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多模态

发表于 10-18 09:39 •341次阅读

Meta发布多模态LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一项重要技术突破，成功推出了多模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息，还实现了对图像内容的精准理解，标志着Meta在AI多

发表于 09-27 11:44 •376次阅读

云知声推出山海多模态大模型

在人工智能技术的浩瀚星海中，多模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后，云知声以创新之姿，推出了其匠心独运的山海多模态大模型，正式宣告“Her时代

发表于 08-27 15:20 •368次阅读

依图多模态大模型伙伴CTO精研班圆满举办

大模型在不同行业领域的应用前景;7月19日， “依图科技多模态大模型伙伴CTO精研班”在杭州圆满举办，让更多的伙伴们深度体验了依图多模态大模

发表于 07-23 15:16 •393次阅读

谷歌发布多模态AI新品，加剧AI巨头竞争

在全球AI竞技场上，谷歌与OpenAI一直稳居领先地位。近日，谷歌在I/O开发者大会上掀起了一股新的技术浪潮，发布了多款全新升级的多模态AI产品。

发表于 05-16 09:28 •425次阅读

人大系初创公司智子引擎发布全新多模态大模型Awaker 1.0

人大系初创公司智子引擎近日震撼发布了新一代多模态大模型Awaker 1.0，这一里程碑式的成果标志着公司在通用人工智能（AGI）领域取得了重要突破。与前代ChatImg序列模型相比，Awaker 1.0凭借其独特的MOE架构和业

发表于 05-06 09:59 •575次阅读

苹果发布300亿参数MM1多模态大模型

近日，科技巨头苹果公司在一篇由多位专家共同撰写的论文中，正式公布了其最新的多模态大模型研究成果——MM1。这款具有高达300亿参数的多模态模型系列，由密集模型和混合专家（MoE）变体组

发表于 03-19 11:19 •856次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •370次阅读

什么是多模态？多模态的难题是什么？

单模态大模型，通常大于100M～1B参数。具有较强的通用性，比如对图片中任意物体进行分割，或者生成任意内容的图片或声音。极大降低了场景的定制成本。

发表于 01-17 10:03 •4450次阅读

日中在汽车芯片领域竞争激烈

相较之下，中国大陆电动汽车品牌繁多且市场竞争激烈。无论是内设芯片团队的传统汽车厂商，或是专注电动汽车品牌的投资机构，中国大陆均全情投入各类汽车芯片的研发。

发表于 01-03 13:59 •532次阅读

从Google多模态大模型看后续大模型应该具备哪些能力

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

发表于 12-28 11:19 •1215次阅读

语音识别技术最新进展：视听融合的多模态交互成为主要演进方向

电子发烧友网报道（文/李弯弯）所谓“模态”，英文是modality，用通俗的话说，就是“感官”，多模态即将多种感官融合。多模态交互技术是近年

发表于 12-28 09:06 •3680次阅读

成都汇阳投资关于多模态驱动应用前景广阔，上游算力迎机会!

。Gemini 主打在多模态领域的突出能力，在输入端， Gemin 可以适应文本与音视频交叉的输入序列，比如自然图像、图表、截图、pdf 和视

发表于 12-18 13:08 •465次阅读

人工智能领域多模态的概念和应用场景

随着人工智能技术的不断发展，多模态成为了一个备受关注的研究方向。多模态技术旨在将不同类型的数据和信息进行融合，以实现更加准确、高效的人工智能应用。本文将详细介绍

发表于 12-15 14:28 •9360次阅读

大模型+多模态的3种实现方法

我们知道，预训练LLM已经取得了诸多惊人的成就，然而其明显的劣势是不支持其他模态（包括图像、语音、视频模态）的输入和输出，那么如何在预训练LLM的基础上引入跨模态的信息，让其变得更强大、更通用呢？本节将介绍“大模型+

发表于 12-13 13:55 •1638次阅读