炬芯科技 2019 多模态交互技术开发者大会：AI多模态交互如何助力教育-电子发烧友网

2020年AI多模态交互技术将会迎来较大爆发。12月19日，在炬芯科技第四届Techlife炬芯2019多模态交互技术开发者大会上，来自喜马拉雅、达摩院、玩瞳科技、IP方CEVA的行业大咖们，从内容赋能、语音赋能到视觉算法赋能、IP加速等多角度，共同探讨多模态交互在教育上的落地情况。

多模态交互技术赋能新智能硬件

喜马拉雅今年的用户突破6亿，拥有7000万以上的主播，其中100万以上是认证主播，在整个音频行业的覆盖率73%，每个用户平均每天的播放时长超过170分钟，喜马拉雅硬件生态事业部总经理余涛表示，“我们的目标是，提供高度粘性，给用户提供有价值的产品。”

喜马拉雅硬件生态事业部总经理余涛

硬件生态事业部主要做内容赋能，喜马拉雅希望通过内容赋能，让大家能够把产品的体验做得更好。在余涛看来，人们拥有很多碎片化的时间，从古代到现代，人本质上的需求是不会变的，而变的是我们以怎样的方式去实现人们的需求。就像喜马拉雅现在做的音频的产业一直是存在的，而必须求变的是，需要通过怎样的交互，生意模式，去给大家带来更多的思考。

为此，喜马拉雅接下来将会基于场景化，给大家带来不同场景化的东西。怎么做呢？即基于场景，让人们在不同的碎片时间，可以有不同碎片时间的音频的享受。所以我们在各种场景下，对内容做了筛选，比如从现在的故事维度到教课维度，把所有的内容分为10个大类，包括博学、英语到科普，从不同维度输出内容。

实际上，所有的硬件厂商，未来也是一样。如何让用户把爱不释手的硬件拿到手，那就是要能为这些用户提供更多的价值。

喜马拉雅正在打造深圳硬件生态，已经为很多头部厂商输出内容，比如为阿里、天猫、小米里面的喜马专区，小米、小天才、华为的手表，三星、联想的手机的内容。此外，喜马拉雅硬件事业创业部2020年提出了一个双百计划，即三年内，有一百个年收入分成超过一百万的企业，这是接下来的目标。

相信，喜马拉雅的内容在更多的智能产品中出现，丰富的内容体系将在多模态交互技术赋能的新智能硬件中焕发更蓬勃的生命力。

“阿里巴巴在语音助手方面，比谷歌更好。”

“谈到达摩院语音实验室的时候，经常有朋友很惊讶的问到，阿里巴巴还做语音吗，那做得怎么样呢？”阿里巴巴达摩院语音实验室资深算法专家高杰在会上说到。事实上，阿里巴巴达摩院的语音技术的表现已经相当优秀，今年MIT Technology Review中讲到2019年十大技术突破，有一点提到语音助手技术，是这么说的，“阿里巴巴在语音助手方面，比谷歌更好。”这个评论是针对，阿里菜鸟送货电话机器人去做的。高杰表示，在我们擅长的小小领域，比如电商客服，送货，人工智能对话方面是实实在在做得最好的。

图：阿里巴巴达摩院语音实验室资深算法专家高杰

图：MIT Technology Review 2019提到“阿里巴巴在语音助手方面，比谷歌更好。”

高杰还从三个方面谈到了达摩院的语音能力和优势，他说，“数据积累、算法和计算能力是语音AI三大基石。在数据积累方面，达摩院语音技术连续4年，每年识别阿里巴巴集团内超过1亿通的电话，还提供手机淘宝、支付宝、手机高德等阿里巴巴集团内所有App的语音识别相关功能，具有电视、车载、儿童教育、公共空间等多领域的语音交互数据，具备多语音、重口音、方言能力；在算法方面，具有三国五地精英齐聚的百人精英团队，具备信号处理、语音识别、语音合成、对话处理的能力；在计算能力方面，背靠阿里云，弹性计算百万并发经受双十一考验，语音识别使业内最先进的CTC-LFR建模技术提速3倍以上。”

在会上，高杰重点介绍两款产品，语音原子产品和语音交互产品。语音原子产品，包含语音识别和语音合成，具有自学习、弹性计算、稳定、方便接入的特点。语音交互产品旨在让每台设备都能听会说懂你，该产品从2015年到2018年，已经在手机、汽车、电视、智能家居等场景中应用，包括支付宝、虾米音乐、多模态地铁售票机、手机高德APP、儿童机器人、荣威系列、海尔远场景语音电视等等。

高杰表示，达摩院语音实验室的愿景是为阿里巴巴经济体提供无处不在的语音交互能力。语音技术作为多模态中发展最成熟，也是最重要的一环，我们期待语音技术在多模态交互场景中有着更多的亮眼表现。

视觉将是下一代机器人的基本能力

玩瞳科技VisionTal专注于实体学习桌面的智能视觉分析，旨在打造多模态的智能学习体验。在会上，玩瞳科技CTO潘鑫表示，政策利好产业发展，2018年，中国发布的《教育信息2.0行动计划》强调“智慧教育创新发展行动”要加强智能教学助手、教育机器人、智能学伴、语音文字信息化等关键技术研究与应用。教育机器人作为机器人应用于教育领域的代表，将成为智慧学习环境的重要组成部分。

玩瞳科技CTO潘鑫

在谈到下一代机器人的发展方向时，潘鑫认为，视觉将是下一代机器人的基本能力。视觉的能力将使机器人改变以往的被动服务形式，迈向主动服务。从而为使用者提供更好的服务体验。

玩瞳科技在教育视觉领域深耕多年，在视觉识别算法上走在行业前列，在完整的技术体系支持下，推出了多款视觉识别的教育硬件产品，并且和机器人/故事机、教育电子、互联网巨头、垂直教育多领域合作，积累了丰富的实践经验。

让教育硬件从听到到看，多模态的交互趋势，玩瞳已做好准备。

CEVA DSP一站式解决方案助力极速开发产品

CEVA是一家以色列的IP授权公司，在DSP领域处于领先地位，客户遍布全球各地，行业应用覆盖非常广，包括计算机视觉、AI、通讯等领域。CEVAKeyAccountsMananger田元在会上表示，CEVA每年出货量非常可观，有CEVAinside的终端产品出货超过10亿台。

CEVA Key Accounts Mananger 田元

在会上，田元重点谈到音频相关的应用，重点讲到智能音箱和TWS耳机，调研机构数据显示，接下来几年，TWS耳机每年都有500—800 milion的出货量，智能音箱市场表现更为稳定，接下来几年会维持大概200 milion的出货量，在田元看来，未来几年，整个市场需求相当可观。

那么，面对如此大的市场需求，为什么用DSP而不是通用处理器来处理跟语音相关的东西？田元解释道，DSP，即数字信号处理器，语音作为数字信号，天然需要用DSP处理。那么又为什么用CEVA的DSP？田元说，“CEVA可以同时提供低功耗产品和高性能产品，此外，还和软件合作伙伴们一起，打造非常完备的生态系统，可以保证开发者、芯片客户、终端用户，快速开发产品，快速落地。CEVA除了提供DSPIP本身之外，还提供整套一站式解决方案，涵盖DSP IP、跟音频相关的软件等等。”

CEVA还会阵对不同的场景需求，提供不同的解决方案，这样，IC设计公司可以有更多的选择。以炬芯的芯片为例，超低功耗的解决方案对应炬芯ATS283X平台，高性能解决方案对应ATS3609D平台，优质的芯片集成的优质IP，可为终端智能硬件的产生做好充足准备。

AI多模态交互技术智启新教育

人机交互正在从键盘鼠标的交互转变成语音视觉等多模态交互。交互门槛的不断降低，给交互体验带来了明显提升。炬芯科技产品总监肖凯平表示，语音和视觉是AI交互主要的交互手段，语音方面，不同的产品，要求会有不同，但体验一定要“过门槛”，2mic是入门级要求，需要在本地完成AFE+WMC所有的计算；视觉方面，算法的计算量很大，本地化NN的性价比不够，在本地完成一部分计算，大部分工作在“云”完成。

炬芯科技产品总监肖凯平

为实现更优质交互体验，炬芯作为一家芯片设计厂商的也在持续深耕技术，希望用更优质产品给智能机器赋能。炬芯科技推出了ATS3607、ATS3607D、ATS3609、ATS3609D四款多模态智能交互芯片，充足的算力、超低的功耗、强大的可扩展性，将赋予机器更多的可能性。

图：炬芯多模态交互AI芯片平台ATS3609D

据肖凯平介绍，炬芯多模态交互AI芯片平台ATS3609D，具有语音+图像智能、音视频能力、教育内容等，其中语音+图像智能更适用“重”语音，“轻”图像双模交互的场景；音视频能力双向视频通话，应用在线教育产品；教育+AI，可以给传统教育提供不一样的体验。

图：炬芯多MIC语音芯片平台ATS3607D，可应用于车载、家电、办公领域

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30830

浏览量
268995
阿里巴巴

阿里巴巴

+关注

关注
7

文章
1614

浏览量
47195
炬芯科技

炬芯科技

+关注

关注
2

文章
109

浏览量
10734

探索智慧实践，洞见AI未来！星宸科技2024开发者大会暨产品发布会成功举办

在人工智能技术飞速发展的当下，多模态大模型加速向行业深耕，为更大范围满足AI产业创新融合需求，12月20日，星宸科技以“Leading AI

发表于 12-23 14:34 •280次阅读

探索智慧实践，洞见<b class='flag-5'>AI</b>未来！星宸科技2024<b class='flag-5'>开发者</b><b class='flag-5'>大会</b>暨产品发布会成功举办

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •173次阅读

高通与智谱推动多模态生成式AI体验的终端侧部署

此前，骁龙峰会首日，智谱与高通技术公司宣布合作将GLM-4V端侧视觉大模型，面向骁龙8至尊版进行深度适配和推理优化，支持丰富的多模态交互方式，进一步推动

发表于 11-08 09:55 •174次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多模态

发表于 10-18 09:39 •426次阅读

云知声推出山海多模态大模型

在人工智能技术的浩瀚星海中，多模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后，云知声以创新之姿，推出了其匠心

发表于 08-27 15:20 •391次阅读

慕尼黑电子展回顾：启明智显多模态硬件智能体引领科技潮流

人流如织，热闹非凡。多模态硬件智能体：未来科技的集大成者展会现场，启明智显隆重推出了其自主研发的多模态硬件智能体。这一创新产品融合了HMI（

发表于 07-10 16:17 •367次阅读

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

丰富外设配件配套多模态应用示例，支持快速上手体验大模型语音交互、智能视觉等 AI 应用板载 DAPLINK 调试器，外接一条USB 线即可实现烧录、调试、串口日志查看板载网络模组

发表于 06-18 17:33

Build 2024发布多项Azure AI Speech全新多模态功能

客户们持续使用 Azure OpenAI 和 Azure AI Speech 进行创新，为企业引入新的效率，并构建新的多模态体验。

发表于 05-28 09:08 •569次阅读

谷歌发布多模态AI新品，加剧AI巨头竞争

在全球AI竞技场上，谷歌与OpenAI一直稳居领先地位。近日，谷歌在I/O开发者大会上掀起了一股新的技术浪潮，发布了多款全新升级的多

发表于 05-16 09:28 •450次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

李未可科技多模态 AI 大模型正式发布，积极推进 AI 在终端的场景应用 4月18日，2024中国生成式AI

发表于 04-18 17:01 •597次阅读

NVIDIA Edify多模态架构升级，引领视觉生成式AI新纪元

NVIDIA近日宣布，其用于视觉生成式AI的多模态架构Edify迎来重大更新，为开发者和视觉内容提供商带来前所未有的新功能。其中，3D资产生成功能的引入，极大地提升了

发表于 03-27 10:22 •458次阅读

谷歌推出多模态VLOGGER AI

谷歌最新推出的VLOGGER AI技术引起了广泛关注，这项创新的多模态模型能够让静态肖像图“活”起来并“说话”。用户只需提供一张人物肖像照片和一段音频内容，VLOGGER

发表于 03-22 10:45 •836次阅读

MWC2024：高通推出全新AI Hub及前沿多模态大模型

2024年世界移动通信大会（MWC）上，高通再次展现其技术领导力，通过发布全新的高通AI Hub和展示前沿的多模态大模型

发表于 02-26 16:59 •1267次阅读

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据，为更丰富的交互和查询响应提供了可能性。

发表于 01-19 16:11 •689次阅读

语音识别技术最新进展：视听融合的多模态交互成为主要演进方向

电子发烧友网报道（文/李弯弯）所谓“模态”，英文是modality，用通俗的话说，就是“感官”，多模态即将多种感官融合。多模态

发表于 12-28 09:06 •3886次阅读

搜索历史

炬芯科技 2019 多模态交互技术开发者大会：AI多模态交互如何助力教育

多模态交互技术赋能新智能硬件

“阿里巴巴在语音助手方面，比谷歌更好。”

视觉将是下一代机器人的基本能力

CEVA DSP一站式解决方案助力极速开发产品

AI多模态交互技术智启新教育

评论