0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

三问AI手机:什么意图?怎么识别?何种框架?

脑极体 来源:脑极体 作者:脑极体 2024-08-21 17:45 次阅读

wKgaombFt0eAHuGiAAl7lPiTCKs883.jpg

早在几个月前,就有媒体同行问我:AI手机到底是什么?跟智能手机有什么本质的不同?

试想一下,如果经常跟科技企业、技术趋势打交道的媒体人、分析师都对何谓AI手机云里雾里,更别提门店销售和消费者了。

2024被认为是AI手机元年,但今天走进线下门店,会发现店员和用户都对手机里的AI有啥不一样,感知并不明显。

移动互联网时代,我们常说手机是人“肢体”的延伸,可以让我们的“手”触及更远的地方,“看”到更广阔的事物。到了AI时代,手机是“大脑”的延伸,心念一动、言出法随,手机会根据我们的使用习惯和意图,主动提供有价值的服务。

所以,AI手机区别于智能机的一个更高阶、更本质的能力,就是“意图识别”。

目前,苹果阵营、华为鸿蒙阵营、荣耀OV安卓阵营,都将意图识别作为重点。

苹果CEO库克在AI系统“Apple Intelligence”的发布会上重点强调,在“苹果智能(Apple Intelligence)”的支持下,Siri具备了精准识别用户真正意图的能力。

而安卓和鸿蒙用户,恐怕对此并不陌生。

华荣OV等国产手机厂商早就上线了相应能力。荣耀在2023开发者大会上带来了行业首个基于AI意图识别的人机交互(IUI)操作系统——MagicOS 8.0;华为在HDC 2024上提出Harmony Intelligence,使得小艺能力大幅提升,能够理解并预测用户需求,并通过意图框架与合作伙伴应用场景整合。

OV虽然没有明确推出意图框架等平台,但也用行动参与其中。将大模型融入系统的底层设计中,升级OriginOS、BlueOS,来实现复杂的意图识别和推理决策。

那么用户又该迷惑了,各家都在说“意图识别”,到底有啥不一样呢?

“意图”是人心中所想,带有模糊和不确定性,“识别”结果也就有了很大的自由阐释空间,厂商如何避免自说自话,把“手机懂你”这件事落在实处?

就要依靠一个操作系统级的全局意图感知、理解、决策技术体系。

我们不妨把“意图识别框架”这一新概念详细拆分开,看看每一个环节的准入门槛是什么。

wKgaombFt0iASQcmAAJGPZz7Whc620.jpg

意图识别的第一步,当然是搞清楚什么是用户的“意图”,也就是手机厂商所说的“懂你”。

但“意图”并不是什么新概念。

早在互联网时代,意图识别就被应用于搜索引擎、广告推荐等场景。比如用户在搜索框输入“抓娃娃”,底层的检索策略要识别到这是电影需求,再去电影的数据库里检索,如果电影意图识别失败,返回的搜索结果中,根本没有《抓娃娃》电影相关内容,或者要翻好几页才显示,都会导致很糟糕的用户体验。所以,意图识别很早是科技企业研究的对象。

那么,AI手机所谓的“意图识别”,有啥特殊呢?

特殊在于,要游过深海。

今天手机所承载的“意图”,有两个特点:

一是范围广。一个动作或词语可能对应多个意图。现代消费电子设备的激增,带来了丰富多样的功能和服务,几乎涵盖了我们生活的方方面面,终端设备的多元、服务的多样,经常会出现多种意图,比如输入“长城”,可能是景点、电影或者汽车,这就使手机的意图识别更难做。

二是隐蔽性。传统意图识别可以根据用户给出的query词来进行判断,属于相对明确的“显性意图”,但日常使用手机时,还有大量隐性意图,比如眼睛注视手机屏幕,可能是想看时间、看新消息通知或日程计划;遗忘了出行计划,可实际上航班时间应该重点关注……这些是用户真实需要,但自己很少意识到或清晰表达出来的“隐性意图”,由于无法被清晰表达,难以转译成计算机语言,自然也就难以满足。

wKgZombFt0mASdMjAABGui_SUNI579.jpg

这些多且隐蔽的意图,构成了一片“意识深海”,需要手机厂商跋涉而过,找到一条最短路径。

由此,我们不难明确,AI手机意图识别的意义:

首先是化繁为简。通过洞察用户真正的需求,简化获取服务的步骤。

比如荣耀的“任意门”功能,带来了行业首个基于意图识别的人机交互,只需一拖不到1秒即可完成以往8步10秒的操作流程。当用户收到一条信息,复制之后,系统会自动分析语义并提炼关键内容,预判接下来的需求和操作,自动一步直达备忘录、地图等应用。华为智慧搜索支持“一键场景直达”、OPPO的ColorOS 14系统中的“流体云”功能,能预测用户行为,自动接入相应的使用场景……这些都简化了操作步骤。

其次,多想一步。通过隐性意图的识别和满足,带来超出用户期望的惊喜体验,构建差异化优势。

华为曾在一次分享会中提到,HarmonyOS意图框架可以通过长时间的学习训练,把人们自己都感觉不到的规律串联起来,并通过端侧的本地学习完成本地学习推荐,从而完成“超预期”的智慧搜索服务体验。

接下来,可以主动服务。比用户多想一步,就能将服务化被动为主动,更快更恰当地送到用户的眼前指尖。

目前,鸿蒙系统的场景化入口,就可以根据意图判断,将不同服务融入实际场景中,比如搭乘飞机,航班信息会优先显示在实时状态栏,荣耀Magic Live也有类似的主动服务,在观影、听歌、走进地铁站等场景中,提前将取票、听歌偏好、地铁码等原子化服务进行推送。

基于意图识别的人机交互,让你最需要的服务,涉过意识的深海。

wKgZombFt0qARAszAAHzAZbb15c100.jpg

洞察到了用户的意图,就能将服务精准送达吗?其实还要穿过一片AI的丛林。

有一个职场段子,老板让秘书定一个航班,最低段位的秘书,就只会看那一班,而最高段位的,还会提供多个航班选择,还考虑到出差需求,也把当地的住宿、餐饮等都提前查好备选。

如果让手机AI来应聘做你的助理,你希望是哪一个段位呢?

最高段位的AI助理,要真正理解你说的话背后的真实意图,并真正完成你想要的任务,其实要拆分为几个步骤。

步骤一:充分感知。一个优秀的助理,并非“胡子眉毛一把抓”,什么事情都要提前安排,而是结合上下文背景和情境,来对用户的潜在意图进行判断。所以,充分感知场景和情境,就非常必要了。

苹果高级副总裁Craig曾表示,Apple Intelligence的真正独特之处是能理解个人情境。能够根据你的个人数据,你现在打开的页面等背景,来理解需求。

比苹果更早一些,荣耀在2016年第一代Magic上首发Magic Live智慧系统,就能够自动感知判断。

wKgaombFt0uAM2DLAABXjKB9NjY072.jpg

步骤二:分析判断。

有了上下文背景,怎么推断多个意图的重要性和优先级呢?这就涉及语义理解了。目前,检索、问答等任务,由于用户有明确的检索词,利用大模型的自然语言理解能力,已经可以很好地推断用户到底想干什么。

其中比较具有代表性的是Apple Intelligence苹果智能+ GPT-4o大模型的方案。基于Apple Intelligence,苹果为Siri引入了多模态交互能力,可以从输入的自然语言中精准地进行用户意图识别,将任务拆分为多个任务,作为生成回答的基石。

wKgZombFt0uAUcNlAADZEiQZWvc277.jpg

步骤三:精准执行。

我们可以把每一个服务和功能,想象成一个个智能体,每个智能体只有孤立的识别和输出能力,要完成用户需要的复杂任务,需要对这些智能体进行精巧地、自动化地调取和编排,才能在意图判断之后,做出最恰当的执行反馈。

OPPO与IDC联合发布的《AI手机白皮书》中提到,成熟的AI手机系统要内嵌用户定义的专属智能体,不断理解用户习惯,自学习、直觉化。

在VDC开发者大会的一场技术论坛中,vivo的技术人员也透露,作为业内首个推出手机大模型(蓝心大模型)的厂商,他们很早就开始研究agent,对手机原生化服务组件的拆分很细、编排恰当。

这样看,从意图到服务之间,还要经过数据(感知)、算法(分析)、智能体(执行)的一片AI森林,只有具备完整AI技术体系的厂商,才能顺利跑通。

wKgaombFt0yAZ6U1AAJY4hU4hYQ695.jpg

从上述意图识别的拆解中不难感受到,AI手机想做的“以人为中心”的主动服务,跨设备的数据流转(全场景感知),跨应用的服务触达,以及全局安全,是必不可少的。

如何将各层级、各终端、各系统、各应用都整合在一起?

意图框架,就是关键纽带,具备操作系统平台级的能力,可以让AI贯穿从数据到服务的完整链路,带来意图识别的能力飞跃。

目前,荣耀、华为、苹果都推出了自己的框架或平台。

其中,Magic Live智慧引擎是基于场景感知、用户理解和意图决策三大核心能力的平台型AI解决方案,形成了一个能够衔接各种轨迹和能力的“大脑”,实现了从单意图到多意图关联的精准意图判断。

苹果也采用了“荣耀模式”,App Intent意图框架包含了自学习引擎,实时学习用户行为,并根据时间和空间信息,提供个性化服务。

华为HarmonyOS的意图框架,则构建全局意图范式,基于鸿蒙系统的跨端互联协作优势,实现多维系统感知,结合AI大模型、AI推理框架、端云协同等计算处理能力,将需求传递给服务方,拉起/执行更恰当的服务。

总结一下荣耀、华为、苹果的意图框架,就是具备“地基”的能力。

为了更好的意图理解,三家都进行了深度的技术搭建,实现了操作系统级别、跨终端的意图感知、理解,只有深入到系统层面,才能真正重构手机AI体验。

同时,意图识别会涉及敏感数据的采集、共享和流动,在隐私安全方面,无论是一贯以隐私保护著称的苹果,还是荣耀的MagicGuard和MagicRing信任环,华为HarmonyOS NEXT的原生安全,都说明唯有平台级的AI能力,能在释放智慧的同时,守住安全的防线。

说到这里,你是不是有点疑惑,既然意图识别这么难、需要改造和创新的地方这么多,效果也不是一时半会儿能体现出来的,主打一个“谁用谁知道”,要不还是先躺平算了。

确实,意图识别的每一关都不好过,但这正是竞争白热化、同质化的手机市场,厂商突围的关键。

更何况,AI手机应该是消费电子市场最大的一个新蛋糕,华荣OV等一批国内厂商又早已“上桌”,只要攻克一些技术难关,就能成功分到大蛋糕,何乐而不为呢?

意图识别框架上,正在酝酿一场从“以手机为中心”到“以人为中心”的交互之变,AI手机才刚刚萌芽。

wKgaombFt02AdwTjAAHYqZl45Ro270.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 框架
    +关注

    关注

    0

    文章

    396

    浏览量

    17247
  • AI
    AI
    +关注

    关注

    87

    文章

    28765

    浏览量

    266034
收藏 人收藏

    评论

    相关推荐

    基于迅为RK3588开发板的AI图像识别方案

    迅为RK3568/RK3588开发板AI识别演示方案包括 01_官方模型测试 02_人脸识别 03_口罩检测 04_工地防护 05_扑克牌识别 06_手掌关键点检测 07_人脸特征点
    发表于 08-13 11:26

    中国AI长卷(二):框架立基

    AI框架可以看到,更强的产业化能力,就是中国AI的底色
    的头像 发表于 07-24 12:27 2427次阅读
    中国<b class='flag-5'>AI</b>长卷(二):<b class='flag-5'>框架</b>立基

    ai大模型和ai框架的关系是什么

    AI大模型和AI框架是人工智能领域中两个重要的概念,它们之间的关系密切且复杂。 AI大模型的定义和特点 AI大模型是指具有大量参数的深度学习
    的头像 发表于 07-16 10:07 3.7w次阅读

    AI大模型与AI框架的关系

    在探讨AI大模型与AI框架的关系时,我们首先需要明确两者的基本概念及其在人工智能领域中的角色。AI大模型通常指的是具有极大规模、高度复杂性和强大能力的人工智能系统,它们能够处理复杂的任
    的头像 发表于 07-15 11:42 579次阅读

    CubeIDE生成的代码框架会卡在MX_X_CUBE_AI_Process()函数中是怎么回事?

    当我将网络模型部署到STM32F407VGT6中时,CubeIDE生成的代码框架会卡在MX_X_CUBE_AI_Process()函数中是怎么回事?CUbeAI库的版本是9.0。期待您的回复,谢谢
    发表于 05-30 06:11

    玩转大模型 企业AI着陆新正解 神州AI原生赋能平台正式发布

    智能未来的坦途。   神州学——打造“一站式”AI原生赋能平台 面对TOB业务复杂性和多样性,神州学致力给出“一站式”解决问题的方式,将AI原生的场景赋能、知识治理、模型训练与管理
    的头像 发表于 05-15 16:41 254次阅读
    玩转大模型 企业<b class='flag-5'>AI</b>着陆新正解 神州<b class='flag-5'>问</b>学<b class='flag-5'>AI</b>原生赋能平台正式发布

    李未可科技正式推出WAKE-AI多模态AI大模型

    文本生成、语言理解、图像识别及视频生成等多模态交互能力。   该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互,同时多模态问答技术的加持,能实现所见即所、所即所得的精准服务。此外,融合了人类
    发表于 04-18 17:01 471次阅读
    李未可科技正式推出WAKE-<b class='flag-5'>AI</b>多模态<b class='flag-5'>AI</b>大模型

    开发者手机 AI - 目标识别 demo

    Lite的API接口实现主要功能; Mindspore Lite为Openharmony AI推理框架,为上层应用提供统一的AI推理接口,可以完成在手机等端侧设备中的模型推理过程;
    发表于 04-11 16:14

    数据语料库、算法框架和算力芯片在AI大模型中的作用和影响

    数据语料库、算法框架和算力芯片的确是影响AI大模型发展的大重要因素。
    的头像 发表于 03-01 09:42 680次阅读

    爱立信发布基于AI意图驱动运营方案

    日前,爱立信宣布:在其托管服务交付平台——爱立信运营引擎(Ericsson Operations Engine)中,嵌入了基于AI赋能的意图驱动运营方案,为消费者和企业用户提供差异化优质5G服务。
    的头像 发表于 02-21 09:15 4787次阅读

    荣耀发布MagicOS 8.0,首次实现意图识别人机交互

    在科技圈掀起一股热潮的荣耀正式发布了其自主研发的全新操作系统——MagicOS 8.0,并赋予其一个富有魔法的中文名字:魔法OS 8.0。这款新操作系统凭借其独创的平台级AI使能的意图识别人机交互,重新定义了智能终端的交互方式。
    的头像 发表于 01-12 14:50 740次阅读

    AI视觉识别有哪些工业应用

    AI视觉识别涵盖多种应用,如人脸识别、目标检测和识别、图像分割、行为识别、视频分析等。本篇就简单介绍一下
    的头像 发表于 11-27 18:05 1005次阅读
    <b class='flag-5'>AI</b>视觉<b class='flag-5'>识别</b>有哪些工业应用

    【KV260视觉入门套件试用体验】Vitis AI Library体验之OCR识别

    Vitis AI Runtime,Vitis AI Library 有很多已经封装好的神经网络接口,直接拿来用即可。 OCR识别基于Vitis AI Library 的ocr_pt模型
    发表于 10-16 23:25

    【KV260视觉入门套件试用体验】六、VITis AI车牌检测&amp;车牌识别

    了广泛应用 、车牌检测和车牌识别 3.1、车牌检测 #include #include #include #include #include #include #include
    发表于 09-26 16:28

    OpenHarmony AI框架开发指导

    ,ClientInfo,AlgorithmInfo,DataInfo的数据结构 具体开发过程可参考唤醒词识别SDK开发示例 2、开发插件 AI引擎框架规定了一套算法插件接入规范,各插件需实现规定接口以实现获取插件版本
    发表于 09-19 18:54