苹果发布研究论文：揭示Ferret-UI AI系统，破解MLLMs移动应用理解难题-电子发烧友网

据悉，Apple近期发表了有关于Ferret-UI AI系统的研究论文，这款新型AI系统可理解应用程序屏幕上的内容。

目前围绕人工智能（AI）技术，出现了如ChatGPT这样的大语言模型（LLMs），这些模型擅长处理文本资料。然而，对于像图片、视频和声音等多媒体类型的非文本n内容，就需要扩大AI模型的适用范围，相应地，多模态大语言模型（MLLMs）也就应运而生。

尽管MLLMs已表现出对移动应用程序的理解不足，具体表现在以下几点：

首先，智能手机屏幕的宽高比和大多数训练视觉模型所使用的比例不同；其次，MLLMs需要识别出较小的图标和按钮。

针对以上问题，Apple提出了名为“Ferret-UI”的MLLM系统，以应对这些挑战。系统通过引入WMDR（任意分辨率），提升模型在处理用户界面任务时的辨识度，使其能更好地识别和理解小图标、文字等元素。

此外，我们专门采集了大量与初级用户界面任务相关的样本，包括图标识别、文本查找和小部件列表等。所有样本均按照区域注释指令进行设计，以便于精确解释和实用化。

为了提高模型的认知水平，我们进一步定制了高级任务数据集，含括详细描写、感官/互交互对话及功能推理等方面。

该项研究表明，与现行的GPT-4V以及其他MLLMs模型相比，Ferret-UI AI模型具有显著优势。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1792

文章
47409

浏览量
238919
语言模型

语言模型

+关注

关注
0

文章
529

浏览量
10292
ChatGPT

ChatGPT

+关注

关注
29

文章
1564

浏览量
7805

华为悬赏300万元求解难题牵引全球数据存储领域基础理论研究方向

华为奥林帕斯奖奖金池高达3百万，设置有2个奥林帕斯奖，奖金各100万元；5个奥林帕斯先锋奖，奖金各20万元。难题1：每bit极致性价比的存储技术 AI应用的普及，引发存储数据量激增且长期留存，冷数据呈现向温数据转变的趋势，研究

发表于 12-30 17:50 •349次阅读

电线EMC电磁兼容性测试整改：破解电磁干扰的难题

深圳南柯电子｜电线EMC电磁兼容性测试整改：破解电磁干扰的难题

发表于 12-11 11:19 •207次阅读

电线EMC电磁兼容性测试整改：<b class='flag-5'>破解</b>电磁干扰的<b class='flag-5'>难题</b>

利用VLM和MLLMs实现SLAM语义增强

语义同步定位与建图（SLAM）系统在对邻近的语义相似物体进行建图时面临困境，特别是在复杂的室内环境中。本文提出了一种面向对象SLAM的语义增强（SEO-SLAM）的新型SLAM系统，借助视觉语言模型

发表于 12-05 10:00 •208次阅读

利用VLM和<b class='flag-5'>MLLMs</b>实现SLAM语义增强

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

了传统学科界限，使得科学家们能够从更加全面和深入的角度理解生命的奥秘。同时，AI技术的引入也催生了一种全新的科学研究范式，即数据驱动的研究范式，这种范式强调从大量数据中提取有价值的信息

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

，推动科学研究的深入发展。总结通过阅读《AI for Science：人工智能驱动科学创新》第二章，我对AI for Science的技术支撑有了更加全面和深入的理解。我深刻认识到

发表于 10-14 09:16

苹果调整策略:逐步摒弃年更产品发布模式

10月8日讯，彭博社知名记者马克·古尔曼在《Power On》通讯中揭示，苹果公司正逐步转变其传统的“年度更新”发布模式，迈向更为灵活的产品发布策略。

发表于 10-08 16:46 •809次阅读

破解大面积场景清洁难题，普渡推出AI智能扫地机器人PUDU MT1

破解大面积场景清洁难题，普渡推出AI智能扫地机器人PUDU MT1 9月10日，全球服务机器人领导者普渡机器人发布了全新AI智能扫地机器人，

发表于 09-12 14:37 •474次阅读

苹果AI模型训练新动向：携手谷歌，未选英伟达

近日，苹果公司发布的最新研究报告揭示了其在人工智能领域的又一重要战略选择——采用谷歌设计的芯片来训练其AI模型，而非行业巨头英伟达的产品。这

发表于 08-01 18:11 •933次阅读

苹果承认使用谷歌芯片来训练AI

苹果公司最近在一篇技术论文中披露，其先进的人工智能系统Apple Intelligence背后的两个关键AI模型，是在谷歌设计的云端芯片上完成预训练的。这一消息标志着在尖端

发表于 07-30 17:03 •743次阅读

苹果转向谷歌芯片训练AI,或成弃用英伟达GPU首例

在7月29日这个令全球瞩目的日子里，苹果公司对外展示了其iPhone AI应用的首次预览版本，并同步发表了相关研究论文，而这篇论文十分明确地

发表于 07-30 16:06 •716次阅读

苹果揭示AI新动向:Apple Intelligence模型在谷歌云端芯片上预训练

苹果公司在最新的技术论文中披露了一项重要信息，其全新的人工智能系统Apple Intelligence所依赖的模型并非传统上大型科技公司首选的NVIDIA GPU，而是选择了在谷歌设计的云端芯片上进行预训练。这一决定不仅打破了行

发表于 07-30 15:00 •556次阅读

苹果Apple Intelligence功能受限:端侧AI发展的存储瓶颈凸显

Intelligence功能，因受到存储限制的影响，无法在其所有设备上全面使用，这一状况无疑揭示了苹果在端侧AI发展上的存储瓶颈。

发表于 06-14 14:15 •680次阅读

华为悬红200万全球求解难题存储技术和AI新型数据底座

华为悬红200万全球求解难题 存储技术和AI新型数据底座早在2019年，为加速科研成果产业化，突破关键技术难题；华为就已经开始每年发布奥林帕斯

发表于 05-27 18:10 •1039次阅读

微软发布Agent框架UFO，引领UI交互新纪元

微软近日宣布推出全新的Agent框架——UFO（UI-Focused Agent），旨在构建更智能、更直观的用户界面交互体验。该框架基于OpenAI的GPT-4V图像识别模型开发，专为Windows操作系统上的应用程序设计，能够迅速理解

发表于 02-19 11:15 •1223次阅读

苹果全新AI功能今年发布

苹果公司CEO蒂姆·库克近日在财报会议上宣布，苹果将在今年发布全新AI（人工智能）功能，这是继推出Siri语音助手之后的又一重要创新。

发表于 02-03 09:16 •1187次阅读

搜索历史

苹果发布研究论文：揭示Ferret-UI AI系统，破解MLLMs移动应用理解难题

评论