0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

苹果发布研究论文:揭示Ferret-UI AI系统,破解MLLMs移动应用理解难题

微云疏影 来源:综合整理 作者:综合整理 2024-04-10 10:17 次阅读

据悉,Apple近期发表了有关于Ferret-UI AI系统的研究论文,这款新型AI系统可理解应用程序屏幕上的内容。

目前围绕人工智能(AI)技术,出现了如ChatGPT这样的大语言模型(LLMs),这些模型擅长处理文本资料。然而,对于像图片、视频和声音等多媒体类型的非文本n内容,就需要扩大AI模型的适用范围,相应地,多模态大语言模型(MLLMs)也就应运而生。

尽管MLLMs已表现出对移动应用程序的理解不足,具体表现在以下几点:

首先,智能手机屏幕的宽高比和大多数训练视觉模型所使用的比例不同;其次,MLLMs需要识别出较小的图标和按钮。

针对以上问题,Apple提出了名为“Ferret-UI”的MLLM系统,以应对这些挑战。系统通过引入WMDR(任意分辨率),提升模型在处理用户界面任务时的辨识度,使其能更好地识别和理解小图标、文字等元素。

此外,我们专门采集了大量与初级用户界面任务相关的样本,包括图标识别、文本查找和小部件列表等。所有样本均按照区域注释指令进行设计,以便于精确解释和实用化。

为了提高模型的认知水平,我们进一步定制了高级任务数据集,含括详细描写、感官/互交互对话及功能推理等方面。

该项研究表明,与现行的GPT-4V以及其他MLLMs模型相比,Ferret-UI AI模型具有显著优势。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1792

    文章

    47409

    浏览量

    238919
  • 语言模型
    +关注

    关注

    0

    文章

    529

    浏览量

    10292
  • ChatGPT
    +关注

    关注

    29

    文章

    1564

    浏览量

    7805
收藏 人收藏

    评论

    相关推荐

    华为悬赏300万元求解难题 牵引全球数据存储领域基础理论研究方向

    华为奥林帕斯奖奖金池高达3百万,设置有2个奥林帕斯奖,奖金各100万元;5个奥林帕斯先锋奖,奖金各20万元。 难题1:每bit极致性价比的存储技术 AI应用的普及,引发存储数据量激增且长期留存,冷数据呈现向温数据转变的趋势,研究
    的头像 发表于 12-30 17:50 349次阅读

    电线EMC电磁兼容性测试整改:破解电磁干扰的难题

    深圳南柯电子|电线EMC电磁兼容性测试整改:破解电磁干扰的难题
    的头像 发表于 12-11 11:19 207次阅读
    电线EMC电磁兼容性测试整改:<b class='flag-5'>破解</b>电磁干扰的<b class='flag-5'>难题</b>

    利用VLM和MLLMs实现SLAM语义增强

    语义同步定位与建图(SLAM)系统在对邻近的语义相似物体进行建图时面临困境,特别是在复杂的室内环境中。本文提出了一种面向对象SLAM的语义增强(SEO-SLAM)的新型SLAM系统,借助视觉语言模型
    的头像 发表于 12-05 10:00 208次阅读
    利用VLM和<b class='flag-5'>MLLMs</b>实现SLAM语义增强

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    了传统学科界限,使得科学家们能够从更加全面和深入的角度理解生命的奥秘。同时,AI技术的引入也催生了一种全新的科学研究范式,即数据驱动的研究范式,这种范式强调从大量数据中提取有价值的信息
    发表于 10-14 09:21

    AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    ,推动科学研究的深入发展。 总结 通过阅读《AI for Science:人工智能驱动科学创新》第二章,我对AI for Science的技术支撑有了更加全面和深入的理解。我深刻认识到
    发表于 10-14 09:16

    苹果调整策略:逐步摒弃年更产品发布模式

    10月8日讯,彭博社知名记者马克·古尔曼在《Power On》通讯中揭示苹果公司正逐步转变其传统的“年度更新”发布模式,迈向更为灵活的产品发布策略。
    的头像 发表于 10-08 16:46 809次阅读

    破解大面积场景清洁难题,普渡推出AI智能扫地机器人PUDU MT1

    破解大面积场景清洁难题,普渡推出AI智能扫地机器人PUDU MT1 9月10日,全球服务机器人领导者普渡机器人发布了全新AI智能扫地机器人,
    的头像 发表于 09-12 14:37 474次阅读

    苹果AI模型训练新动向:携手谷歌,未选英伟达

    近日,苹果公司发布的最新研究报告揭示了其在人工智能领域的又一重要战略选择——采用谷歌设计的芯片来训练其AI模型,而非行业巨头英伟达的产品。这
    的头像 发表于 08-01 18:11 933次阅读

    苹果承认使用谷歌芯片来训练AI

    苹果公司最近在一篇技术论文中披露,其先进的人工智能系统Apple Intelligence背后的两个关键AI模型,是在谷歌设计的云端芯片上完成预训练的。这一消息标志着在尖端
    的头像 发表于 07-30 17:03 743次阅读

    苹果转向谷歌芯片训练AI,或成弃用英伟达GPU首例

    在7月29日这个令全球瞩目的日子里,苹果公司对外展示了其iPhone AI应用的首次预览版本,并同步发表了相关研究论文,而这篇论文十分明确地
    的头像 发表于 07-30 16:06 716次阅读

    苹果揭示AI新动向:Apple Intelligence模型在谷歌云端芯片上预训练

    苹果公司在最新的技术论文中披露了一项重要信息,其全新的人工智能系统Apple Intelligence所依赖的模型并非传统上大型科技公司首选的NVIDIA GPU,而是选择了在谷歌设计的云端芯片上进行预训练。这一决定不仅打破了行
    的头像 发表于 07-30 15:00 556次阅读

    苹果Apple Intelligence功能受限:端侧AI发展的存储瓶颈凸显

    Intelligence功能,因受到存储限制的影响,无法在其所有设备上全面使用,这一状况无疑揭示苹果在端侧AI发展上的存储瓶颈。
    的头像 发表于 06-14 14:15 680次阅读

    华为悬红200万全球求解难题 存储技术和AI新型数据底座

    华为悬红200万全球求解难题   存储技术和AI新型数据底座       早在2019年,为加速科研成果产业化,突破关键技术难题;华为就已经开始每年发布奥林帕斯
    的头像 发表于 05-27 18:10 1039次阅读

    微软发布Agent框架UFO,引领UI交互新纪元

    微软近日宣布推出全新的Agent框架——UFO(UI-Focused Agent),旨在构建更智能、更直观的用户界面交互体验。该框架基于OpenAI的GPT-4V图像识别模型开发,专为Windows操作系统上的应用程序设计,能够迅速理解
    的头像 发表于 02-19 11:15 1223次阅读

    苹果全新AI功能今年发布

    苹果公司CEO蒂姆·库克近日在财报会议上宣布,苹果将在今年发布全新AI(人工智能)功能,这是继推出Siri语音助手之后的又一重要创新。
    的头像 发表于 02-03 09:16 1187次阅读