0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

苹果发布研究论文:揭示Ferret-UI AI系统,破解MLLMs移动应用理解难题

微云疏影 来源:综合整理 作者:综合整理 2024-04-10 10:17 次阅读

据悉,Apple近期发表了有关于Ferret-UI AI系统的研究论文,这款新型AI系统可理解应用程序屏幕上的内容。

目前围绕人工智能(AI)技术,出现了如ChatGPT这样的大语言模型(LLMs),这些模型擅长处理文本资料。然而,对于像图片、视频和声音等多媒体类型的非文本n内容,就需要扩大AI模型的适用范围,相应地,多模态大语言模型(MLLMs)也就应运而生。

尽管MLLMs已表现出对移动应用程序的理解不足,具体表现在以下几点:

首先,智能手机屏幕的宽高比和大多数训练视觉模型所使用的比例不同;其次,MLLMs需要识别出较小的图标和按钮。

针对以上问题,Apple提出了名为“Ferret-UI”的MLLM系统,以应对这些挑战。系统通过引入WMDR(任意分辨率),提升模型在处理用户界面任务时的辨识度,使其能更好地识别和理解小图标、文字等元素。

此外,我们专门采集了大量与初级用户界面任务相关的样本,包括图标识别、文本查找和小部件列表等。所有样本均按照区域注释指令进行设计,以便于精确解释和实用化。

为了提高模型的认知水平,我们进一步定制了高级任务数据集,含括详细描写、感官/互交互对话及功能推理等方面。

该项研究表明,与现行的GPT-4V以及其他MLLMs模型相比,Ferret-UI AI模型具有显著优势。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1787

    文章

    46142

    浏览量

    235558
  • 语言模型
    +关注

    关注

    0

    文章

    487

    浏览量

    10211
  • ChatGPT
    +关注

    关注

    28

    文章

    1519

    浏览量

    7036
收藏 人收藏

    评论

    相关推荐

    Canalys:iPhone 16系列奠定苹果AI发展硬件基石

    9月18日,权威市场研究机构Canalys发布了深度分析文章,强调苹果即将推出的iPhone 16系列不仅是技术创新的集大成者,更是推动Apple Intelligence(苹果
    的头像 发表于 09-18 16:14 480次阅读

    破解大面积场景清洁难题,普渡推出AI智能扫地机器人PUDU MT1

    破解大面积场景清洁难题,普渡推出AI智能扫地机器人PUDU MT1 9月10日,全球服务机器人领导者普渡机器人发布了全新AI智能扫地机器人,
    的头像 发表于 09-12 14:37 273次阅读

    苹果AI模型训练新动向:携手谷歌,未选英伟达

    近日,苹果公司发布的最新研究报告揭示了其在人工智能领域的又一重要战略选择——采用谷歌设计的芯片来训练其AI模型,而非行业巨头英伟达的产品。这
    的头像 发表于 08-01 18:11 834次阅读

    苹果承认使用谷歌芯片来训练AI

    苹果公司最近在一篇技术论文中披露,其先进的人工智能系统Apple Intelligence背后的两个关键AI模型,是在谷歌设计的云端芯片上完成预训练的。这一消息标志着在尖端
    的头像 发表于 07-30 17:03 608次阅读

    苹果转向谷歌芯片训练AI,或成弃用英伟达GPU首例

    在7月29日这个令全球瞩目的日子里,苹果公司对外展示了其iPhone AI应用的首次预览版本,并同步发表了相关研究论文,而这篇论文十分明确地
    的头像 发表于 07-30 16:06 589次阅读

    苹果揭示AI新动向:Apple Intelligence模型在谷歌云端芯片上预训练

    苹果公司在最新的技术论文中披露了一项重要信息,其全新的人工智能系统Apple Intelligence所依赖的模型并非传统上大型科技公司首选的NVIDIA GPU,而是选择了在谷歌设计的云端芯片上进行预训练。这一决定不仅打破了行
    的头像 发表于 07-30 15:00 406次阅读

    苹果Apple Intelligence功能受限:端侧AI发展的存储瓶颈凸显

    Intelligence功能,因受到存储限制的影响,无法在其所有设备上全面使用,这一状况无疑揭示苹果在端侧AI发展上的存储瓶颈。
    的头像 发表于 06-14 14:15 509次阅读

    Apple研究揭示耳鸣对生活质量的影响

    对此,密歇根大学公共卫生学院环境健康科学教授Rick Neitzel指出:“耳鸣会给个体生活带来巨大负担。”他进一步解释说,Apple听力研究揭示了耳鸣的普遍性及其对特定人群的影响
    的头像 发表于 05-29 15:26 267次阅读

    华为悬红200万全球求解难题 存储技术和AI新型数据底座

    华为悬红200万全球求解难题   存储技术和AI新型数据底座       早在2019年,为加速科研成果产业化,突破关键技术难题;华为就已经开始每年发布奥林帕斯
    的头像 发表于 05-27 18:10 908次阅读

    苹果发布首款搭载AI芯片的iPad

    苹果公司正式发布了全新系列的iPad Pro和尺寸升级的iPad Air,这两款设备均深度集成了人工智能(AI)技术,意图重振近年来稍显疲软的平板电脑市场。新款iPad Pro的一大亮点是其13英寸的屏幕,而其厚度仅为惊人的5.
    的头像 发表于 05-09 09:39 387次阅读

    微软发布Agent框架UFO,引领UI交互新纪元

    微软近日宣布推出全新的Agent框架——UFO(UI-Focused Agent),旨在构建更智能、更直观的用户界面交互体验。该框架基于OpenAI的GPT-4V图像识别模型开发,专为Windows操作系统上的应用程序设计,能够迅速理解
    的头像 发表于 02-19 11:15 975次阅读

    苹果全新AI功能今年发布

    苹果公司CEO蒂姆·库克近日在财报会议上宣布,苹果将在今年发布全新AI(人工智能)功能,这是继推出Siri语音助手之后的又一重要创新。
    的头像 发表于 02-03 09:16 971次阅读

    苹果寻求利用新闻机构素材开发AI系统

    继谷歌的ChatGPT引领潮流之后,苹果也开始把注意力转向生成式人工智能的应用,并计划在终端设备上实现普及。近期,苹果发布了两篇关于其在人工智能领域研究成果的
    的头像 发表于 12-25 10:43 486次阅读

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    市举办。 在NeurIPS 2023上,英特尔研究院将展示其最新AI研究成果,并和产业界、学术界分享英特尔“让AI无处不在”的愿景。大会期间,英特尔
    的头像 发表于 12-08 19:15 486次阅读

    华为TD-LTE智能有源天线有效破解天面受限难题

    电子发烧友网站提供《华为TD-LTE智能有源天线有效破解天面受限难题.pdf》资料免费下载
    发表于 11-10 14:06 0次下载
    华为TD-LTE智能有源天线有效<b class='flag-5'>破解</b>天面受限<b class='flag-5'>难题</b>