据悉,Apple近期发表了有关于Ferret-UI AI系统的研究论文,这款新型AI系统可理解应用程序屏幕上的内容。
目前围绕人工智能(AI)技术,出现了如ChatGPT这样的大语言模型(LLMs),这些模型擅长处理文本资料。然而,对于像图片、视频和声音等多媒体类型的非文本n内容,就需要扩大AI模型的适用范围,相应地,多模态大语言模型(MLLMs)也就应运而生。
尽管MLLMs已表现出对移动应用程序的理解不足,具体表现在以下几点:
首先,智能手机屏幕的宽高比和大多数训练视觉模型所使用的比例不同;其次,MLLMs需要识别出较小的图标和按钮。
针对以上问题,Apple提出了名为“Ferret-UI”的MLLM系统,以应对这些挑战。系统通过引入WMDR(任意分辨率),提升模型在处理用户界面任务时的辨识度,使其能更好地识别和理解小图标、文字等元素。
此外,我们专门采集了大量与初级用户界面任务相关的样本,包括图标识别、文本查找和小部件列表等。所有样本均按照区域注释指令进行设计,以便于精确解释和实用化。
为了提高模型的认知水平,我们进一步定制了高级任务数据集,含括详细描写、感官/互交互对话及功能推理等方面。
该项研究表明,与现行的GPT-4V以及其他MLLMs模型相比,Ferret-UI AI模型具有显著优势。
审核编辑 黄宇
-
人工智能
+关注
关注
1792文章
47409浏览量
238919 -
语言模型
+关注
关注
0文章
529浏览量
10292 -
ChatGPT
+关注
关注
29文章
1564浏览量
7805
发布评论请先 登录
相关推荐
评论