理解指向，说出坐标，Shikra开启多模态大模型参考对话新维度-电子发烧友网

在人类的日常交流中，经常会关注场景中不同的区域或物体，人们可以通过说话并指向这些区域来进行高效的信息交换。这种交互模式被称为参考对话（Referential Dialogue）。

如果 MLLM 擅长这项技能，它将带来许多令人兴奋的应用。例如，将其应用到 Apple Vision Pro 等混合现实 (XR) 眼镜中，用户可以使用视线注视指示任何内容与 AI 对话。同时 AI 也可以通过高亮等形式来指向某些区域，实现与用户的高效交流。

本文提出的Shikra 模型，就赋予了 MLLM 这样的参考对话能力，既可以理解位置输入，也可以产生位置输出。

论文地址：http://arxiv.org/abs/2306.15195
代码地址：https://github.com/shikras/shikra

核心亮点

Shikra 能够理解用户输入的 point/bounding box，并支持 point/bounding box 的输出，可以和人类无缝地进行参考对话。

Shikra 设计简单直接，采用非拼接式设计，不需要额外的位置编码器、前 / 后目标检测器或外部插件模块，甚至不需要额外的词汇表。

如上图所示，Shikra 能够精确理解用户输入的定位区域，并能在输出中引用与输入时不同的区域进行交流，像人类一样通过对话和定位进行高效交流。

如上图所示，Shikra 不仅具备 LLM 所有的基本常识，还能够基于位置信息做出推理。

如上图所示，Shikra 可以对图片中正在发生的事情产生详细的描述，并为参考的物体生成准确的定位。

尽管Shikra没有在 OCR 数据集上专门训练，但也具有基本的 OCR 能力。

更多例子

其他传统任务

方法

模型架构采用 CLIP ViT-L/14 作为视觉主干，Vicuna-7/13B 作为基语言模型，使用一层线性映射连接 CLIP 和 Vicuna 的特征空间。

Shikra 直接使用自然语言中的数字来表示物体位置，使用 [xmin, ymin, xmax, ymax] 表示边界框，使用 [xcenter, ycenter] 表示区域中心点，区域的 xy 坐标根据图像大小进行归一化。每个数字默认保留 3 位小数。这些坐标可以出现在模型的输入和输出序列中的任何位置。记录坐标的方括号也自然地出现在句子中。

实验结果

Shikra 在传统 REC、VQA、Caption 任务上都能取得优良表现。同时在 PointQA-Twice、Point-V7W 等需要理解位置输入的 VQA 任务上取得了 SOTA 结果。

本文使用 POPE benchmark 评估了 Shikra 产生幻觉的程度。Shikra 得到了和 InstrcutBLIP 相当的结果，并远超近期其他 MLLM。

思想链（CoT），旨在通过在最终答案前添加推理过程以帮助 LLM 回答复杂的 QA 问题。这一技术已被广泛应用到自然语言处理的各种任务中。然而如何在多模态场景下应用 CoT 则尚待研究。尤其因为目前的 MLLM 还存在严重的幻视问题，CoT 经常会产生幻觉，影响最终答案的正确性。通过在合成数据集 CLEVR 上的实验，研究发现，使用带有位置信息的 CoT 时，可以有效减少模型幻觉提高模型性能。

结论

本文介绍了一种名为 Shikra 的简单且统一的模型，以自然语言的方式理解并输出空间坐标，为 MLLM 增加了类似于人类的参考对话能力，且无需引入额外的词汇表、位置编码器或外部插件。

THE END

原文标题：理解指向，说出坐标，Shikra开启多模态大模型参考对话新维度

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

物联网

物联网

+关注

关注
2910

文章
44781

浏览量
374873

原文标题：理解指向，说出坐标，Shikra开启多模态大模型参考对话新维度

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •263次阅读

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多

发表于 12-03 15:18 •159次阅读

一文<b class='flag-5'>理解</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>——下

一文理解多模态大语言模型——上

/understanding-multimodal-llms 在过去几个月中， OpenVINO™ 架构师 Yury阅读了众多有关多模态大语言模型的论文和博客，在此基础上，推荐了一篇解读多

发表于 12-02 18:29 •384次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •492次阅读

Meta发布多模态LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一项重要技术突破，成功推出了多模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息，还实现了对图像内容的精准

发表于 09-27 11:44 •419次阅读

云知声推出山海多模态大模型

在人工智能技术的浩瀚星海中，多模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后，云知声以创新之姿，推出了其匠心独运的山海多模态大

发表于 08-27 15:20 •406次阅读

依图多模态大模型伙伴CTO精研班圆满举办

大模型在不同行业领域的应用前景;7月19日， “依图科技多模态大模型伙伴CTO精研班”在杭州圆满举办，让更多的伙伴们深度体验了依图多

发表于 07-23 15:16 •431次阅读

商汤流式多模态交互大模型日日新5.5发布

「日日新」大模型迎来“灯塔时刻”，它能见你所见，理解你所需，说出你心声，与你智慧共振。

发表于 07-08 15:10 •609次阅读

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

丰富外设配件配套多模态应用示例，支持快速上手体验大模型语音交互、智能视觉等 AI 应用板载 DAPLINK 调试器，外接一条USB 线即可实现烧录、调试、串口日志查看板载网络模组，支持开发联网类

发表于 06-18 17:33

李未可科技正式推出WAKE-AI多模态AI大模型

文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互，同时多

发表于 04-18 17:01 •626次阅读

AI机器人迎来多模态模型

配备 GR00T 模型的机器人由于需要“吸收消化”外界的多模态信息，还要快速完成理解、决策、行动等一系列动作，因此对于算力的需求是巨量的。

发表于 04-12 10:39 •292次阅读

苹果发布300亿参数MM1多模态大模型

近日，科技巨头苹果公司在一篇由多位专家共同撰写的论文中，正式公布了其最新的多模态大模型研究成果——MM1。这款具有高达300亿参数的多模态

发表于 03-19 11:19 •924次阅读

蚂蚁集团推出20亿参数多模态遥感基础模型SkySense

近日，蚂蚁集团联合武汉大学宣布成功研发出20亿参数多模态遥感基础模型SkySense。这一创新模型由蚂蚁集团的AI创新研发部门NextEvo与武汉大学共同完成，是迄今为止国际上参数规模

发表于 03-04 11:22 •844次阅读

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据

发表于 01-19 16:11 •715次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •428次阅读

搜索历史

理解指向，说出坐标，Shikra开启多模态大模型参考对话新维度

评论

商汤日日新多模态大模型权威评测第一

一文理解多模态大语言模型——下

一文理解多模态大语言模型——上

利用OpenVINO部署Qwen2多模态模型

Meta发布多模态LLAMA 3.2人工智能模型

云知声推出山海多模态大模型

依图多模态大模型伙伴CTO精研班圆满举办

商汤流式多模态交互大模型日日新5.5发布

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

李未可科技正式推出WAKE-AI多模态AI大模型

AI机器人迎来多模态模型

苹果发布300亿参数MM1多模态大模型

蚂蚁集团推出20亿参数多模态遥感基础模型SkySense

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

机器人基于开源的多模态语言视觉大模型