文章:https://lnkd.in/gcwEeKE3
Python 代码:https://lnkd.in/ggEK6KwU
尽管指令调整的大型语言模型 (LLM) 在各种 NLP 任务中表现出卓越的能力,但它们在文本以外的其他数据模式上的有效性尚未得到充分研究。在这项工作中,我们提出了 Macaw-LLM,一种新颖的多模式 LLM,它无缝集成了视觉、音频和文本信息。
Macaw-LLM 由三个主要组件组成:用于编码多模态数据的模态模块、用于利用预训练 LLM 的认知模块以及用于协调不同表示的对齐模块。
我们新颖的对齐模块将多模态特征无缝地连接到文本特征,简化了从模态模块到认知模块的适应过程。
此外,我们在多轮对话方面构建了一个大规模的多模态指令数据集,包括 69K 图像实例和 50K 视频实例。我们已经公开了我们的数据、代码和模型,我们希望这可以为多模态 LLM 的未来研究铺平道路,并扩展 LLM 处理不同数据模态和解决复杂现实场景的能力。
-
模块
+关注
关注
7文章
2695浏览量
47431 -
语言建模
+关注
关注
0文章
5浏览量
6264 -
语言模型
+关注
关注
0文章
520浏览量
10268 -
LLM
+关注
关注
0文章
286浏览量
327
原文标题:Macaw-LLM:具有图像、音频、视频和文本集成的多模态语言建模
文章出处:【微信号:计算机视觉芯片设计,微信公众号:计算机视觉芯片设计】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论