Macaw-LLM：具有图像、音频、视频和文本集成的多模态语言建模-电子发烧友网

文章：https://lnkd.in/gcwEeKE3

Python 代码：https://lnkd.in/ggEK6KwU

尽管指令调整的大型语言模型（LLM）在各种 NLP 任务中表现出卓越的能力，但它们在文本以外的其他数据模式上的有效性尚未得到充分研究。在这项工作中，我们提出了 Macaw-LLM，一种新颖的多模式 LLM，它无缝集成了视觉、音频和文本信息。

Macaw-LLM 由三个主要组件组成：用于编码多模态数据的模态模块、用于利用预训练 LLM 的认知模块以及用于协调不同表示的对齐模块。

我们新颖的对齐模块将多模态特征无缝地连接到文本特征，简化了从模态模块到认知模块的适应过程。

此外，我们在多轮对话方面构建了一个大规模的多模态指令数据集，包括 69K 图像实例和 50K 视频实例。我们已经公开了我们的数据、代码和模型，我们希望这可以为多模态 LLM 的未来研究铺平道路，并扩展 LLM 处理不同数据模态和解决复杂现实场景的能力。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

原文标题：Macaw-LLM：具有图像、音频、视频和文本集成的多模态语言建模

文章出处：【微信号：计算机视觉芯片设计，微信公众号：计算机视觉芯片设计】欢迎添加关注！文章转载请注明出处。

Macaw-LLM：具有图像、音频、视频和文本集成的多模态语言建模