文章:https://lnkd.in/gcwEeKE3
Python 代码:https://lnkd.in/ggEK6KwU
尽管指令调整的大型语言模型 (LLM) 在各种 NLP 任务中表现出卓越的能力,但它们在文本以外的其他数据模式上的有效性尚未得到充分研究。在这项工作中,我们提出了 Macaw-LLM,一种新颖的多模式 LLM,它无缝集成了视觉、音频和文本信息。
Macaw-LLM 由三个主要组件组成:用于编码多模态数据的模态模块、用于利用预训练 LLM 的认知模块以及用于协调不同表示的对齐模块。
我们新颖的对齐模块将多模态特征无缝地连接到文本特征,简化了从模态模块到认知模块的适应过程。
此外,我们在多轮对话方面构建了一个大规模的多模态指令数据集,包括 69K 图像实例和 50K 视频实例。我们已经公开了我们的数据、代码和模型,我们希望这可以为多模态 LLM 的未来研究铺平道路,并扩展 LLM 处理不同数据模态和解决复杂现实场景的能力。
-
模块
+关注
关注
7文章
2740浏览量
47828 -
语言建模
+关注
关注
0文章
5浏览量
6281 -
语言模型
+关注
关注
0文章
545浏览量
10356 -
LLM
+关注
关注
0文章
302浏览量
441
原文标题:Macaw-LLM:具有图像、音频、视频和文本集成的多模态语言建模
文章出处:【微信号:计算机视觉芯片设计,微信公众号:计算机视觉芯片设计】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
自然语言处理的图像文本建模相关研究及分析
![自然<b class='flag-5'>语言</b>处理的<b class='flag-5'>图像</b><b class='flag-5'>文本</b><b class='flag-5'>建模</b>相关研究及分析](https://file.elecfans.com/web1/M00/E6/FA/pIYBAGBas-2AGdIfAAHcm5vfAzM392.png)
简述文本与图像领域的多模态学习有关问题
复旦&微软提出OmniVL:首个统一图像、视频、文本的基础预训练模型
微软多模态ChatGPT的常见测试介绍
如何利用LLM做多模态任务?
![如何利用<b class='flag-5'>LLM</b>做<b class='flag-5'>多</b><b class='flag-5'>模态</b>任务?](https://file1.elecfans.com//web2/M00/82/AE/wKgaomRcsLeAMUXyAAKjrEpzUHA770.jpg)
邱锡鹏团队提出SpeechGPT:具有内生跨模态能力的大语言模型
![邱锡鹏团队提出SpeechGPT:<b class='flag-5'>具有</b>内生跨<b class='flag-5'>模态</b>能力的大<b class='flag-5'>语言</b>模型](https://file1.elecfans.com/web2/M00/88/80/wKgZomRq0kWAPEZdAABI6qlXBW4307.png)
VisCPM:迈向多语言多模态大模型时代
![VisCPM:迈向多<b class='flag-5'>语言</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型时代](https://file1.elecfans.com/web2/M00/90/58/wKgZomTYhLiAOB2yAAAF_DGy7s8873.png)
评论