MiniGPT-4，开源了！-电子发烧友网

大家好，我是程序羊。

上个月GPT-4发布时，我曾写过一篇文章分享过有关GPT-4的几个关键信息。

当时的分享就提到了GPT-4的一个重要特性，那就是多模态能力。

比如发布会上演示的，输入一幅图（手套掉下去会怎么样？）。

GPT-4可以理解并输出给到：它会掉到木板上，并且球会被弹飞。

再比如给GPT-4一张长相奇怪的充电器图片，问为什么这很可笑？

GPT-4回答道，VGA 线充 iPhone。

用户甚至还可以直接画一个网站草图拍照丢给GPT-4，它就可以立马帮助生成代码。

但是时间过去了这么久，GPT-4像这样的识图功能也迟迟没有开放。

就在大家都在等待这个功能开放的时候，一个名为MiniGPT-4的开源项目悄悄做了这件事情。

没错，就是为了增强视觉语言理解。

MiniGPT-4背后团队来自KAUST（沙特阿卜杜拉国王科技大学），项目是几位博士开发的。

项目除了是开源的之外，而且还提供了网页版的demo，用户可以直接进去体验。

在线体验：https://minigpt-4.github.io

GitHub仓库：https://github.com/Vision-CAIR/MiniGPT-4

论文：https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

MiniGPT-4也是基于一些开源大模型来训练得到的。团队把图像编码器与开源语言模型Vicuna（小羊驼）整合起来，并且冻结了两者的大部分参数，只需要训练很少一部分。

训练分为两个阶段。

传统预训练阶段，在4张A100上使用500万图文对，10个小时内就可以完成，此时训练出来的Vicuna已能够理解图像，但生成能力有限。

然后在第二个调优阶段再用一些小的高质量数据集进行训练。这时候的计算效率很高，单卡A100只需要7分钟。

并且团队正在准备一个更轻量级的版本，部署起来只需要23GB显存，这也就意味着未来可以在一些消费级的显卡中或许就可以进行本地训练了。

这里也给大家看几个例子。

比如丢一张食物的照片进去来获得菜谱。

或者给出一张商品的照片来让其帮忙写一篇文案。

当然也可以像之前GPT-4发布会上演示的那样，画出一个网页，让其帮忙生成代码。

可以说，GPT-4发布会上演示过的功能，MiniGPT-4基本也都有。

这一点可以说非常amazing了！

可能由于目前使用的人比较多，在MiniGPT-4网页demo上试用时会遇到排队的情况，需要在队列中等待。

但是用户也可以自行本地部署服务，过程并不复杂。

首先是下载项目&准备环境：

gitclonehttps://github.com/Vision-CAIR/MiniGPT-4.git cdMiniGPT-4 condaenvcreate-fenvironment.yml condaac tivateminigpt4

然后下载预训练模型：

最后在本地启动Demo：

pythondemo.py--cfg-patheval_configs/minigpt4_eval.yaml

通过这个项目我们也再一次看出大模型在视觉领域的可行性，未来在图像、音频、视频等方面的应用前景应该也是非常不错的，我们可以期待一下。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开源

开源

+关注

关注
3

文章
3355

浏览量
42511
模型

模型

+关注

关注
1

文章
3247

浏览量
48855
GPT

GPT

+关注

关注
0

文章
354

浏览量
15397

原文标题：MiniGPT-4，开源了！

文章出处：【微信号：CodeSheep，微信公众号：CodeSheep】欢迎添加关注！文章转载请注明出处。

开源硬件板块正式开版了，回帖有奖！！！

@ 开源杂志《openbook》入驻论坛！期待更多的创客们加入我们！回帖奖励2积分，“美人”限一次！{:4_103:}

发表于 10-07 21:52

【开源】4G远程GPS定位器

概述： SB-FL01 是一款基于《ShineBlink 低代码核心模组》开发的《4G远程GPS定位器》设备，可实现GPS定位信息获取、UTC时间获取功能。该设备的配置方式极其简单，用户无需在

发表于 05-30 11:54

【开源】智慧气象盒子（4G_GPS）

了大量的教程以供学习。（2）关于样机的制作（帮忙）请联系本开源设计的作者（3）需要特殊定制其他功能或者批量请联系本开源设计的作者关于作者： gitee 站内私信（推荐）如果喜欢本项

发表于 06-05 09:36

iOS版饿了么使用的开源项目

前不久，猿妹才发现支付宝使用了三十多款开源软件，今天打开饿了么发现，饿了么也使用了33款开源软件。

发表于 05-31 14:24 •8767次阅读

4路交通灯开源项目

电子发烧友网站提供《4路交通灯开源项目.zip》资料免费下载

发表于 07-07 14:37 •2次下载

<b class='flag-5'>4</b>路交通灯<b class='flag-5'>开源</b>项目

4位加法器开源分享

电子发烧友网站提供《4位加法器开源分享.zip》资料免费下载

发表于 07-08 09:33 •3次下载

<b class='flag-5'>4</b>位加法器<b class='flag-5'>开源</b>分享

iv-4数码时钟开源项目

电子发烧友网站提供《iv-4数码时钟开源项目.zip》资料免费下载

发表于 07-11 15:46 •0次下载

iv-<b class='flag-5'>4</b>数码时钟<b class='flag-5'>开源</b>项目

名片大小4位时钟开源项目

电子发烧友网站提供《名片大小4位时钟开源项目.zip》资料免费下载

发表于 07-12 11:03 •0次下载

名片大小<b class='flag-5'>4</b>位时钟<b class='flag-5'>开源</b>项目

树莓派4RGB帽子开源

电子发烧友网站提供《树莓派4RGB帽子开源.zip》资料免费下载

发表于 07-25 14:34 •0次下载

树莓派<b class='flag-5'>4</b>RGB帽子<b class='flag-5'>开源</b>

模拟开关模块4通道开源

电子发烧友网站提供《模拟开关模块4通道开源.zip》资料免费下载

发表于 07-26 09:50 •2次下载

模拟开关模块<b class='flag-5'>4</b>通道<b class='flag-5'>开源</b>

4ChannelLedStrip控制与Nodemcu开源分享

电子发烧友网站提供《4ChannelLedStrip控制与Nodemcu开源分享.zip》资料免费下载

发表于 08-18 10:02 •3次下载

<b class='flag-5'>4</b>ChannelLedStrip控制与Nodemcu<b class='flag-5'>开源</b>分享

ProDOS ROM Drive v4开源

电子发烧友网站提供《ProDOS ROM Drive v4开源.zip》资料免费下载

发表于 08-22 16:19 •2次下载

ProDOS ROM Drive v<b class='flag-5'>4</b><b class='flag-5'>开源</b>

4乘4键盘开源分享

电子发烧友网站提供《4乘4键盘开源分享.zip》资料免费下载

发表于 10-19 14:55 •0次下载

<b class='flag-5'>4</b>乘<b class='flag-5'>4</b>键盘<b class='flag-5'>开源</b>分享

4位RTC时钟开源分享

电子发烧友网站提供《4位RTC时钟开源分享.zip》资料免费下载

发表于 10-31 10:33 •0次下载

<b class='flag-5'>4</b>位RTC时钟<b class='flag-5'>开源</b>分享

4芯18650充电模块开源分享

电子发烧友网站提供《4芯18650充电模块开源分享.zip》资料免费下载

发表于 06-09 09:17 •0次下载

搜索历史

MiniGPT-4，开源了！

评论