0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MiniGPT-4,开源了!

CodeSheep 来源:CodeSheep 2023-04-24 11:34 次阅读

大家好,我是程序羊。

上个月GPT-4发布时,我曾写过一篇文章分享过有关GPT-4的几个关键信息

当时的分享就提到了GPT-4的一个重要特性,那就是多模态能力。

比如发布会上演示的,输入一幅图(手套掉下去会怎么样?)。

007e6b54-df25-11ed-bfe3-dac502259ad0.gif

GPT-4可以理解并输出给到:它会掉到木板上,并且球会被弹飞。

再比如给GPT-4一张长相奇怪的充电器图片,问为什么这很可笑?

00994992-df25-11ed-bfe3-dac502259ad0.png

GPT-4回答道,VGA 线充 iPhone

用户甚至还可以直接画一个网站草图拍照丢给GPT-4,它就可以立马帮助生成代码。

00c3b556-df25-11ed-bfe3-dac502259ad0.gif

01369ab2-df25-11ed-bfe3-dac502259ad0.gif

但是时间过去了这么久,GPT-4像这样的识图功能也迟迟没有开放。

就在大家都在等待这个功能开放的时候,一个名为MiniGPT-4的开源项目悄悄做了这件事情。

01593b58-df25-11ed-bfe3-dac502259ad0.png

没错,就是为了增强视觉语言理解。

MiniGPT-4背后团队来自KAUST(沙特阿卜杜拉国王科技大学),项目是几位博士开发的。

01737b8a-df25-11ed-bfe3-dac502259ad0.png

项目除了是开源的之外,而且还提供了网页版的demo,用户可以直接进去体验。

0191295a-df25-11ed-bfe3-dac502259ad0.png

在线体验:https://minigpt-4.github.io

GitHub仓库:https://github.com/Vision-CAIR/MiniGPT-4

论文:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

MiniGPT-4也是基于一些开源大模型来训练得到的。 团队把图像编码器与开源语言模型Vicuna(小羊驼)整合起来,并且冻结了两者的大部分参数,只需要训练很少一部分。

训练分为两个阶段。

传统预训练阶段,在4张A100上使用500万图文对,10个小时内就可以完成,此时训练出来的Vicuna已能够理解图像,但生成能力有限。

然后在第二个调优阶段再用一些小的高质量数据集进行训练。这时候的计算效率很高,单卡A100只需要7分钟。

01ac601c-df25-11ed-bfe3-dac502259ad0.png

并且团队正在准备一个更轻量级的版本,部署起来只需要23GB显存,这也就意味着未来可以在一些消费级的显卡中或许就可以进行本地训练了。

这里也给大家看几个例子。

比如丢一张食物的照片进去来获得菜谱。

01c5f180-df25-11ed-bfe3-dac502259ad0.gif

或者给出一张商品的照片来让其帮忙写一篇文案。

024aa880-df25-11ed-bfe3-dac502259ad0.gif

当然也可以像之前GPT-4发布会上演示的那样,画出一个网页,让其帮忙生成代码。

028fe8aa-df25-11ed-bfe3-dac502259ad0.gif

可以说,GPT-4发布会上演示过的功能,MiniGPT-4基本也都有。

这一点可以说非常amazing了!

可能由于目前使用的人比较多,在MiniGPT-4网页demo上试用时会遇到排队的情况,需要在队列中等待。

02cb7104-df25-11ed-bfe3-dac502259ad0.png

但是用户也可以自行本地部署服务,过程并不复杂。

首先是下载项目&准备环境:

gitclonehttps://github.com/Vision-CAIR/MiniGPT-4.git cdMiniGPT-4 condaenvcreate-fenvironment.yml condaactivateminigpt4

然后下载预训练模型:

02dc6c02-df25-11ed-bfe3-dac502259ad0.png

最后在本地启动Demo:

pythondemo.py--cfg-patheval_configs/minigpt4_eval.yaml

通过这个项目我们也再一次看出大模型在视觉领域的可行性,未来在图像、音频视频等方面的应用前景应该也是非常不错的,我们可以期待一下。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3215

    浏览量

    42305
  • 模型
    +关注

    关注

    1

    文章

    3112

    浏览量

    48649
  • GPT
    GPT
    +关注

    关注

    0

    文章

    351

    浏览量

    15278

原文标题:MiniGPT-4,开源了!

文章出处:【微信号:CodeSheep,微信公众号:CodeSheep】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    开源硬件板块正式开版,回帖有奖!!!

    @ 开源杂志《openbook》入驻论坛!期待更多的创客们加入我们!回帖奖励2积分,“美人”限一次!{:4_103:}
    发表于 10-07 21:52

    开源4G远程GPS定位器

    概述: ​ SB-FL01 是一款基于《ShineBlink 低代码核心模组》开发的《4G远程GPS定位器》设备,可实现GPS定位信息获取、UTC时间获取功能。该设备的配置方式极其简单,用户无需在
    发表于 05-30 11:54

    开源】智慧气象盒子(4G_GPS)

    大量的教程以供学习。 (2)关于样机的制作(帮忙) 请联系本开源设计的作者 (3)需要特殊定制其他功能或者批量 请联系本开源设计的作者 关于作者: gitee 站内私信(推荐) 如果喜欢本项
    发表于 06-05 09:36

    iOS版饿么使用的开源项目

    前不久,猿妹才发现支付宝使用了三十多款开源软件,今天打开饿么发现,饿么也使用了33款开源软件。
    的头像 发表于 05-31 14:24 8665次阅读

    4路交通灯开源项目

    电子发烧友网站提供《4路交通灯开源项目.zip》资料免费下载
    发表于 07-07 14:37 2次下载
    <b class='flag-5'>4</b>路交通灯<b class='flag-5'>开源</b>项目

    4位加法器开源分享

    电子发烧友网站提供《4位加法器开源分享.zip》资料免费下载
    发表于 07-08 09:33 3次下载
    <b class='flag-5'>4</b>位加法器<b class='flag-5'>开源</b>分享

    iv-4数码时钟开源项目

    电子发烧友网站提供《iv-4数码时钟开源项目.zip》资料免费下载
    发表于 07-11 15:46 0次下载
    iv-<b class='flag-5'>4</b>数码时钟<b class='flag-5'>开源</b>项目

    名片大小4位时钟开源项目

    电子发烧友网站提供《名片大小4位时钟开源项目.zip》资料免费下载
    发表于 07-12 11:03 0次下载
    名片大小<b class='flag-5'>4</b>位时钟<b class='flag-5'>开源</b>项目

    树莓派4RGB帽子开源

    电子发烧友网站提供《树莓派4RGB帽子开源.zip》资料免费下载
    发表于 07-25 14:34 0次下载
    树莓派<b class='flag-5'>4</b>RGB帽子<b class='flag-5'>开源</b>

    模拟开关模块4通道开源

    电子发烧友网站提供《模拟开关模块4通道开源.zip》资料免费下载
    发表于 07-26 09:50 2次下载
    模拟开关模块<b class='flag-5'>4</b>通道<b class='flag-5'>开源</b>

    4ChannelLedStrip控制与Nodemcu开源分享

    电子发烧友网站提供《4ChannelLedStrip控制与Nodemcu开源分享.zip》资料免费下载
    发表于 08-18 10:02 3次下载
    <b class='flag-5'>4</b>ChannelLedStrip控制与Nodemcu<b class='flag-5'>开源</b>分享

    ProDOS ROM Drive v4开源

    电子发烧友网站提供《ProDOS ROM Drive v4开源.zip》资料免费下载
    发表于 08-22 16:19 2次下载
    ProDOS ROM Drive v<b class='flag-5'>4</b><b class='flag-5'>开源</b>

    44键盘开源分享

    电子发烧友网站提供《44键盘开源分享.zip》资料免费下载
    发表于 10-19 14:55 0次下载
    <b class='flag-5'>4</b>乘<b class='flag-5'>4</b>键盘<b class='flag-5'>开源</b>分享

    4位RTC时钟开源分享

    电子发烧友网站提供《4位RTC时钟开源分享.zip》资料免费下载
    发表于 10-31 10:33 0次下载
    <b class='flag-5'>4</b>位RTC时钟<b class='flag-5'>开源</b>分享

    4芯18650充电模块开源分享

    电子发烧友网站提供《4芯18650充电模块开源分享.zip》资料免费下载
    发表于 06-09 09:17 0次下载
    <b class='flag-5'>4</b>芯18650充电模块<b class='flag-5'>开源</b>分享