0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

商汤发布多模态多任务通用大模型“书生2.5”,迈向AGI通用人工智能

商汤科技SenseTime 来源:商汤科技SenseTime 2023-03-15 17:23 次阅读

其拥有 30亿参数 ,是目前全球开源模型中 ImageNet准确度最高、规模最大 ,同时也是物体检测标杆数据集COCO中唯一超过65.0 mAP的模型。

凭借在多模态多任务处理能力方面多项突破,“书生2.5”的图文跨模态开放任务处理能力可为 自动驾驶机器人等通用场景任务提供高效精准的感知和理解能力支持,向通用人工智能迈出坚实的一步。 “书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于2021年11月首次共同发布,并持续联合研发。

即日起,“书生2.5”多模态通用大模型 已在商汤参与的通用视觉开源平台OpenGVLab开源 。

迈向AGI通用人工智能

当今快速增长的各式应用需求下,传统计算机视觉已无法处理真实世界中数不胜数的特定任务。 我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

“书生2.5”实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。

在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。

例如, 在自动驾驶场景中,可以大幅提升场景感知理解能力 ,准确辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆决策规划提供有效信息输入。

利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务

利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务

除解决自动驾驶和居家机器人这类复杂问题的能力,“书生2.5”通用大模型 也可解决纷繁复杂的日常生活中的常见任务,满足各种需求 。

除全图级别的以图生文,“书生2.5”通用大模型同样 可根据物体边框更精细化定位任务需求 。

“书生2.5”同时具备AIGC“以文生图”的能力。 可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像。

例如,借助“书生2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤车道、马路上奔跑的狗等,生成写实的Corner Case训练数据,进而训练自动驾驶系统对Corner Case场景的感知能力上限。

“书生2.5”还 可根据文本快速检索出视觉内容 。

例如,可在相册中返回文本所指定的相关图像,或是在视频中检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。 此外还支持引入物体检测框,根据文本返回最相关的物体,实现开放世界视频或图像中物体检测及视觉定位。

高效能打通自然语言、图像等多模态任务处理

“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语音及多任务建模三大模型能力的有效融合,即 InternImage-G通用视觉大模型 、用于文本理解的 超大语言预训练模型(LLM) 和 用于多任务的 兼容解码建模大模型(Uni-Perceiver) 。

其中,InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式,从而为多功能视觉感知提供强大的表示。

超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。

Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间,将不同任务统一为相同的任务范式,从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。

此外,“书生2.5”还创新性地引入了任务级别的稀疏激活机制,使其具备高效率的多任务协作能力。

在视觉主流图像分类数据集ImageNet上,该模型仅基于公开数据便达到 90.1%的Top-1准确率 。 这是除谷歌与微软之外,唯一准确率超过90.0%的模型。 值得一提的是,谷歌与微软均未公开模型及额外数据集。

除高精确度的语义理解能力外,“书生2.5”在目标定位性能上同样有着出色的表现。 在物体检测标杆数据集COCO上,取得了65.4的mAP。 “书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等 20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩 。

“书生2.5”在20余个不同场景不同任务的单模态和跨模态公开数据集中都取得了最佳成绩

当前,“书生”还在持续学习、不断进步,致力于推动多模态多任务通用模型技术的突破,驱动通用人工智能技术的创新应用生态,为推动人工智能学术、产业发展做出贡献。

关于OpenGVLab

OpenGVLab致力于通用视觉模型的开源社区建设,开源项目覆盖数据、模型、评测基准全链路,为学术界和产业界的多模态通用模型研发提供坚实支撑。 在数据方面,OpenGVLab构建了千万级超大规模精标注数据集,涵盖了图像分类、目标检测等视觉核心任务的标注,同时包括各类图像中的属性、状态等的精细标注,显著降低了数据采集成本。 在模型方面,OpenGVLab的开源项目全方位覆盖了通用模型架构、高效训练框架及超高性能的预训练模型,助力社区用极低的数据量快速满足多场景、多任务、高性能的AI模型训练,并供所有对人工智能技术感兴趣的人士自由体验。 OpenGVLab还提供了多任务、多模态的通用视觉评测基准,可提供权威的评测结果,推动基于统一标准的公平和准确评测,加快通用视觉模型的产业化应用步伐。

通过开源社区建设,OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛,用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型,高效实现对长尾场景的覆盖,推动通用AI技术的规模化应用。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1781

    文章

    44964

    浏览量

    232385
  • 模型
    +关注

    关注

    1

    文章

    2823

    浏览量

    48054
  • Agi
    Agi
    +关注

    关注

    0

    文章

    66

    浏览量

    10143
  • 商汤
    +关注

    关注

    0

    文章

    51

    浏览量

    3889
  • 大模型
    +关注

    关注

    2

    文章

    1868

    浏览量

    1497

原文标题:商汤发布多模态多任务通用大模型“书生2.5”,迈向AGI通用人工智能

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    模型应用之路:从提示词到通用人工智能AGI

    模型人工智能领域的应用正迅速扩展,从最初的提示词(Prompt)工程到追求通用人工智能AGI)的宏伟目标,这一旅程充满了挑战与创新。本文将探索大
    的头像 发表于 06-14 10:20 1604次阅读
    大<b class='flag-5'>模型</b>应用之路:从提示词到<b class='flag-5'>通用人工智能</b>(<b class='flag-5'>AGI</b>)

    商汤科技联合海通证券发布模态全栈式大模型

    商汤科技近日隆重推出了其最新研发的“日日新SenseNova 5.0”大模型体系,并与海通证券携手,共同发布了业内首个专为金融行业量身打造的多模态全栈式大
    的头像 发表于 05-07 14:15 287次阅读

    人大系初创公司智子引擎发布全新多模态模型Awaker 1.0

    人大系初创公司智子引擎近日震撼发布了新一代多模态模型Awaker 1.0,这一里程碑式的成果标志着公司在通用人工智能AGI)领域取得了重
    的头像 发表于 05-06 09:59 348次阅读

    百川智能与北京大学将共建通用人工智能联合实验室

    近日,百川智能与北京大学携手合作,共同签署了“北大——百川通用人工智能联合实验室”的共建协议,标志着双方在人工智能领域迈出了坚实的合作步伐。
    的头像 发表于 03-21 11:45 533次阅读

    OpenAI研发文生视频模型Sora,AGI或仅需一两年实现?

    这标志着该机构已成功将尖端AI技术扩展到视频领域。该模型被誉为可理解及模拟真实世界的基石,也是实现在AGI通用人工智能) 方面重大突破的关键环节之一。
    的头像 发表于 02-18 14:07 503次阅读

    燧原科技发布“燎原”生态合作计划,共建通用人工智能产业化联盟

    12月20日,在全国一体化算力网络国家枢纽节点(甘肃)庆阳数据中心集群绿色普惠算力行动推进大会上, 燧原科技正式发布了“燎原”生态合作计划,携手产业上下游合作伙伴共建通用人工智能产业化联盟
    的头像 发表于 12-21 19:55 1259次阅读
    燧原科技<b class='flag-5'>发布</b>“燎原”生态合作计划,共建<b class='flag-5'>通用人工智能</b>产业化联盟

    GPT-4就是AGI!谷歌斯坦福科学家揭秘大模型如何超智能

    导读谷歌研究院和斯坦福HAI的两位专家发文称,现在最前沿的AI模型,未来将会被认为是第一代AGI。最前沿的LLM已经用强大的能力证明,AGI即将到来!通用人工智能
    的头像 发表于 10-14 08:28 356次阅读
    GPT-4就是<b class='flag-5'>AGI</b>!谷歌斯坦福科学家揭秘大<b class='flag-5'>模型</b>如何超<b class='flag-5'>智能</b>

    通用人工智能:初心与未来》-试读报告

    作者给出的结论。整体读下来,可以给我们关于通用人工智能全面的了解。作者也反复强调了通用人工智能与专用智能的区别。尤其是人们错误的认为一堆专用智能堆砌起来就是
    发表于 09-18 10:02

    2023通用人工智能算力论坛在京举办

    石景山智能算力中心启动建设 8月28日, 2023中国国际服务贸易交易会常态化活动的通用人工智能算力论坛在北京石景山成功举办。论坛以“智见·共创算力新时代”为主题,政府部门、院士专家学者及人工智能
    的头像 发表于 08-29 17:36 434次阅读
    2023<b class='flag-5'>通用人工智能</b>算力论坛在京举办

    大语言模型书生·浦语”多项专业评测拔头筹

    大语言模型评测8月排行榜 和 中文通用模型综合性评测基准SuperCLUE 7月评测榜 两项业内权威大模型评测榜单中获得优异成绩。 “ FlagEval是知名
    的头像 发表于 08-25 13:00 413次阅读
    大语言<b class='flag-5'>模型</b>“<b class='flag-5'>书生</b>·浦语”多项专业评测拔头筹

    GPT-4只是AGI的火花?LLM终将退场,世界模型才是未来

    导读人类距离AGI还有多远?也许大语言模型不是最终答案,一个理解世界的模型才是未来的方向。在人类的认知之中,似乎早已习惯将通用人工智能AGI
    的头像 发表于 08-18 08:30 428次阅读
    GPT-4只是<b class='flag-5'>AGI</b>的火花?LLM终将退场,世界<b class='flag-5'>模型</b>才是未来

    人工智能可能实现吗

    人工智能,也称为通用人工智能AGI),指的是能够在各种情况下自主学习、理解、分析和解决问题的人工智能。与现有的窄人工智能(ANI)相比,
    的头像 发表于 08-14 15:41 1137次阅读

    VisCPM:迈向多语言多模态模型时代

    随着 GPT-4 和 Stable Diffusion 等模型模态能力的突飞猛进,多模态模型已经成为大模型
    的头像 发表于 07-10 10:05 540次阅读
    VisCPM:<b class='flag-5'>迈向</b>多语言多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>时代

    科技部:人工智能法草案已列入国务院2023年立法工作计划

    当前,全球人工智能发展进入新一轮跃升期,超大规模预训练模型的重大突破实现了人工智能的一次技术飞跃,探索出通往通用人工智能的可能路径,并将继续向多模态
    的头像 发表于 07-07 16:53 467次阅读

    聆心智能上榜“北京市通用人工智能模型行业应用典型场景案例”

    交流平台,构建通用人工智能产业创新发展高地。 本次论坛发布了 21 项“大模型赋能行业应用场景案例”,其中聆心智能与洪恩基于大模型联合打造的
    的头像 发表于 07-05 09:54 497次阅读
    聆心<b class='flag-5'>智能</b>上榜“北京市<b class='flag-5'>通用人工智能</b>大<b class='flag-5'>模型</b>行业应用典型场景案例”