0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌全新推出开放式视觉语言模型PaliGemma

谷歌开发者 来源:谷歌开发者 2024-10-15 17:37 次阅读

作者 / 产品管理总监 Tris Warkentin;高级研究员翟晓华;产品经理 Ludovic Peran

在 Google,我们相信合作和开放研究能够推动创新。我们非常感谢社区对 Gemma 的支持,使其自发布短短几个月以来就获得了数百万的下载量。

这种热烈的反响非常鼓舞人心,开发者们打造了一系列多样的项目,例如用于印度语言的多语言变体 Navarasa,以及设备端侧动作模型 Octopus v2。开发者们展示了 Gemma 在打造极具影响力且易于使用的 AI 解决方案方面的巨大潜力。

这种探索和创造精神也促使我们开发了 CodeGemma (具有强大的代码补全和生成能力) 和 RecurrentGemma (在高效推理和研究领域极具潜力)。

Gemma 是先进的轻量级开放模型系列,采用了与创建 Gemini 模型相同的研究和技术。今天,我们非常高兴地推出强大的开放式视觉语言模型 (VLM) PaliGemma,进一步扩展 Gemma 系列。同时我们将介绍 Gemma 2 的相关信息,让您抢先了解即将推出的全新功能。此外,我们通过更新 Responsible Generative AI 工具包,为开发者提供用于评估模型安全性和过滤有害内容的全新和增强型工具,进一步落实在负责任 AI 方面的承诺。

PaliGemma: 全新推出的

开放式视觉语言模型

PaliGemma 是一个强大的开放式 VLM,其灵感源自 PaLI-3。PaliGemma 基于开放式组件 (包括 SigLIP 视觉模型和 Gemma 语言模型) 构建,可在广泛的视觉语言任务中实现卓越的微调性能。这包括为图片和短视频描述生成、视觉问答、理解图像中的文本、对象检测和对象分割。

我们将提供支持多种分辨率且经过预训练和微调检查点,以及专门针对多种任务进行微调的检查点,供您立即探索。

为了促进开放式探索和研究,PaliGemma 可通过多种平台和资源使用。欢迎您立即通过 Kaggle 和 Colab 笔记本等免费方式开始探索!在视觉语言研究领域寻求突破的学术研究人员还可以申请 Google Cloud 积分,更好地开展工作。

立即开始使用 PaliGemma。您可以在 GitHub、Hugging Face 模型、Kaggle、Vertex AI Model Garden 和 ai.nvidia.com (通过 TensoRT-LLM 加速) 中找到 PaliGemma,并可通过 JAX 和 Hugging Face Transformers 轻松集成该模型。Keras 集成方式即将推出,您还可以通过此 Hugging Face Space 与该模型交互。

Gemma 2 推出:

性能和效率再上新台阶

我们非常高兴地宣布,新一代 Gemma 模型 Gemma 2 即将发布。Gemma 2 将提供新的模型大小,以满足广泛的 AI 开发者用例的需求;此外,它还将采用全新架构来实现突破性的性能和效率,带来以下优势:

卓越性能: Gemma 2 具有 270 亿个参数,其性能可与 Llama 3 70B 相媲美,但大小却不到 Llama 3 70B 的一半。这种突破性的效率为开放模型领域树立了新的标杆。

更低部署成本: Gemma 2 采用高效设计,最低所需的计算资源不到同级别模型的一半。27B 模型经过专门优化,可在 NVIDIA 的 GPU 上运行,也可在 Vertex AI 中的单个 TPU 主机上高效运行,让更多的用户能够更方便、更经济高效地部署该模型。

多元化调优工具链: Gemma 2 提供多元化的平台和工具生态系统,让开发者可从中选用稳健的调优功能。从 Google Cloud 等云端解决方案到 Axolotl 等热门社区工具,丰富多样的选择让微调 Gemma 2 变得更加简单。此外,Gemma 2 与 Hugging Face、NVIDIA TensorRT-LLM 等众多合作伙伴实现了无缝整合,同时还集成了 Google JAX 和 Keras,让您可以优化性能,并在各种硬件配置中实现高效部署。

扩展 Responsible Generative AI 工具包

为了迎接该模型的发布,我们将开源发布 LLM Comparator 来扩展 Responsible Generative AI 工具包,以便开发者进行更稳健的模型评估。LLM Comparator 是一种新的交互式视觉工具,能够进行有效的并排评估,以评估模型响应的质量和安全性。您可以查看 LLM Comparator 的实际应用演示,了解 Gemma 1.1 和 Gemma 1.0 的对比情况。

我们希望 LLM Comparator 可以进一步推进该工具包的使命,助力开发者打造兼具创新性和安全性且负责任的 AI 应用。

我们将不断扩展 Gemma 开放模型系列,并一如既往地营造协作环境,让前沿 AI 技术与负责任的开发齐头并进。我们对您将利用这些新工具打造的应用充满期待,与您共赴 AI 美好未来!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1762

    浏览量

    57509
  • AI
    AI
    +关注

    关注

    87

    文章

    30763

    浏览量

    268917
  • 语言模型
    +关注

    关注

    0

    文章

    521

    浏览量

    10270

原文标题:全新推出 PaliGemma、Gemma 2 和升级扩展 Responsible AI 工具包

文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    日前,加州大学的研究人员携手英伟达,共同推出了一款创新的视觉语言模型——NaVILA。该模型在机器人导航领域展现出了独特的应用潜力,为智能机
    的头像 发表于 12-13 10:51 245次阅读

    谷歌推出效率与性能跃阶的全新开放模型标准

    AI 有可能解决人类面临的一些最紧迫的问题,但前提是每个人都拥有构建 AI 的工具。这就是我们在今年早些时候推出 Gemma 的原因,Gemma 是一系列轻量级开放模型系列,采用了与创建
    的头像 发表于 09-09 15:43 373次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>推出</b>效率与性能跃阶的<b class='flag-5'>全新开放</b><b class='flag-5'>模型</b>标准

    紫光同芯推出开放式架构安全芯片E450R

    2024紫光同芯合作伙伴大会在北京璀璨启幕,会上紫光同芯震撼发布了其最新技术结晶——全球首颗融合开放式硬件与软件架构的安全芯片E450R。这款芯片以其独特的双开放设计,即开放式硬件架构搭配开放
    的头像 发表于 08-28 16:28 611次阅读

    机器视觉运动控制一体机VPLC532E在汽车胶带缠绕的开放式CNC应用

    机器视觉运动控制一体机VPLC532E在汽车胶带缠绕的开放式CNC应用
    的头像 发表于 08-19 10:03 323次阅读
    机器<b class='flag-5'>视觉</b>运动控制一体机VPLC532E在汽车胶带缠绕的<b class='flag-5'>开放式</b>CNC应用

    NVIDIA与Google DeepMind合作推动大语言模型创新

    支持 NVIDIA NIM 推理微服务的谷歌最新开源模型 PaliGemma 首次亮相。
    的头像 发表于 05-16 09:44 445次阅读

    微软准备推出全新人工智能语言模型

    微软近期传出消息,正在秘密研发一款全新的人工智能语言模型,这款模型在规模上预计将具备与谷歌和OpenAI等业界巨头相抗衡的实力。据悉,这款新
    的头像 发表于 05-08 09:30 423次阅读

    【大语言模型:原理与工程实践】大语言模型的基础技术

    下游任务提供丰富的文本表示,如谷歌公司推出的BERT。(2) Decoder-Only 预训练语言模型:这类模型一般使用单向的 Decode
    发表于 05-05 12:17

    PLC以太网开放式通信概述

    以太网开放式通信概述:   1、以太网开放式通信,即就是通信协议是由用户自由定义的;   2、以太网开放式通信是基于TCP、UDP运输层的一种软件通信协议;   3、各个PLC可使
    发表于 04-16 12:06 1047次阅读
    PLC以太网<b class='flag-5'>开放式</b>通信概述

    小米新款开放式耳机引领舒适潮流

    IDC报告指出,用户对舒适度的追求推动了开放式耳机市场快速发展。今年,开放式耳机销量达652万台,同比增长130.2%。这对于真无线及颈戴耳机领域具有一定的分流影响,并折射出用户需求的转变和技术创新带来的发展空间。
    的头像 发表于 04-08 10:09 1200次阅读

    Bose推出全新Ultra开放式耳机,搭载第二代高通S5音频平台

    全球知名音频品牌Bose近日宣布推出全新音频可穿戴设备——Bose Ultra开放式耳机。这款耳机采用第二代高通®S5音频平台,并支持Snapdragon Sound骁龙畅听技术,旨在为用户带来无与伦比的高清音频体验、快速稳健
    的头像 发表于 03-11 10:30 1131次阅读

    魅族推出全新开放式AI终端魅族21 PRO

    近日,星纪魅族正式发布了备受瞩目的魅族21 PRO开放式AI终端。这款手机不仅标志着魅族在智能手机时代的圆满落幕,更是魅族迈向AI时代的重要里程碑。
    的头像 发表于 03-04 11:01 877次阅读

    谷歌模型软件有哪些功能

    谷歌模型软件通常指的是谷歌推出的一系列人工智能模型和软件工具,其中最具代表性的是Google Gemini。Google Gemini是
    的头像 发表于 03-01 16:20 652次阅读

    谷歌AI大模型Gemma全球开放使用

    谷歌公司近日宣布,其全新的AI大模型Gemma现已在全球范围内开放使用。这一重要举措不仅彰显了谷歌在AI领域的领先地位,还为其在全球范围内的
    的头像 发表于 02-28 18:12 1139次阅读

    谷歌宣布Gemma大模型全球开放使用

    谷歌公司近日宣布,其先进的AI大模型Gemma即日起在全球范围内开放使用。这一新模型谷歌DeepMind和其他团队合作开发,并与其最大的A
    的头像 发表于 02-23 10:41 770次阅读

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-
    的头像 发表于 02-04 13:49 1028次阅读