0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌开源70亿参数大语言模型,全方位超越Meta Llama-2?

E4Life 来源:电子发烧友 作者:周凯扬 2024-02-23 00:15 次阅读

电子发烧友网报道(文/周凯扬)在Sora把AI生成领域的视线全部吸引过去的这段时间里,谷歌却依然在竭尽全力推进新的生成模型发展。除了上周发布的下一代Gemini 1.5外,谷歌也在近日推出了一系列基于Gemini打造的开源模型Gemma。

谷歌加入AI模型开源阵营,Gemma横空出世

根据谷歌的介绍,Gemma是由谷歌DeepMind以及其他团队开发,由Gemini启发并采用了相同的研究与技术的轻量级模型。与之一起发布的还有全新的响应式生成AI工具包,为利用Gemma创造更安全的AI应用提供关键工具和指导。

参数大小上来看,Gemma分为20亿参数(Gemma 2B)和70亿(Gemma 7B)参数两个版本,且每个版本又有基础版(预训练)和指令调整版两个变体。其中70亿参数的版本适合消费级的GPU和TPU开发,而20亿参数的版本可以用于CPU和端侧应用上。

在预训练数据上,Gemma 2B和7B分别采用了2T和6T的Token进行训练,数据来源是以英文为主的网络文档、数学计算和代码。需要注意的是,尽管其背后所采用的技术与Gemini类似,但这些模型并不属于多模态模型,也并不适合用于追求极致的多语言任务性能。

在训练硬件上,谷歌采用了自研的TPUv5e,其中Gemma 7B用到了4096块TPUv5e进行训练,Gemma 2B用到了512块TPUv5e进行训练。

开源LLM混战,Gemma 7B超越Llama-2 13B?

根据谷歌官方提供的数据,与Meta的Llama-2相比,Gemma 7B在多个项目上展现出了优势,比如大规模多任务语言理解(MMLU)、GSM8K和Math计算和HumanEval Python代码生成等应用上,都超过了Llama-2 7B,甚至不少超过了Llama-2 13B。

wKgaomXXHwmAORLbAAExLTvutQk859.png
开源模型文本任务性能对比 / 谷歌


谷歌表示,与同等体量的开源模型对比,比如LLaMA-2和Mistral等,18项文字相关的任务中,Gemma能够做到在11项任务中性能胜出,且平均性能得分占优。

不过Gemma也并不是完全超越了Llama-2,从Huggingface给出的平均得分来看,Gemma 7B超过了同级别的Llama 2 7B,但还是低于LLama 2 70B Chat,不过考虑到这两者之间的参数差异,也印证了Gemma 7B的强大。至于Gemma 2B,与同规格的其他优秀开源LLM相比,比如PHI-2(2.7B),也不存在优势。

作为一个轻量级的模型,Gemma也对跨设备兼容性做了优化,可以在笔记本、PC、IoT设备、智能手机和云端运行。谷歌也与英伟达达成合作,Gemma针对英伟达的GPU硬件进行了优化,无论是云端的AI GPU还是桌面端的RTX AI PC,都能享受Gemma带来的性能。

写在最后

尽管Gemma是谷歌首个大型的开源LLM,但这早已经不是谷歌对开源AI社区做出的首个贡献了,诸如Transformers, TensorFlow, BERT, T5, JAX, AlphaFold和AlphaCode等,可以说当前AI能够有如此繁荣的开发生态,谷歌做出了不少贡献。无疑Gemma的出现,也会给AI开发生态带来新的选择。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6161

    浏览量

    105285
  • AI
    AI
    +关注

    关注

    87

    文章

    30698

    浏览量

    268851
  • 算力
    +关注

    关注

    1

    文章

    963

    浏览量

    14787
  • 大模型
    +关注

    关注

    2

    文章

    2417

    浏览量

    2630
收藏 人收藏

    评论

    相关推荐

    Meta重磅发布Llama 3.3 70B:开源AI模型的新里程碑

    ​在人工智能领域,Meta的最新动作再次引起了全球的关注。今天,我们见证了Meta发布的 Llama 3.3 70B 模型,这是一个
    的头像 发表于 12-18 16:46 50次阅读
    <b class='flag-5'>Meta</b>重磅发布<b class='flag-5'>Llama</b> 3.3 <b class='flag-5'>70</b>B:<b class='flag-5'>开源</b>AI<b class='flag-5'>模型</b>的新里程碑

    Meta发布Llama 3.2量化版模型

    近日,Meta开源Llama 3.2的1B与3B模型后,再次为人工智能领域带来了新进展。10月24日,Meta正式推出了这两个
    的头像 发表于 10-29 11:05 370次阅读

    亚马逊云科技上线Meta Llama 3.2模型

    亚马逊云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平台上正式上线。该模型包括Meta首款多模态
    的头像 发表于 10-11 18:08 443次阅读

    Meta发布全新开源模型Llama 3.1

    科技巨头Meta近期震撼发布了其最新的开源人工智能(AI)模型——Llama 3.1,这一举措标志着Meta在AI领域的又一重大突破。
    的头像 发表于 07-24 18:25 1427次阅读

    Meta即将发布超强开源AI模型Llama 3-405B

    在人工智能领域的激烈竞争中,Meta公司再次掷出重磅炸弹,宣布将于7月23日正式发布其最新力作——Llama 3-405B,一个拥有惊人4050亿参数
    的头像 发表于 07-18 09:58 980次阅读

    Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

    Llama3 是Meta最新发布的开源语言模型(LLM), 当前已开源8B和
    的头像 发表于 05-10 10:34 1040次阅读
    Optimum Intel三步完成<b class='flag-5'>Llama</b>3在算力魔方的本地量化和部署

    英特尔AI产品助力其运行Meta新一代大语言模型Meta Llama 3

    英特尔丰富的AI产品——面向数据中心的至强处理器,边缘处理器及AI PC等产品为开发者提供最新的优化,助力其运行Meta新一代大语言模型Meta L
    的头像 发表于 04-28 11:16 622次阅读

    高通支持Meta Llama 3大语言模型在骁龙旗舰平台上实现终端侧执行

    高通和Meta合作优化Meta Llama 3大语言模型,支持在未来的骁龙旗舰平台上实现终端侧执行。
    的头像 发表于 04-20 09:13 495次阅读

    Meta推出最强开源模型Llama 3 要挑战GPT

    公司这次开源Llama 3 8B与70B两款不同规模的模型,开发者可以免费使用,而Meta公司还将陆续推出一系列具备多模态、多
    的头像 发表于 04-19 17:00 830次阅读

    Meta推出新一代语言模型LLAMA 3,性能优于GPT-3.5

    Meta决定将Llama 3的80亿参数开源,以期让更多人能够接触到尖端的AI技术。全球范围内的开发者、研究员以及对AI充满好奇的人士均可
    的头像 发表于 04-19 10:21 854次阅读

    LLaMA 2是什么?LLaMA 2背后的研究工作

    Meta 发布的 LLaMA 2,是新的 sota 开源大型语言模型 (LLM)。
    的头像 发表于 02-21 16:00 1089次阅读

    Meta发布CodeLlama70B开源模型

    Meta发布CodeLlama70B开源模型 Meta发布了开源
    的头像 发表于 01-31 10:30 1408次阅读

    Meta发布开源模型Code Llama 70B

    近日,Meta宣布推出了一款新的开源模型Code Llama 70B,这是其“Code Llama
    的头像 发表于 01-31 09:24 916次阅读

    Meta推出最新版AI代码生成模型Code Llama70B

    Meta近日宣布了其最新版本的AI代码生成模型Code Llama70B,并称其为“目前最大、最优秀的模型”。这一更新标志着Meta在AI代
    的头像 发表于 01-30 18:21 1438次阅读

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    预训练语言模型。该模型最大的特点就是基于以较小的参数规模取得了优秀的性能,根据官网提供的信息,LLaMA
    发表于 12-22 10:18