谷歌发布史上最强大模型Gemini，全方位领先GPT-4，MMLU基准达人类专家水平-电子发烧友网

电子发烧友网报道（文/吴子鹏）美国当地时间周三，谷歌发布了其新一代人工智能模型Gemini（双子星）。谷歌CEO桑达尔・皮查伊和Deepmind CEO戴密斯·哈萨比斯在谷歌官网联名发文，官宣了最新多模态大模型Gemini 1.0版本正式上线。

这次发布是按照谷歌此前的预期，但是对于业界而言非常突然。因为就在一周前还有报告指出，谷歌原本计划本周（当时称下周）发布Gemini，但现在已经推迟到2024年1月。报告给出的原因是，谷歌“发现人工智能不能可靠地处理一些非英语查询”，该公司认为全球语言支持是最重要的，这是谷歌追赶和超越OpenAI GPT-4的关键性能之一。

现在，谷歌还是如期将Gemini 1.0上线了。

史上最强的AI大模型

从定位来看，Gemini 1.0版本是桑达尔・皮查伊亲自督导，筹备一年多时间，并瞄准OpenAI GPT-4的大模型。很显然，Gemini 1.0版本的效果是远超预期的，成为目前已经上线发布的最强大的AI大模型，也是有史以来最强大的AI大模型。

据介绍，Gemini 1.0版本会有三个细分的版本：
·Gemini Ultra：谷歌最大、最强模型，适用于高度复杂的任务
·Gemini Pro：可扩展至各种任务的Gemini模型
·Gemini Nano：适用于端侧设备的高效Gemini版本（1.8B/3.25B）

Gemini 1.0版本是一个纯正的多模态AI大模型，为什么要这样说呢？因为Gemini是以多模态模型为目标重新构建的，在复杂操作以及处理不同类型信息方面，其效率和丝滑度是当前其他模型不可比拟的，这些信息包括文本、代码、音频、图像和视频。所以，Gemini也是迄今为止最灵活的大模型。

在基础设施方面，谷歌使用自研的Tensor处理单元（TPU）v4和v5e对Gemini 1.0进行训练。因此，在Gemini 1.0版本发布的同时，谷歌也宣布推出迄今为止最强大、最高效、最可扩展的TPU系统Cloud TPU v5p，专为训练尖端人工智能模型而设计。根据此前的爆料，Gemini 1.0版本训练需要的算力规模是GPT-4的5倍。

全新的设计和强大的算力底座，让Gemini 1.0版本成了一个性能怪兽。根据谷歌发布的报告，在32项广泛使用的基准测试中，Gemini Ultra获得了30个SOTA（State of the art，特指领先水平的大模型）。能够看出，Gemini 1.0版本在文本、代码、音频、图像和视频处理能力方面，以及推理、数学、代码等方面的能力均比GPT-4更加出色，可以说是全方位吊打GPT-4。

图源：谷歌

图源：谷歌

根据以上两图，Gemini在MMLU（大规模多任务语言理解数据集）和MMMU（基于大学考试的测试基准）的成绩格外值得关注。其中，Gemini Ultra在MMLU测试中的得分率高达 90.0%，首次超越了人类专家。MMLU数据集包含数学、物理、历史、法律、医学和伦理等 57 个科目，用于测试大模型的知识储备和解决问题能力。

在权威MMMU测试中，Gemini Ultra也获得了59.4%的SOTA分数。MMMU由IN.AI Research 等多所机构组成的研究团队一同推出，可用于评估AI在大学水平的多学科问题上的多模态理解和推理能力。其中包含的问题来自大学考试、测验和教科书，涉及六个常见学科：艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程。MMMU包含1.15万个精心选取的多模态问题，涵盖30个不同的科目和183个子领域，因此满足广度目标。谷歌认为，在MMMU中取得这样的分数，证明Gemini在更复杂推理任务中还有更大的潜力值得挖掘。

谷歌认为，Gemini作为一个原生的多模态大模型，和单独训练拼接而成的多模态大模型有很大的不同，带来了巨大的性能提升，并通过多模式级联的数据进行了调优，以进一步完善其有效性。这就是为什么，Gemini几乎在任何领域都是最领先的。

在谷歌发布的报告中，该公司基于Gemini进行了复杂推理的显示，比如Gemini可以非常高效地从数十万份文件中获取对科学家有用的数据，并创建数据集。你甚至可以让它帮你给这些有价值的数据做进一步的标注。

在另一个案例中，Gemini可以在世界上最受欢迎的编程语言（如Python、Java、C++和Go）中理解、解释和生成高质量的代码。由于对全球语言都有很好的支持，Gemini可以跨语言工作并对复杂信息进行推理，使其成为世界上领先的编码的基础模型之一。基于Gemini，谷歌创建了一个更先进的代码生成系统AlphaCode 2，该系统擅长解决超越编码的竞争性编程问题，涉及复杂的数学和理论计算机科学。

凭借GPT大模型，OpenAI这几年的风头盖过了谷歌，现在凭借Gemini，谷歌打了一个漂亮的翻身仗。不过，桑达尔・皮查伊在接受采访时表示，Gemini只是领先GPT-4一点点，“想想看，向人工智能的转变是多么深刻，我们还处于早期阶段，前方的世界充满机遇。”

谷歌表示，Gemini将通过谷歌产品推向数十亿用户。从12月13日开始，开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。2024年初，谷歌还将推出Bard Advanced，这是一种新的顶级人工智能体验，让用户从Gemini Ultra开始访问谷歌最好的模型和功能。

更强的功能与更大的担忧

在Gemini的介绍报告中，谷歌花费很大篇幅来阐述责任和安全。在报告中谷歌提到，“在谷歌，我们致力于在我们所做的一切工作中推进大胆和负责任的人工智能。基于谷歌的人工智能原则和我们产品的强大安全政策，我们正在添加新的保护措施来保证Gemini的多模式联运能力。在开发的每个阶段，我们都在考虑潜在风险，并努力测试和减轻它们。”

“我们对迄今为止的任何谷歌人工智能模型进行了最全面的安全评估，包括偏见和数据毒性。我们对网络犯罪、说服和自主意识等潜在风险领域进行了新的研究，并应用了谷歌一流的对抗性测试技术，以帮助在Gemini部署之前识别关键安全问题。”

同时，为了减少测试的盲点，谷歌也在与外部专家和合作伙伴一起进行压力测试。然而，就像桑达尔・皮查伊提到，很多基准测试还在逐步完善一样，实际上对于AI大模型的安全测试也是如此，很多方面的测试都还是空白，人们在使用一些对付传统人工智能的手段来对AI大模型进行压力测试，但这显然是不够的。

目前，行业将AI大模型的安全风险分为三个方向，分别是训练数据、模型本身和使用场景。在训练数据方面，数据采集不当、存在偏见或标签错误、数据被投毒等都被视为安全风险；在模型本身，模型的可靠性、稳定性、鲁棒性等都是测试项，同时企业也在关注模型被误导性；然后在使用阶段，主要防范欺诈、歧视、政治倾向等风险内容，以及用户数据的保护。

表面上看，好像已经能够覆盖大模型各方面的风险，但是在目前的方案中，企业发现由于大模型处于野蛮生长的阶段，很多问题都是未知的。于是乎，ChatGPT被发现存在大量具有攻击性的行为。行业想到的办法是用魔法打败魔法——以AI对抗AI。

然而，魔高一尺还是道高一丈，这实际上也是不可控的。

今年3月份，一封千位大佬的联名信呼吁，应该立即停止训练比GPT-4更强大的AI系统，暂停期至少6个月。签名的有图灵奖得主Yoshua Bengio、Stability AI首席执行官Emad Mostaque、苹果联合创始人Steve Wozniak、纽约大学教授马库斯、马斯克，以及《人类简史》作者Yuval Noah Harari等。但此事似乎并没有什么结论。

也就在日前，OpenAI公布了该公司在安全方面的举措，实际上和谷歌等公司都是大同小异，且都说明对于AI大模型的防护也是需要不断完善，通过实践和研究来解决安全问题。

不难预见，新一轮AI大模型“竞赛”开始了，安全和责任制措施当然也会升级，但模型和防护谁发展更快，相信更多人都倾向于相信前者发展更加野蛮。

结语

Gemini模型的发布标志着，全球AI大模型发展正式进入原生多模态时代，模型的各项性能和数据融合能力将显著增强。在更广泛的领域，AI大模型将取代人工，且比人工更加出色。不过，安全问题似乎并没有被妥善解决，新一轮AI大模型竞赛就直接开始了。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6169

浏览量
105420
Gemini

Gemini

+关注

关注
0

文章
53

浏览量
7601

谷歌正式发布Gemini 2.0 性能提升近两倍

在智能体时代，谷歌再次引领技术潮流，正式发布了其最新力作——Gemini 2.0。这款AI模型不仅在性能上实现了显著提升，更是在多模态表现和原生工具应用方面展现了前所未有的

发表于 12-12 14:22 •276次阅读

谷歌发布Gemini 2.0 AI模型

谷歌近日正式推出了新一代AI模型——Gemini 2.0。此次更新引入了名为“深度研究”的新特性，旨在为用户提供更加全面和深入的复杂主题探索与报告撰写辅助。 Gemini 2.0通过高

发表于 12-12 10:13 •227次阅读

谷歌计划12月发布Gemini 2.0模型

近日，有消息称谷歌计划在12月发布其下一代人工智能模型——Gemini 2.0。这一消息引发了业界的广泛关注，因为谷歌在人工智能领域一直保持

发表于 10-29 11:02 •491次阅读

OpenAI推出新模型CriticGPT，用GPT-4自我纠错

基于GPT-4的模型——CriticGPT，这款模型专为捕获ChatGPT代码输出中的错误而设计，其独特的作用在于，让人们能够用GPT-4来查找GP

发表于 06-29 09:55 •550次阅读

GPT-4人工智能模型预测公司未来盈利胜过人类分析师

据悉，本次研究中，研究人员仅向GPT-4提供了匿名的财务数据，包括资产负债表和损益表，并要求其预测未来盈利增长。尽管未获得其他信息，GPT-4仍能达到60%的准确度，远超人类分析师的平均水平

发表于 05-27 16:41 •603次阅读

OpenAI全新GPT-4o能力炸场！速度快/成本低，能读懂人类情绪

”的意思。GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平，速度是上一代AI大模型GPT-4 Turbo的两倍，但成本仅为

发表于 05-15 00:15 •7835次阅读

阿里云正式发布通义千问2.5，中文性能全面赶超GPT-4 Turbo

在通义大模型发布一周年之际，阿里云迈出了历史性的一步。近日，阿里云正式发布通义千问2.5版本，其性能全面超越GPT-4 Turbo，荣登中文大模型

发表于 05-13 11:16 •988次阅读

阿里云发布通义千问2.5大模型，多项能力超越GPT-4

阿里云隆重推出了通义千问 2.5 版，宣称其“技术进步，全面超越GPT-4”，尤其是在中文环境中的多种任务（如文本理解、文本生成、知识问答及生活建议、临时聊天及对话以及安全风险评估）方面表现出色，超越了GPT-4。

发表于 05-09 14:17 •964次阅读

商汤科技发布5.0多模态大模型，综合能力全面对标GPT-4 Turbo

场景应用需求；升级“日日新SenseNova 5.0”大模型体系，综合能力全面对标GPT-4 Turbo。此外对于文生视频徐立也表示商汤科技很快就会发布相关的平台产品。备受瞩目的商汤科技“日日新SenseNova” 5.0多

发表于 04-24 16:49 •1117次阅读

OpenAI推出Vision模型版GPT-4 Turbo，融合文本与图像理解

据悉，此模型沿用GPT-4 Turbo系列特有的12.8万token窗口规模及截至2023年12月的知识库架构，其创新亮点则是强大的视觉理解功能。

发表于 04-10 10:49 •410次阅读

微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

起初，Copilot作为Bing Chat AI助手推出，初期采用GPT-3.5模型，随后升级至GPT-4取得显著进步，如今再次更新至性能卓越的GPT-4 Turbo

发表于 03-13 13:42 •734次阅读

新火种AI|秒杀GPT-4，狙杀GPT-5，横空出世的Claude 3振奋人心！

的GPT-4被拉下神坛， Claude 3很可能对GPT-4实现全方位的碾压。 Anthropic发布3个模型，

发表于 03-06 22:22 •669次阅读

全球最强大模型易主，GPT-4被超越

近日，AI领域的领军企业Anthropic宣布推出全新的Claude 3系列模型，其中包括最强版Claude 3 Opus。据该公司称，Claude 3系列在推理、数学、编码、多语言理解和视觉方面全面超越了包括GPT-4在内的所

发表于 03-05 09:58 •664次阅读

Anthropic推出Claude 3系列模型，全面超越GPT-4，树立AI新标杆

近日，AI领域的领军企业Anthropic震撼发布了全新的Claude 3系列模型，该系列模型在多模态和语言能力等关键领域展现出卓越性能，成功击败了此前被广泛认为是全球最强AI

发表于 03-05 09:49 •690次阅读

全球最强大模型易主：GPT-4被超越，Claude 3系列崭露头角

近日，人工智能领域迎来了一场革命性的突破。Anthropic公司发布了全新的Claude 3系列模型，该系列模型在多模态和语言能力等关键指标上展现出卓越性能，成功超越了此前被广泛认为是全球最强

发表于 03-05 09:42 •660次阅读

搜索历史

谷歌发布史上最强大模型Gemini，全方位领先GPT-4，MMLU基准达人类专家水平

评论

谷歌正式发布Gemini 2.0 性能提升近两倍

谷歌发布Gemini 2.0 AI模型

谷歌计划12月发布Gemini 2.0模型

OpenAI推出新模型CriticGPT，用GPT-4自我纠错

GPT-4人工智能模型预测公司未来盈利胜过人类分析师

OpenAI全新GPT-4o能力炸场！速度快/成本低，能读懂人类情绪

阿里云正式发布通义千问2.5，中文性能全面赶超GPT-4 Turbo

阿里云发布通义千问2.5大模型，多项能力超越GPT-4

商汤科技发布5.0多模态大模型，综合能力全面对标GPT-4 Turbo

OpenAI推出Vision模型版GPT-4 Turbo，融合文本与图像理解

微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

新火种AI|秒杀GPT-4，狙杀GPT-5，横空出世的Claude 3振奋人心！

全球最强大模型易主，GPT-4被超越

Anthropic推出Claude 3系列模型，全面超越GPT-4，树立AI新标杆

全球最强大模型易主：GPT-4被超越，Claude 3系列崭露头角