一夕之间,大模型的战局再变,Google 带着「迄今为止功能最强大、最通用的 Gemini 模型」正面硬刚 OpenAI 时下最先进的 GPT-4。
「作为一家 AI-First 的公司,我们已经走过了近八年的历程,进步的步伐只会不断加快。Gemini,这是 Google AI 新时代的开始」,Google CEO 桑达尔·皮查伊(Sundar Pichai)在为这个新模型亲自站台时表示,「这个模型开创的新时代代表了我们作为一家公司所做出的最大的科学和工程努力之一。我对未来以及 Gemini 将为世界各地的人们带来的机会感到由衷的兴奋。」
Gemini 来啦!
在今年 5 月的 Google I/O 大会上,皮查伊首次透露了 Google 正在研发一款多模态基础模型 Gemini,下一步 Google 所有产品都将基于它们,包括 Google Bard、搜索、云。
时隔 7 个月的今天,在 Google 官宣 Gemini 正式到来之际,Bard 和 Pixel 8 Pro 智能手机已经率先应用上了这款大模型。不过,Gemini 目前仅提供英语版本,其他语言显然很快就会推出。皮查伊表示,该模型最终将被整合到 Google 的搜索引擎、广告产品、Chrome 浏览器等。
首先认识一下 Gemini
“Gemini 是整个 Google 团队(包括 Google Research 的同事)大规模协作努力的成果。它是从头开始构建的多模式,这意味着它可以概括和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频”,Google DeepMind 首席执行官兼联合创始人 Demis Hassabis 介绍道。
根据 Google 透露,Gemini 现在能够在从数据中心到移动设备的所有设备上高效运行,其最先进的功能将显著增强开发人员和企业客户利用人工智能进行构建和扩展的方式。
当前,Google 带来了三种 Gemini 型号:
Gemini Ultra 是 Google 最强大的模型,被定位为 OpenAI 的 GPT-4 的竞争对手,也似乎是为数据中心和企业应用程序设计的。不过,该款模型将于明年推出。
Gemini Pro 是一款中端型号,能够击败 ChatGPT 的基准版本 GPT-3.5。与此同时,它将很快为许多 Google AI 服务提供支持,今天率先在 Bard 上应用。
Gemini Nano,这是一种专为在移动设备上运行而构建的更高效的模型。Pixel 8 Pro 手机用户现在就可以通过 Gemini Nano 获得一些新功能,如记录器应用程序中的摘要功能、Gboard 中的智能回复、视频功能、摄影和图像编辑方面的改进。
Gemini vs GPT-4
事实上,自去年 OpenAI 率先推出 ChatGPT,似乎关于 AI 领域的“风头”便被其占领了大半。显然,其他布局 AI 的各大科技公司对此并不甘落后,在自己发布新品时,也忍不住会和 OpenAI 的产品对比一番,Google 当然也不例外。
基于此,Google 发布了一份长达 60 的《Gemini: A Family of Highly Capable Multimodal Models》(https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf),进行了技术详解,也与 GPT-4、GPT-3.5 模型做了对比。
其中,Google 运行了 32 个完整的基准测试来将 Gemini 与行业中先进的模型进行了比较,其中从广泛的整体测试(如多任务语言理解基准测试)到比较两个模型生成 Python 代码的能力。
值得一提的是,Gemini 的基础模型支持文本输入和文本输出,但更强大的 Gemini Ultra 可以处理图形、视频和音频。根据基准测试结果显示,从自然图像、音频和视频理解到数学推理,Gemini Ultra 的性能在大型语言模型 (LLM) 研发中使用的 32 个广泛使用的学术基准中的 30 个上超过了 GPT-4。
整体来看,Gemini Ultra 的得分高达 90.0%,是第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型,该模型结合了数学、物理、历史、法律、医学和伦理学等 57 个科目来测试知识和解决问题的能力。
其中,Google 使用新的 MMLU 基准方法使 Gemini 能够利用其推理能力在回答难题之前更仔细地思考,从而比仅使用第一印象有显著改进。
此外,Gemini Ultra 还在新的 MMMU 基准测试中取得了 59.4% 的最先进分数,该基准测试由跨越不同领域、需要深思熟虑的推理的多模态任务组成。
根据 Google 测试的图像基准,Gemini Ultra 的性能优于以前最先进的模型,无需从图像中提取文本以进行进一步处理的对象字符识别 (OCR) 系统的帮助。这些基准凸显了 Gemini 天生的多模态性,并表明了 Gemini 更复杂推理能力的早期迹象。
多模态 Gemini 的优势
综上也不难看出,Gemini 模型的优势便体现在多模态维度上。
“我们将 Gemini 设计为原生多模式,从一开始就针对不同模式进行了预训练。然后我们使用额外的多模态数据对其进行微调,以进一步完善其有效性。这有助于 Gemini 从头开始无缝地理解和推理各种输入,远远优于现有的多模式模型 - 而且其功能几乎在每个领域都是最先进的”,Google 在公告中写道。
那要细看 Gemini 模型的多模态能力,则具体体现在以下几点:
复杂的推理
Gemini 1.0 复杂的多模式推理功能可以帮助理解复杂的书面和视觉信息。Gemini 模型通过阅读、过滤和理解信息从数十万份文档中提取见解的能力,可以帮助更多的使用者从科学到金融的许多领域以数字速度实现新的突破。
理解文本、图像、音频
据 Google 透露,Gemini 1.0 经过训练,可以同时识别和理解文本、图像、音频等,因此它可以更好地去理解,并回答与复杂主题相关的问题。以下示例中可以看到 Gemini 解释数学和物理等复杂学科的推理能力。
高级编码
Google 似乎将编码视为 Gemini 的杀手级能力,也在这一维度下足了功夫。
Gemini 1.0 可以理解、解释和生成主流编程语言(如 Python、Java、C++ 和 Go)的高质量代码。
在上文的基准测试中,Gemini Ultra 在 HumanEval(用于评估编码任务性能的重要行业标准)上获得了 74.4% 的得分,以及 Natural2Code(Google 内部保留的数据集)上获得了 74.9% 的分数,都比 GPT-4 能力更强一些。
在这次发布会上,Google 还使用了 Gemini 的专门版本,创建了更先进的代码生成系统 AlphaCode 2(https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf),它擅长解决超出编码范围、涉及复杂数学和理论计算机科学的竞争性编程问题。
相较 Google 两年前推出的 AlphaCode,AlphaCode 2 解决的问题数量几乎是原来的两倍。Google 估计 AlphaCode 2 的表现优于 85% 的竞赛参与者,而 AlphaCode 的这一比例接近 50%。当程序员通过为代码示例定义某些属性来与 AlphaCode 2 协作时,它的性能会更好。
运行速度更快、成本更低
对于 Google 来说同样重要的是,Gemini 显然是一个效率更高的模型。它使用的是 Google 内部设计的张量处理单元(TPU) v4 和 v5e 上进行训练的,比 Google 之前的模型(如 PaLM)运行速度更快、成本更低。
今天,除了新模型之外,Google 还推出了迄今为止最强大、最高效且可扩展的 TPU 系统 Cloud TPU v5p,专为训练尖端 AI 模型而设计。这款下一代 TPU 将加速 Gemini 的开发,帮助开发者和企业客户更快地训练大规模生成式 AI 模型。
Gemini 真的击败了 GPT-4 吗?
对于 Gemini 的发布,业界普遍觉得终于有一款可以与 GPT-4 相抗衡的模型了,有竞争才有进步,这未必是一件坏事。然而,也需要认清现实的是,能够与 GPT-4 相抗衡的 Gemini Ultra 暂时还未应用到任何产品中,因此也有不少人认为此举是 Google 先官宣在小步快跑的举措,但并不能直接称其就击败了 GPT-4。
对此,也正如美国知名 AI 学者 Gary Marcus 所点评的:
Google Gemini 和 GPT-4 的热门观点:
从许多方面来看,Google Gemini 似乎与 GPT-4 相匹配(或稍稍超过),但并未将其击败。
从商业角度来看,GPT-4 不再是独一无二的。这对 OpenAI 来说是一个大问题,尤其是在戏剧性事件发生后,许多客户现在都在寻求备份计划。
从技术角度来看,关键问题是:LLM 是否已接近稳定期?
请注意,盖茨和 Sam Altman 都已经暗示过,尽管商业需求巨大,但 GPT-5 在一年后还没有出现。Google 尽管拥有所有资源,但并没有击败 GPT-4,这一事实很能说明问题。
除此之外,还有不少网友从开发者的角度看 Gemini 的实用性。来自一家 AI 机构 Growth Automation 的 CTO Michael Borman 发文表示:
“Gemini 将取代程序员吗?谷歌发布的新 Gemini 模型带来了一些非常有趣的东西。
Alpha Code 2(来自 Google deepmind)在 Codeforces 平台上击败了 85% 的竞争对手,解决了 43% 的最新挑战(8000 名参与者)。
这些挑战难度很大,而 GPT-4 在该基准测试中的解题率为 0。
这太疯狂了,如果你相信推断的话,Alphacode 现在基本上比 85% 的程序员都要强。
这意味着什么?编程已经死了吗?
虽然 Alpha Code 2 真的很不错,但目前它的资源密集度太高了。
基本上,它需要大量不同的新 Gemini 模型,为相同的问题生成成千上万的代码样本,过滤掉所有无法计算的代码样本等。然后对代码样本进行聚类,并使用 gemini 对每个样本进行排名,从排名前 10 的最大聚类中选出排名最好的代码。
是的,我知道仅仅生成一些代码就有点复杂。
因此,虽然它非常好,但正如你从上述过程中看到的那样,它还需要一段时间才能以 Copilot 的方式出现在你的 IDE 中。”
最后你如何看待 Gemini 的到来?它是否会对大模型市场带来冲击?
审核编辑:黄飞
评论
查看更多