谷歌声称Gemini超越GPT-4，你有何看法呢？-电子发烧友网

谁能想到，一夜之间，人们对于谷歌 Gemini 的看法竟发生了 180° 转变。

昨天，谷歌在 X 上展示 Gemini 原生多模态能力的 6 分半钟视频下，几乎是清一色的赞扬：

而到了今天，Gemini 还是那个 Gemini，但网友已经不买账了：

发生了什么，才会让人们的态度一夜转变？原因在于那个 6 分半的 Gemini 演示视频：它是假的，是经过剪辑的，甚至在被质疑后，谷歌还承认了！

1、Gemini 的视频演示效果，是假的

相信看过 Gemini 演示视频的人，多数都对它的“多模态能力”印象深刻。例如，Gemini 看到一只鸭子从草图到填色的整个过程，可实时给出解释和反馈，还能在换杯游戏中追踪纸团、辨别各种手势、重新排列行星草图等——短短 6 分半的视频，Gemini 给人的感觉是：仿佛可以实时观察周围世界并及时做出反应，还能与人类进行流畅的语音对话。

对于 Gemini 如此强大的能力，谷歌给出的解释是：Gemini 是 AI 的新品种，即“原生多模态”。

“我们将 Gemini 设计为原生多模态，从一开始就针对不同模式进行了预训练。然后我们使用额外的多模态数据对其进行微调，以进一步完善其有效性，这有助于 Gemini 从头开始无缝地理解和推理各种输入，因此远远优于现有的多模式模型。此外，Gemini 的多模态功能几乎在每个领域都是最先进的。”

听起来似乎有理有据，于是当一众网友都沉浸于 Gemini 的强大、好奇它能否真正超越 GPT-4 的时候，彭博社作家 Parmy Olsen 突然发出了一个“不太和谐”的声音：Gemini 的视频演示效果，是假的。

一石激起千层浪！好在 Parmy Olsen 并没有吊人胃口，很干脆地将谷歌的作假手法和证据全部公开：Gemini 并不能像视频中那样实时语音回答——它看到的只是视频片段中的静态图像，其语音也只是在读出人类给它的文本提示，且响应时间比视频中展示的要长。

2、背后的人工提示过程，全部省略

举个例子，Gemini 演示视频中有一段识别动态手势的片段：通过观察左边不断变化的手势，Gemini 回答道，“我知道你在干嘛！你在玩石头剪刀布！”

这段视频乍看之下，你是不是以为可以实时向 Gemini 展示不同的东西，并与它交流？但事实并非如此：Gemini 仅支持文本交流，并不能进行语音对话。

根据谷歌公布的文档内容显示，这段视频显然是经过“加工”的：

（1）先给 Gemini 陆续展示三张单个手势的图片，问它分别看到了什么；

（2）再把三张手势图片一起发给 Gemini，问它这是在干什么，并提示是一个“游戏”；

（3）通过以上一步步的提示和引导，Gemini 最终给出了答案：你在玩石头剪刀布。

针对以上步骤，一位谷歌发言人解释道：“为了测试 Gemini 在各种挑战中的能力，我们通过捕捉录像来制作演示。然后我们使用录像中的静态图像帧提示 Gemini，并通过文本进行提示。”

Parmy Olsen 将其简单翻译了一下：“谷歌拍下了那双手做很多事情的画面，然后一张一张地向 Gemini 展示了这些镜头的照片。所以根本没有语音对话，而是跟 ChatGPT 和 Bard 一样的文本交流。”

此外，谷歌发言人还补充称，用户的配音都是从实际提示中摘录的真实内容，用于生成随后的Gemini输出结果——对此，Parmy Olsen 的翻译是：“你在视频中听到的声音，只是在朗读文字提示。”

也就是说，谷歌所展示的 Gemini 演示视频，是省略了所有引导提示、跳过了等待响应的时间、并用配音合成的最终结果。

3、都是真实的，只是“为了简洁”剪辑视频

当然，Gemini 可能也真的做到了在视频中展示的所有事情，但这两种表现形式完全不同：

以文字形式，通过人工提示分步骤直接展示其多模态效果，对于 Gemini 的能力没有过多修饰；

以视频形式，经过剪辑、省略其背后大量引导过程的视频来呈现，极大暗示了 Gemini 的实时高效。

由于 Parmy Olsen 的曝光，网友对于 Gemini 的态度瞬间改变，并发出了无数质疑。而对于被质疑造假的这个视频，谷歌 DeepMind 研究副总裁 Oriol Vinyals 今天给出了回应：

“视频中的所有用户提示和输出都是真实的，只是为了简洁起见进行了缩短。该视频展示了使用 Gemini 构建的多模态用户体验可能是什么样子，我们制作该视频是为了激发开发人员的灵感。”

换句话说，Oriol Vinyals 承认 Gemini 演示视频经过了剪辑，原因是“为了简洁”。不论其剪辑初衷是否真的只是为了“简洁”，但不得不说：在谷歌没明确说明视频经过剪辑之前，多数人对于 Gemini 的速度、准确性以及与交互的基本模式，都产生了误解。

如果在这个视频开头，谷歌就说“这是我们研究人员测试过的 Gemini 交互的理想化表现”，那网友就会有心理预期：哦，那这个视频一半是现实，一半是理想化——但事实上，该视频的开头是，“本视频重点介绍了我们与 Gemini 的一些有趣互动”，因此人们很难意识到这个视频中 Gemini 的表现是经过“加工”的。

4、网友：“这就是虚假和误导”

于是意料之中，Oriol Vinyals 的回应并没有受到网友的理解，其 X 帖子下多是谴责谷歌虚假、夸大营销：

“如果你想激励开发者，那为什么不发布真实的内容呢？提示不可能既‘真实’又‘缩短’，这就是虚假和误导。”

如今的 AI 初创公司，不就是像你们这样夸张的演示来骗取资金的吗？

“‘真实，缩短’，真的吗？只是营销罢了。”

另外值得一提的是，还有网友指出，谷歌Gemini 对比GPT-4 的测试基准也并不相同：“在MMLU测试中，Gemini下面有个灰色小字标CoT@32，即使用了思维链提示技巧、选取了32次中的最好结果，GSM8K 的性能也是用 Maj1@32 与 GPT-4 的 5-Shot CoT 进行对比的。”