只有谷歌受伤的世界达成了，但“全能模型”到底该不该跟？-电子发烧友网

最近AI领域备受瞩目的新闻中，OpenAI和谷歌的新品发布会，无疑占据了最多的头条。

我们团队当然也不例外，不仅第一时间观看了两家公司的发布会，还亲身上手体验了号称“颠覆世界”“世界又科幻了”的GPT-4o。

一句话总结：

OpenAI发布会，失望；

谷歌发布会，无聊。

并不是我们要故作惊人之语。实际上，AI业内专业人士普遍都有类似的看法。

一些国内从事AI工程化项目的人表示，“不关心，因为又用不到”。而AI科学家和专家也有不少人直言，“看着看着睡着了，谷歌几乎所有的东西都是对标和追赶，没有太多的新鲜感”。

又又又一次在与OpenAI的较量中处于下风，一个只有谷歌受伤的世界达成了。

尽管两大AI巨头的新技术方向，仍然值得关注，但可以明确的是，随着大型AI模型的产业化进程不断深入，国内外参与者也越来越冷静，更加专注于自身的AI策略与节奏。

有人将这两场发布会比作是一场斗地主游戏，OpenAI打出一对二，谷歌就跟四个王。那么，这一次较量的核心——多模态大模型，国内AI行业是否要跟进呢？如果要跟进，又该提前考量到哪些问题呢？

每一次新产品问世，如果只跟着新闻“震惊”是很难进步的。不妨和我们一起，认真给GPT-4o算笔账。

全能模型，究竟“惊艳”在哪里？

谷歌反击OpenAI的发布会，被称为“腹泻式更新”，一口气推出了十来款新品及升级。之所以让人看到睡着，是因为大家已经在前一天被GPT-4o“惊艳”过了。

而这次谷歌开发者大会上所演示的其他产品，OpenAI早都发布过。对标GPT-4o的Gemini Astra，表现又略逊一筹，也难怪大家兴趣缺缺。显然，这是一次针对谷歌的精准狙击。此前，谷歌已经对外放出了语音助手demo演示的预热视频，而GPT-4o最让人惊艳的地方就是“天花板级别”的人机自然语音交互。

那么，OpenAI机关算尽、谷歌有备而来的多模态大模型，究竟有什么神奇之处？

GPT-4o中的“o”代表“omni”，意为“全能”，以此为版本号，凸显了GPT-4o的多功能特性，可以从三个方面理解：

1.多模态。

GPT-4o接受文本、音频和图像的任意组合作为输入，实时对音频、视觉和文本进行推理，生成相应的输出。相比ChatGPT的文生文、文生图，Sora的文生视频等，GPT-4o是一个原生多模态的融合体。这一点，谷歌的Gemini Astra也能实现，支持多模态的推理。在演示视频中，谷歌的智能助手可以理解手机摄像头拍摄的世界（视频、图像），并用文字详细地讲述出来。

当然，多模态大模型并不是什么新鲜事物。不只这俩AI巨头，国内在多模态大模型领域也有一些研究和开发。此前就有浙大校友开源了多模态大模型LLaVA，对标OpenAI的GPT-4V。既然多模态大模型并不稀奇，那GPT-4o凭啥“惊艳”？答案就在第二点。

2.低时延。

GPT-4o是一个端到端、全链路贯穿的多模态大模型。

此前，语音产品一般由三个独立模型组成：SLM1将音频转录为文本——LLM将文本输出为文本——SLM2将生成文本转换为音频。每一步的网络延迟叠加起来，结果就是AI推理速度跟不上人嘴巴说话的速度。大家可能都有过类似的经历，自己都说完了，AI大模型还没识别完全，互动总被打断，有时还会丢失很多信息，连基本的文字都听不清，更别说从笑声、停顿、叹气等因素中分析出人的情绪了，人当然也就没有了说下去的兴致。

而GPT-4o的端到端，就是省去了中间的处理步骤，由同一个神经网络来接受并处理来自不同模态（如文本、视觉和音频）的输入数据，并直接输出结果。这样就可以将语音交互的响应时延，控制在232 毫秒以内，体感上比人类回应还要迅速。

OpenAI演示完GPT-4o，大家纷纷表示，科幻电影中《Her》跟机器谈情说爱的未来就要实现了。不过，谷歌并不这样想。

（截图自奥特曼的社交媒体）

在晚一天的谷歌发布会上，谷歌Gemini 1.5 Flash的响应其实也很快速，同样能几乎没有延迟地跟人类流畅互动，但还是比GPT-4o要长一些。不过谷歌声称，自己的两段演示视频均为“单次拍摄、实时录制完成”。

我们猜测，这是在暗示OpenAI又在“贷款领先”了，GPT-4o实际可能无法很快真的落地，毕竟OpenAI搞误导性营销是有前科的，Sora就曾爆出，拿艺术家编辑过的视频当原视频宣传，演示效果并非完全由AI生成。

展示效果是真是假，有待时间验证，不过OpenAI和谷歌在端到端方面的工作，证明了人机语音交互的超低时延是可以实现的，达到媲美人类交流的水平。而这，就为语音交互的多场景应用，打下了新的技术根基。

3.多场景。

大家应该都还记得，ChatGPT问世时举世震惊的效果。大语言模型的强大理解能力和泛化性，可以促成NLP在多种文本任务上带来颠覆式的影响，而这类任务几乎遍布在各行各业。

再看GPT-4o，多模态大模型在音视频理解方面尤其出色，也是一个非常泛在的通用型技术。而毫不夸张地说，GPT-4o将语音交互体验做到了“天花板级别”，这几乎可以给语音场景都带来改变。

比如OpenAI所展示的辅导孩子数学题，可以替代家长辅导作业，让家家都过上和谐的日子；《Her》电影中跟智能语音机器人谈恋爱的场景，可以让人人都拥有自己的网络恋爱/在线情感抚慰师。延展开来，此前曾被嘲笑“人工智障”的手机语音助手，银行、电信等行业的客服机器人，缺乏充足师资力量的偏远学校，游戏里跟玩家互动的NPC纸片人，以及能识别用户情绪的精准营销……

凡有人声处，皆可咏AI，正随着端到端多模态大模型的进化与落地，让更自然、更逼真、富有感情的人机交互成为可能。

从这个角度说，GPT-4o所代表的技术前瞻性，确实配得上“全能o”这个词。既然如此，为什么说只有谷歌一家受伤了呢？

不慌不忙，只有谷歌受伤的世界达成了

OpenAI一有新品发布，国内大众的期待与紧张情绪便如同谷歌的皮猜（Sundar Pichai）一样高涨，这几乎已经是惯例了。

预判国内观众的预判，很多中文媒体也在OpenAI春季新品发布会刚发完的早晨，就炮制了一系列“颠覆世界”“炸裂登场”的新闻。有人说它要革谷歌的命，革Siri的命，革同传的命，革心理咨询师、情感辅导、私人教练等1V1咨询的命……

或许还有不明真相的群众信以为真，而谷歌也确实进行了反击，但国内AI业内人士大多呵呵一笑。这可能是第一次，面对OpenAI的进攻，只有谷歌受伤的世界达成了。

为什么国内AI从业者普遍对GPT-4o及对标GPT-4o的Gemini Astra，反应平平，甚至看发布会都能睡着？

首要原因，当然是新产品不达预期。

许多人原本满怀期待地等OpenAI放出GPT-5，就算没有，也得是跟Sora一样惊艳的东西，但GPT-4o更多的是在现有技术框架内的一次迭代升级。而谷歌此前发布的Gemini也有多模态能力。可以说，双方虽然都在多模态处理方面，做出了改进和增强，但并没有实现根本性的技术飞跃。所以有人说，大家期待的是一个“核弹”，而OpenAI这次拿出的是一个“摔炮”。

另一个原因，是OpenAI“狼来了”玩太多次了。

OpenAI会营销是共识，有不少人都在Sora翻车之后表示，“厌倦了OpenAI的精美Demo营销”。投资人朱啸虎OpenAI CEO Sam Altman奥特曼每次都把PR宣传时间点拿捏得很准，显示自己这波在“大气层”，但几个月之后都没有开放给公众使用。

越来越多人认识到这一点，也对OpenAI的“demo发布会”变得不信任、不耐烦了。

（截图自社交媒体，网友对OpenAI的评论）

当然，最关键的还是，经过一年多的大模型落地实践，国內AI产业链上下游可能都对OpenAI和大模型“祛魅”了。

这就像打牌，面对别人摆下的龙门阵，刚刚坐上牌桌，对游戏规则和策略不够熟悉，自然要先观察和模仿对方的策略，赶紧先把大语言模型搞出来，也会下意识地听取围观群众的建议。明明自己才是干AI的，但一听媒体分析师或网友说“落后了”，立马焦虑，忙着对标ChatGPT、对标GPT-4，又容易“翻车”引发舆论危机。刚上牌桌，进退失据，亦步亦趋跟进OpenAI是难免的。

但一年多时间过去，很多真正做大模型和产业落地的人与企业，或许还没彻底弄清楚中国大模型产业化、商业化应该怎么做，但一个共识很清楚——像OpenAI、谷歌那样做不行。最简单的，GPT-4o能第一时间拿到英伟达最先进的显卡，这就是国内厂商很难拥有的资源。

此外，ToB领域对模型可控性的要求、私有化部署的需求等，国内企业的智能化要从数据清洗、知识库等基础工作开始，而不是直接调用最先进模型的API……

这些问题，导致国內AI产业界对追赶OpenAI“炸裂新品”的兴趣，越来越小，找到了自己做大模型的节奏和策略。

这些背景综合起来，导致只有紧跟在OpenAI身后苦苦追赶的谷歌，被GPT-4o伤得最深。

多模态大模型的收益比，到底怎么样？

当然，不再一味追着OpenAI的节奏疲于奔命，并不意味着OpenAI和谷歌都在发力的技术方向，就不重要了，就可以不关心了。

只不过，在盯紧趋势的基础上，还得统筹牌局，算好收益比，究竟何时出牌、什么出牌顺序，对大模型商业化的潜在收益风险比是最高的。

那么，GPT-4o及Gemini Astra这类端到端多模态大模型，对企业的潜在收益与风险，究竟如何呢？

先说收益。

目前来看，与丰富的软硬件生态相结合，能够更快落地、价值最大化。

比如谷歌Gemini Astra尽管在理解能力、时延上不及GPT-4o，但谷歌凭借强大应用生态的支持，让跨模态理解生成，有了用武之地，股价也有所上涨。

硬件方面，谷歌Gemini的多模态能力与XR眼镜整合，让商业化遇阻的“谷歌眼镜”再次回魂重塑；

软件方面，GPT-4o被传将与苹果绑定，加速IOS的AI化进程。而谷歌则将多模态能力融入搜索，用户可以通过语音、图片等与搜索引擎交互，支持搜索视频内容。

（截图自社交媒体，网友对GPT-4o的评论）

不过，这些都是展望。在实际落地、与软硬件结合的过程中，AI公司可能会输掉一些筹码，潜在风险包括：

长期亏损。就连OpenAI都遭遇了流量危机，开始通过免费换用户规模，这意味着在算力、人员等方面的长期投入。AGI是一个长期任务，可能需要十年、二十年的时间，如果在每一个阶段，不能成功实现规模商业化，想一把赌个大的，靠后期非线性增长来扭亏为盈，很有可能“大业未成而中道崩阻”。

同质化竞争。OpenAI与谷歌的大模型竞争，撕咬得很紧，而技术领域想要彻底封闭是不可能的，这意味着底层模型能力很快会趋同，这时候用户会转变为价格敏感型，进入残酷的价格战。如果没有差异化的营收模式，一味跟进底层模型的绝对领先，利润会越来越微薄。

可能有人会说，还没做出国产版GPT-4o就惦记着商业化、赚钱，真的很庸俗。

必须得说明一下，从收益比最优的角度，决定怎么出牌，OpenAI可算是熟手了。事实上，ChatGPT的推出是为了用聊天机器人来抢到关注度，而GPT-5迟迟不推出，除了坊间猜测的能力不达预期之外，也有对发布时机的考量。奥特曼已经表达过多次，“GPT-5很厉害，但我们还没有确定如何将这些产品推向市场”。

师夷“算账”以制夷，国內AI公司也得学会踩点市场节奏，做出更明智、收益比更高的商业策略，才能长期良性发展。网友大型“双标”要不得。

从国内LLMtoB（面向B端市场的大模型）的一些实践经验来看，GPT-4o在当下确实还存在一些阻碍落地的实际问题。

比如可控性，AIGC生成的文本、图片，都比较容易进行内容控制，由其他模型或人类专家来把控内容质量与合规风险，超低时延的实时语音交互如何保障内容质量？如果在辅导作业、医生问诊、心理咨询等严肃场景中出现幻觉和胡说八道，甚至违法违规的内容，该怎么及时防范？

奥特曼在GPT-4o的技术博客中提到，该模型在网络安全等风险维度上都“不超过中等水平”，也就是说，目前只能实现中等及以下的安全能力。无论是C端用户，还是B端政企客户，谁放心将喜怒哀乐、私密信息都告诉多模态大模型？怎么打消用户的安全顾虑，还需要在数据源头、模型训练、规则机制设计、产品功能上都有充分细致地打磨。

更要问一句，创业公司和开发者的努力总是被新的模型能力覆盖掉，是不是来自AI大模型厂商的一种“背刺”？什么样的智能语音产业生态，才能吸引他们来用？

这些落地问题不解决，所谓的《Her》一般的科幻未来，就只能一直存在于OpenAI的demo中了。

从实际情况来说，跟上技术路线并不算真难题。算好收益比，搞清楚自己和对手手里的牌面，以及多模态大模型的商业牌局，才是更难也更紧迫的问题。

GPT-4o这一波，国内AI企业不用急着再上牌桌。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6087

浏览量
104461
AI

AI

+关注

关注
87

文章
29013

浏览量
266460
GPT

GPT

+关注

关注
0

文章
347

浏览量
15193
OpenAI

OpenAI

+关注

关注
9

文章
995

浏览量
6271
大模型

大模型

+关注

关注
2

文章
2157

浏览量
2025

谷歌获Character.AI大模型技术授权,创始人重归谷歌怀抱

8月5日最新资讯，创新企业Character.AI在上周五正式宣布，他们已经与科技巨头谷歌的母公司Alphabet达成了一项重要合作，非独家授权谷歌使用其先进的大型语言模型技术。此次合

发表于 08-05 14:35 •343次阅读

谷歌发布全新AI基础世界模型Genie

谷歌近日宣布推出其最新研发的AI基础世界模型——Genie。这款模型拥有惊人的110亿参数，其独特之处在于，仅需一张图片，便能生成一个充满活力和交互性的虚拟

发表于 03-04 14:02 •610次阅读

谷歌模型框架是什么软件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架，其中最著名的是TensorFlow。TensorFlow是一个开源的机器学习框架，由谷歌的机器学习团队开发，用于构建和

发表于 03-01 16:25 •667次阅读

谷歌模型训练软件有哪些？谷歌模型训练软件哪个好？

谷歌在模型训练方面提供了一些强大的软件工具和平台。以下是几个常用的谷歌模型训练软件及其特点。

发表于 03-01 16:24 •684次阅读

谷歌模型怎么用手机打开

要使用手机打开谷歌模型，首先需要明确一点：谷歌模型本身是在计算机上运行的程序或算法，而不是可以直接在手机上打开的应用程序。然而，你可以通过手机访问谷

发表于 03-01 16:23 •472次阅读

谷歌模型合成软件有哪些

谷歌模型合成软件通常指的是谷歌提供的用于创建、修改和共享3D模型的软件。目前，谷歌推出的模型合成

发表于 02-29 18:20 •1221次阅读

谷歌模型软件有哪些好用的

谷歌模型软件的好用程度可能因个人需求和技能水平而异，但以下是一些广受欢迎的谷歌模型软件，它们在各自的领域内有着出色的表现。

发表于 02-29 18:17 •881次阅读

谷歌发布全新AI模型Genie

谷歌近日发布了其全新的AI模型Genie，这一模型彻底改变了我们与数字世界的互动方式。Genie不仅可以接收文本提示、草图或想法，还能将这些创意迅速转化为一个可互动和玩耍的虚拟

发表于 02-28 18:25 •1540次阅读

谷歌发布基础世界模型Genie，世界模型领域竞争升温

继OpenAI和Meta之后，谷歌也在世界模型领域公布了其最新进展。据谷歌官网介绍，Genie是一个基于互联网视频训练的基础世界

发表于 02-28 18:20 •1305次阅读

谷歌发布AI基础世界模型Genie

谷歌近日宣布了其生成式AI的全新里程碑——全新AI基础世界模型Genie。这一创新技术允许用户通过单张图像提示，生成一个可玩的、交互式的虚拟环境，从而开启了一个全新的数字体验时代。

发表于 02-28 17:41 •668次阅读

谷歌发布新型AI模型Genie

近日，谷歌推出了一款革命性的AI模型——Genie。这款模型能够将简单的文本提示、草图或初步想法迅速转化为一个可以互动和游戏的虚拟世界。这一突破性的技术无疑将改变人们创建和体验虚拟

发表于 02-28 10:05 •613次阅读

谷歌交互世界模型重磅发布

谷歌模型

北京中科同志科技股份有限公司
发布于 :2024年02月28日 09:13:06

消息称Reddit与谷歌达成协议

近日，知名社交媒体平台Reddit宣布与全球科技巨头谷歌达成一项价值约6000万美元的合作协议。根据协议内容，谷歌将获得使用Reddit上发表的帖子来训练其人工智能模型的权限，旨在改进

发表于 02-23 11:12 •587次阅读

谷歌大型模型终于开放源代码，迟到但重要的开源战略

在人工智能领域，谷歌可以算是开源的鼻祖。今天几乎所有的大语言模型，都基于谷歌在 2017 年发布的 Transformer 论文；谷歌的发布的 BERT、T5，都是最早的一批开源 AI

发表于 02-22 18:14 •358次阅读

MCU晶振下到底该不该铺铜？

MCU的晶振下到底该不该铺铜，有些资料说最好铺铜，有些说最好不要铺铜？？求各位高手解答！！！！

发表于 01-12 06:56

搜索历史

只有谷歌受伤的世界达成了，但“全能模型”到底该不该跟？

评论

谷歌获Character.AI大模型技术授权,创始人重归谷歌怀抱

谷歌发布全新AI基础世界模型Genie

谷歌模型框架是什么软件？谷歌模型框架怎么用？

谷歌模型训练软件有哪些？谷歌模型训练软件哪个好？

谷歌模型怎么用手机打开

谷歌模型合成软件有哪些

谷歌模型软件有哪些好用的

谷歌发布全新AI模型Genie

谷歌发布基础世界模型Genie，世界模型领域竞争升温

谷歌发布AI基础世界模型Genie

谷歌发布新型AI模型Genie

谷歌交互世界模型重磅发布

消息称Reddit与谷歌达成协议

谷歌大型模型终于开放源代码，迟到但重要的开源战略

MCU晶振下到底该不该铺铜？