GPT-4o深夜炸场！AI实时视频通话丝滑如人类，Plus功能免费可用-电子发烧友网

转自：量子位 | 公众号 QbitAI

不开玩笑，电影《她》真的来了。

OpenAI最新旗舰大模型GPT-4o，不仅免费可用，能力更是横跨听、看、说，丝滑流畅毫无延迟，就像在打一个视频电话。

现场直播的效果更是炸裂：

它能感受到你的呼吸节奏，也能用比以前更丰富的语气实时回复，甚至可以做到随时打断。

GPT-4o里的“o”是Omni的缩写，也就是“全能”的意思，接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出。

它可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类在对话中的反应速度一致。

这还是一份给所有人的大礼，GPT4-o与ChatGPT Plus会员版所有的能力，包括视觉、联网、记忆、执行代码、GPT Store……

将对所有用户免费开放！

（新语音模式几周内先对Plus用户开放）在直播现场，CTO Murati穆姐说：这是把GPT-4级别的模型开放出去，其实她还谦虚了。

在场外，研究员William Fedus揭秘，GPT-4o就是之前在大模型竞技场搞A/B测试的模型之一，im-also-a-good-gpt2-chatbot。

无论从网友上手体验还是竞技场排位来看，都是高于GPT-4-Turbo级别的模型了，ELO分数一骑绝尘。

而这样的超强模型也将提供API，价格打5折，速度提高一倍，单位时间调用次数足足是原来的5倍！

追直播的网友已经在设想可能的应用，可以替代盲人看世界了。以及确实感觉比之前的语音模式体验上强上不少。

鉴于之前不少人就已经和ChatGPT语音模式“谈恋爱”了，有大胆想法的朋友，可以把你们的想法发在评论区了。

总裁Brockman在线演示

知道OpenAI发布会为什么定在谷歌I/O前一天了——打脸，狠狠打脸。

谷歌Gemini发布会需要靠剪辑视频和切换提示词达成的伪实时对话效果，OpenAI现场全都直播演示了。

比如让ChatGPT在语言不通的两个人之间充当翻译机，听到英语就翻译成意大利语，听到意大利语就翻译成英语。

发布会直播之外，总裁哥Brockman还发布了额外的5分钟详细演示。而且是让两个ChatGPT互相对话，最后还唱起来了，戏剧感直接拉满。这两个ChatGPT，一个是旧版APP，只知道对话，另一个则是新版网页，具备视觉等新能力。（我们不妨取Old和New的首字母，分别叫TA们小O和小N）Brockman首先向小O介绍了大致情况，告诉她要和一个拥有视觉能力的AI对话，她表示很酷并欣然接受。接着，Brockman让她稍作休息，并向小N也介绍情况，还顺带展示了小N的视觉能力。只见打完招呼后，小N准确地说出了Brockman的衣着打扮和房间环境。而对于要和小O对话这件事，小N也感到很有趣。
接下来就是小O和小N相互对白的时间了，TA们依然是从Brockman的衣着开始聊起，小O不断提出新的问题，小N都一一解答。接着，他们又谈论了房间的风格、布置和光线，甚至小N还意识到了Brockman正站在上帝视角凝视着TA们。

如果你看了这段视频就会发现，画面中出现了一个女人在Brockman身后做了些恶搞的手势。这可不是乱入，是Brockman和女人串通好，专门给小N设计的一道“考题”。

就在小O和小N聊的正开心的时候，Brockman选择加入，直接问有没有看到什么不正常的地方。结果是小N直接识破了Brockman的小伎俩，直接复述出了女人在他身后做小动作的场景，小O听了之后直接感叹原来在这里享受乐趣的不只有我们两个。Brockman把这句话当成了夸赞，并对小O表示了感谢，还愉快地加入了TA们的对话。之后是最后也是最精彩的部分，在Brockman的指挥下，小O和小N根据刚才聊天的内容，直接开启了对唱模式。只过了简单几轮，衔接地就十分密切，而且旋律悠扬，音色也是和真人毫无二致。
最后视频以Brockman唱出的一句Thank you结束，在视频外的推文中他还透露新的语音对话功能将在数周内向Plus用户开放。

端到端训练，一个神经网络搞定语音文本图像

正如奥特曼在发布会前所说，GPT-4o让人感觉像魔法一样，那么它是如何做到的呢？非常抱歉，这次非但没有论文，连技术报告也不发了，只在官网Blog里有一段简短的说明。在GPT-4o之前，ChatGPT语音模式由三个独立模型组成，语音转文本→GPT3.5/GPT-4→文本转语音。我们也可以让旧版ChatGPT语音模式自己讲一下具体是怎么个流程。这样一来，整个系统的延迟足足有2.8秒（GPT-3.5）和5.4秒（GPT-4），而且丢失了大量的信息，它无法直接感受音调、多个说话者或背景噪音，也无法输出笑声、唱歌声，或表达情感。GPT-4o则是跨文本、视觉和音频端到端训练的新模型，这意味着所有输入和输出都由同一个神经网络处理。在语音翻译任务上，强于OpenAI专门的语音模型Whisper-V3以及谷歌和Meta的语音模型。在视觉理解上，也再次反超Gemini 1.0 Ultra与对家Claude Opus

虽然技术方面这次透露的消息就这么多了，不过也有学者评价。

一个成功的演示相当于1000篇论文。

One More Thing

除了OpenAI带来的精彩内容之外，也别忘了北京时间5月15日凌晨，谷歌将召开I/O大会。到时量子位将继续第一时间带来最新消息。另外根据网友推测，GPT-4o这么强，全都免费开放了，这是劝大家不续订ChatGPT Plus了的意思吗？那肯定不是啊～鉴于OpenAI春节期间在谷歌发布Gemini 1.5 Pro后半小时左右用Sora狙击了一把，明天OpenAI还有新活也说不定呢？直播回放

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31028

浏览量
269381
人工智能

人工智能

+关注

关注
1792

文章
47373

浏览量
238875
GPT

GPT

+关注

关注
0

文章
354

浏览量
15419

解锁 GPT-4o！2024 ChatGPT Plus 代升级全攻略（附国内支付方法）

ChatGPT Plus 每月 20 美元，OpenAI 承诺 Plus 用户享有更快的响应速度、优先使用新功能及最新模型，包括强大的 GPT-4o。本文将分享 2024 年 Chat

发表于 10-29 18:17 •1018次阅读

OpenAI解锁GPT-4o定制功能,助力企业精准优化AI应用

在8月21日的最新动态中，OpenAI 宣布了一项革命性的新功能，正式向企业用户开放其顶尖AI模型GPT-4o的定制能力。这一举措标志着OpenAI在激烈的企业级AI应用市场中迈出了重

发表于 08-21 16:06 •475次阅读

OpenAI提前解锁GPT-4o语音模式，引领对话新纪元

OpenAI近日宣布了一项令人振奋的消息：即日起，部分ChatGPT Plus用户将率先体验到GPT-4o的语音模式，这一创新功能标志着自然语言处理与人工智能交互技术迈出了重要一步。GPT-4

发表于 08-01 18:24 •1223次阅读

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

OpenAI推出了GPT-4o mini模型，用来取代GPT-3.5.这是目前市场上最具成本效益的小模型。该模型在MMLU上得分为82%，在LMSYS排行榜上的聊天偏好测试中表现优于

发表于 07-21 10:20 •1079次阅读

国内直联使用ChatGPT 4.0 API Key使用和多模态GPT4o API调用开发教程！

1. 前言 ChatGPT-4o API 是 OpenAI 提供的强大工具，可用于自然语言处理和多模态任务。在国内直联使用这些服务需要一些配置和技巧。本文将详细介绍GPT-4o模型以及如何获取

发表于 06-08 00:33 •5254次阅读

开发者如何调用OpenAI的GPT-4o API以及价格详情指南

目前，OpenAI新模型GPT-4o和GPT-4 Turbo的价格如下： GPT-4o 对比 GPT-4 Turbo GPT-4o 拥有与

发表于 05-29 16:00 •1.2w次阅读

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

功能和实际应用。 GPT-4 turbo****的增强功能 ChatGPT-4o带来了几个值得注意的升级，增强了性能和可用性： · 更快的

发表于 05-27 15:43

Azure AI Studio现已支持提供GPT-4o API

微软公司在最近的Build 2024开发者大会上宣布了一个重要更新。据微软CEO萨提亚·纳德拉介绍，Azure AI Studio现已支持OpenAI开发的最新旗舰模型GPT-4o，并作为API提供。

发表于 05-22 11:45 •809次阅读

GPT-4o更像“人”，AI“疾步”走向商业化应用

）等。OpenAI的CEO奥特曼称之为“人类级别的响应”。GPT-4o一出，各企业开始纷纷再度亮出“家伙什”了，微软宣布投资40亿欧元加码AI领域、谷歌一夜发布十几

发表于 05-22 08:04 •497次阅读

急！OpenAI再推王炸GPT-4o，算力跟得上吗？

近期，OpenAI 举办春季发布会，正式发布了 GPT-4o，掀起了全球AI大模型领域的新热潮。仅相隔一天，谷歌在其I/O开发者大会上发布「AI 全家桶」反击，展示了其

发表于 05-17 17:34 •425次阅读

OpenAI发布全新GPT-4o模型

近日，OpenAI宣布推出全新的GPT-4o模型，标志着人工智能领域的一大技术飞跃。这款模型不仅具备强大的生成能力，还能精准理解用户意图，提供智能化的回答。

发表于 05-17 11:48 •664次阅读

OpenAI正式推出GPT-4o模型，支持实时音频、视觉和文本推理处理

紧接着，OpenAI总裁暨联合创始人Greg Brockman发布了详细演示，展示了两部搭载GPT-4o的设备如何实现语音或视频交互。

发表于 05-15 10:26 •526次阅读

OpenAI推出面向所有用户的AI模型GPT-4o

在周一的直播盛会上，OpenAI揭开了其最新的人工智能模型GPT-4o的神秘面纱。这款新模型旨在为其著名的聊天机器人ChatGPT提供更强大、更经济的支持。GPT-4o是此前备受瞩目的GPT-4模型的升级版，自推出以来已满一年有

发表于 05-15 09:23 •408次阅读

OpenAI全新GPT-4o能力炸场！速度快/成本低，能读懂人类情绪

”的意思。GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平，速度是上一代AI大模型GPT-4 Turbo的两倍，但成本仅为GPT-4

发表于 05-15 00:15 •7848次阅读

OpenAI发布GPT-4o模型，供全体用户免费使用

OpenAI首席技术官穆里·穆拉蒂（Muri Murati）指出，GPT-4o具备与GPT-4相同的智能水平，且在文本、图像及语音处理方面有显著进步。

发表于 05-14 11:17 •521次阅读