0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

视觉语音交互毫无延迟,都成精了居然还不是GPT-5?

合宙LuatOS 2024-05-19 08:05 次阅读

OpenaAI给2024年5月14日的这场发布会取名“春季功能更新”,就像它们形容当初ChatGPT的发布是一次“低调的研究预览”一样。

而就像那次一样,一切也都回不去了。

OpenAI发布了一个叫做GPT-4o的新模型,它的确不是GPT-5,但看了它能做的事情,再想到它甚至不是OpenAI正在砸更多的钱和智慧在做的GPT-5,你只会感觉更“可怕”。

发布会一开始,OpenAI的CTO Mira Murati 介绍了新模型GPT-4o(是的,Sam Altman全程没有现身)。她强调这个模型是要给所有人使用,并且通过交互的更新让人们忘了UI的存在。因为OpenAI的愿景正是如此。

而到此这似乎还很正常。

“不过是新模型而已嘛。”

但直到demo环节开始,一切越来越离谱。

首先是一个实时对话的展示。

“我正在做demo,我有点紧张。”Mark说。然后他开始故意喘息的非常快。而GPT识别出了他的呼吸。

“哦,哦,哦,别紧张,慢下来。你不是个吸尘器。”ChatGPT的女人声音抑扬顿挫,没有任何延迟。

是没有任何延迟。你不需要等她,她也不会让你等,当你直接开始说接下来的话,她会立刻停下来听,并立刻做出调整。

而且在这些回答中,它甚至有喘息和犹豫的声音。

另一个很可怕的细节是,这些demo全程不需要任何多余的按键操作。

对,声音的对话就像是在“打电话”。

另一个demo是假设要给朋友讲一个关于机器人的睡前故事。

提出需求后,ChatGPT开始正常的讲故事。

但听的人并不喜欢,于是直接打断说,能不能讲的更有感情更drama一点。

ChatGPT立刻调整,增加了一些悬疑感。

“不不不,我希望把感情和drama感拉满。”听者再次直接打断。——也就是说ChatGPT在实时听着你的声音。

然后ChatGPT变成了一个非常浮夸的故事讲述者。

“你能不能用机器人的声音给我讲故事。”Mira又直接插话。

而ChatGPT立刻开始模仿机器人。注意,是模仿,也就是它的声音一直是那个女声,一切听起来就像家长在讲睡前故事时候会做的那样。

“你能最后唱一首歌把这个故事结束么。”听者又提了要求。

然后ChatGPT立刻唱了一首歌。根据刚才的故事,实时,改编,并直接唱出来的一首歌。

“如果你之前使用过我们的语音模式,你会注意到几个关键的区别。首先,你现在可以打断模型了。你不需要等它结束你的回合,你可以随时开始说话,随时插话。其次,模型的响应是实时的。这意味着你不需要再经历那种尴尬的两到三秒的延迟,等待模型回应。最后,当我刚才呼吸非常急促时,模型能够感知到情绪。它会提醒你,或许你需要放松一下,你的节奏快得有点过头了。所以你知道,它确实具有全面感知情绪的能力。不仅如此,这个模型还能以各种不同的情感风格生成声音,它真的具有非常广泛的动态范围。”

如果你是个创业者,或者熟悉大模型应用创业环境的人,你会立刻意识到。

又有一批创业公司死了。

之后是视觉能力的展示。

对,在同一个产品上。一个据说要免费提供给全世界所有人的产品上。

他先是展示了一个通过摄像头获得视觉能力,然后实时指导你的数学解题的demo。

甚至因为“幻觉”问题,ChatGPT在还没打开摄像头时候就自信满满的说理解了。当展示者提示后,她说“oops,我太兴奋了。”

然后展示者打开摄像头,实时写了一个数学方程题,然后让ChatGPT一步一步的提醒和讲解他在做的解题思路。ChatGPT很好的做到了。

像一个很有经验有耐心的数学老师那样。

这还没完。

似乎是为了打脸那些录制好加速后的demo,他们还实时收集了X上的反馈。其中一个挑战是:打开摄像头让ChatGPT实时分析你的情绪。

展示者开始摄像头自拍,而ChatGPT立刻分析道:

“你看起来是个桌子。”——因为打开摄像头时,最先打开的是前置的摄像头,对准的是桌子。

“不不不,那是之前的,你不用担心,我不是个桌子。”分享者说到。

“哈哈,那就合理了。”Chat GPT说到。

这里看的时候,估计很多人跟我一样惊了一下。

然后ChatGPT立刻分析:“你看起来非常开心。大大的笑容,甚至有一点兴奋。你想分享一下让你这么开心的原因么?”语气里甚至能听到好奇,以及斟酌语句的感觉。

“因为我在做实时展示,让大家看看你有多出色。”讲者说。

“哦,拜托,别让我脸红了。”ChatGPT带着笑声说到。

瞬间,《Her》降临。科幻成了现实。

看到这,所有人估计都明白了Sam Altman此前卖关子时候说的“magic”是什么。

在惊叹之余,还是再总结一下:

1 这些操作全程没有多余的点击操作的交互。

2 没有丝毫延迟的视觉和声音反馈。

3 不仅能感受到你的情感,ChatGPT也自带情绪和情感。

4 能对桌面等更数字化的世界有更全面的信息感知。

5 全部集成在一个产品里,而且可能是对所有人免费的。

哦对,以及,这还不是GPT-5。

发布会后,OpenAI也在官网更新了这次发布的模型的具体信息。

还记得ChatGPT第一次出来时,有人形容跟它第一次亲密接触的感受:

当你通过打字跟它交互的时候,等待它回答的过程仿佛能想象到对面坐着一个人,正在转笔,思考如何回答你的问题。

而今天,不只是你的叹气,情感和喘息能被AI感受到,你也能直接感受到对面的“人”的叹气,情感,和喘息。

在电影《Her》里,主人公最终爱上了这个AI助手。我们不知道GPT-4o加持下的新ChatGPT会带来什么。更不知道GPT-5出现后会发生什么。

一切都太快了,都回不去了。

最后,对所有开发者和创业者,这次发布又意味着什么?

也许这句当时有些被人不以为意甚至觉得冒犯的话值得再看一遍,它可能说明了一切:

目前有两种构建人工智能的策略:一种是假设模型不会改进,然后在现有的能力上建设一堆小东西;另一种是假设 OpenAI 将保持相同的增长轨迹(继续疯狂迭代)。我认为,95%的人应该押注在第二种策略上。我们有改进模型的使命,不是我不喜欢你们,但我们将碾压你。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    27602

    浏览量

    265199
  • 人工智能
    +关注

    关注

    1781

    文章

    45190

    浏览量

    232495
  • 语音交互
    +关注

    关注

    3

    文章

    277

    浏览量

    27860
收藏 人收藏

    评论

    相关推荐

    OpenAI CEO阿尔特曼:GPT-5将实现重大飞跃

    )在一次公开场合中,对即将问世的GPT-5寄予厚望,虽然具体的发布日期尚需时日揭晓,但阿尔特曼的言辞间透露出对下一代产品无限可能的期待。
    的头像 发表于 07-04 09:37 138次阅读

    OpenAI GPT-5:未来已来,但何时降临

    在人工智能领域的浩瀚星空中,OpenAI无疑是那颗最为耀眼的星辰。自其诞生以来,每一次的技术革新都牵动着全球科技爱好者的心弦。特别是当GPT-4在今年5月14日凌晨悄然降临,以其强大的语言理解和生成能力,再次刷新人们对于人工智
    的头像 发表于 07-03 15:51 180次阅读

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    与硬件外设的开发板,采用具备丰富组件生态的 Zephyr RTOS作为操作系统,官方提供十几种开源SDK,包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。聆思科
    发表于 06-18 17:33

    OpenAI CEO: GPT-4o and GPT-5引领未来12个月编程领域,GPT-5更具潜力

    据报道,OpenAI首席执行官阿莱夫·阿尔特曼在接受Redpoint风投公司LoganBartlett的专访中,透露了最近发布的GPT-40以及即将面世的GPT-5
    的头像 发表于 05-17 16:25 323次阅读

    OpenAI正式推出GPT-4o模型,支持实时音频、视觉和文本推理处理

    紧接着,OpenAI总裁暨联合创始人Greg Brockman发布详细演示,展示两部搭载GPT-4o的设备如何实现语音或视频交互
    的头像 发表于 05-15 10:26 264次阅读

    【Longan Pi 3H 开发板试用连载体验】给ChatGPT装上眼睛,并且还可以语音对话:8,GPT接入,功能整合完成项目

    的问题进行字符串拼接,形成输入GPT的提问。接下来与GPT交互交互完成后使用edge TTS把GPT返回的文字转为
    发表于 04-18 12:43

    OpenAI有望在年中推出全新GPT-5模型

    近日,人工智能领域的领军企业OpenAI传来了令人振奋的消息。据悉,他们有望在今年的年中,大约是夏季时分,推出全新的GPT-5模型。这一消息引发了业界的广泛关注与期待。
    的头像 发表于 03-22 11:29 514次阅读

    OpenAI预计最快今年夏天发布GPT-5

    OpenAI正计划在未来数月内,可能是今年夏季,发布备受瞩目的GPT-5模型。据悉,部分企业客户已提前体验OpenAI最新模型及其ChatGPT工具的改进版Demo。一位CEO在体验后赞不绝口:“它真的令人惊艳,相较于之前的版本,GP
    的头像 发表于 03-22 10:40 490次阅读

    新火种AI|秒杀GPT-4,狙杀GPT-5,横空出世的Claude 3振奋人心!

    3的出现意味着打开了一个全新的世界,其系列模型在推理,数学,编码,多语言理解和视觉方面,树立了全新的行业新基准。 也正是因为Claude 3的出现,全球最强AI模型一夜易主,曾经被认为不可一世
    的头像 发表于 03-06 22:22 386次阅读
    新火种AI|秒杀<b class='flag-5'>GPT</b>-4,狙杀<b class='flag-5'>GPT-5</b>,横空出世的Claude 3振奋人心!

    新火种AI|从GPT-5到AI芯片厂,山姆·奥特曼在下一盘多大的棋?

    标题:从GPT-5到AI芯片厂,山姆·奥特曼在下一盘多大的棋? 转发语:山姆·奥特曼暴露野心,同时挑战英伟达和台积电?
    的头像 发表于 01-26 09:54 263次阅读
    新火种AI|从<b class='flag-5'>GPT-5</b>到AI芯片厂,山姆·奥特曼在下一盘多大的棋?

    新火种AI|GPT-5前瞻!GPT-5将具备哪些新能力?

    《时代》杂志评为“2023年度CEO”。 也正因此, Sam Altman的一条推文,瞬间就可以成为轰动整个AI行业的信号,特别是当这条推文还与万众期待的“GPT-5”有关的时候。 2023年平安夜
    的头像 发表于 01-16 21:02 267次阅读
    新火种AI|<b class='flag-5'>GPT-5</b>前瞻!<b class='flag-5'>GPT-5</b>将具备哪些新能力?

    探讨Sam 和 Ilya 的深层矛盾

    有效加速主义 和 超级“爱”对齐 的理念冲突,以及一个变量:GPT-5 是数字生命,还是工具?
    的头像 发表于 11-24 11:28 280次阅读
    探讨Sam 和 Ilya 的深层矛盾

    OpenAI最新大模型曝光!剑指多模态,GPT-4之后最大升级!

    目前为止,OpenAI还没有对爆料中的传闻做出回应,但此前发布过多模态模型测试。CEO奥特曼在回应有关GPT-5的传闻时,也暗示过GPT-4“正在增强”。
    的头像 发表于 09-20 17:34 977次阅读
    OpenAI最新大模型曝光!剑指多模态,<b class='flag-5'>GPT</b>-4之后最大升级!

    GPT-5快来了?训练或需5万张H100显卡

    openai从gpt-4开始对技术细节进行了彻底的保密,最初只对一份技术报告进行了基准测试,而没有提及训练数据和模型参数。但是,gpt-4的培训需要大量的数据,并不是付费就能解决的问题。openai使用网络爬行动物。
    的头像 发表于 08-11 10:48 904次阅读

    OpenAI已为GPT-5申请商标,GPT-5要来了?

    OpenAI 此前曾在前几代模型(例如 GPT-4 和 GPT-3.5)的商标申请中,使用过同样的“用于使用语言模型的可下载计算机软件”这一描述。但很遗憾,最新申请文件中透露的唯一关键细节就只有“GPT-5”字样,并不代表 Op
    的头像 发表于 08-02 15:51 560次阅读
    OpenAI已为<b class='flag-5'>GPT-5</b>申请商标,<b class='flag-5'>GPT-5</b>要来了?