0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

有视觉记忆的Agent、大变身的搜索、更强的AI全家桶和大一统的Gemini|现场围观Google I/O的绝地反击

合宙LuatOS 2024-05-17 14:36 次阅读

今年的Google Shoreline圆形剧场,弥漫着一种前所未有的角斗场般的气息。

前一天OpenAI用GPT-4o和全新的ChatGPT把全世界掀翻,而Google要在今年甚至最近几年最重要的一场Google I/O上做何应对,似乎成了唯一的主题。

事实上,据OpenAI的人士透露,GPT-4o是一个至少两年前就已经开始开发的模型,而硅谷AI圈子之小,互通有无之频繁,其实不仅OpenAI有机会故意选在Google的大会前狙击Google,后者同样也会对此有所预期。

所以,当Pichai走上舞台中央时,一场反狙击开始了。

在这场持续两小时的发布中,Google有攻有守。

它对自己的看家业务搜索做了最彻底的一次AI化改造,还再次全面更新了Gemini模型家族。

守住OpenAI们猛攻的方向,同时发起进攻。

一方面很有火药味的发布了效果超过Sora的模型Veo,并且是可以立刻申请体验的产品;另外还展示了与GPT-4o 相似的语音视觉交互功能Gemini Live,同时,还更进一步推出了比OpenAI等对手更激进的AI智能体Project Astra。

以下为现场实录。

1

Gemini,Gemini,还是Gemini

当Google CEO Sundar Pichai走上台,在他的前几分钟讲话里,Gemini的频率甚至超过了Google这个词。

Gemini是去年Google I/O上正式推出的最核心的模型,而一年以后,Google已经用它完成了对自己内部的“大一统”。模型是Gemini,智能助手是Gemini,Android的核心是Gemini。甚至,Pichai都不叫自己Googler了,他们叫:

Geminier。

而当天大会上Gemini模型首先进行了更新。此前几个月,Gemini 1.5的长文本版本以预览版本推出,今天它正式对所有人发布。此前的Gemini 1.5版本上下文长度为100万token。而Pichai似乎轻描淡写的公布:

新版本长度再次刷新,达到200万token。

现场的开发者爆发出当天的第一阵欢呼。

“我们正式进入了Gemini时代。”Pichai直入主题说。目前有超过1500万开发者在使用Gemini做开发。而Gemini最近三个月时间达到了100万订阅用户。

关于Gemini的具体信息,自然是由Deepmind的CEO Demis Hassabis来讲。这也是这位传奇人物第一次Google I/O演讲。

在他的演讲中,第一个发布是Gemini 1.5 flash。这是一个针对端侧的模型,同样有100万和200万token的版本。这似乎指向了Google接下来对端侧的野心。

排排队

“我们总有很多模型同时在训练,我们会用我们最强的模型来帮助小模型。”

而对于此前推出的单独版本的Gemini App,Google也做了更新,推出了更高级别的订阅服务Gemini Advanced。也就是对标ChatGPT Plus的最高级别服务。

在这个服务里,一个新的功能看起来正是对昨天ChatGPT的更新的回应——Gemini Live。你可以在Gemini里实时无延迟地打电话来与AI互动,也就是GPT-4o昨天做的事情。遗憾的是这部分只是一带而过,看起来Google更多是想说,哪怕晚一天,也要告诉世界,不是只有你能做。

不过现场似乎对此略显失望,人们显然希望看到更多针尖对麦芒的发布。

2

有视觉记忆的AI Agent

于是,大的来了。

一个充满野心的AI Agent。

面对OpenAI的进攻,不能只是防守。Google也需要一些更加激进的东西来反击。这个东西就是Project Astra。这是一个还在研发中的AI Agent,而Pichai形容Google的梦想一直就是做出一个强大的AI Agent。

Google Deepmind CEO Hassabis亲自上台,讲解和展示了Astra的一个原型的运作视频

是的,一个意味深长的交接

在展示中,一开始一切都和我们见过的AI Agent差不多,可以通过用户打开的摄像头识别物体,与用户实时语音交互。而惊人的一刻在最后到来,当用户带着Astra走了一大圈后,突然提出一个此前没有涉及到的问题:

“你记得我把眼镜放哪了么?”

这是此前没有询问的问题,但摄像头扫过的时候Astra曾“看”到过他的眼镜,而AI Agent居然以视觉的形式记录了下来。

“你的眼镜在桌上苹果旁边。”Astra回答道。

这让现场一阵惊呼,也是此次发布会上最长的一次掌声。

此外,Google还明显针对Sora做了一次进攻。发布了一款全新的视觉模型,Voe。这是Google过往许多视觉模型的集大成者,也可以看作Sora逼迫下的一次内部资源整合。

在Voe的展示中,用户可以通过点击扩展,而继续增加视频生成的时长,这让它可以超过了Sora一开始的1分钟,并且可以保持一致性。

Google还着重展示了他们开发这些产品过程里与艺术家的合作。似乎也在隔空喊话那些对Sora不满的艺术家,来这里来这里,我更好。

3

终于对搜索下手:Google搜索最大的一次改造

除了对OpenAI的进攻的反应,人们也关心一件事:Google的搜索改造得怎么样了。

Google什么时候对搜索下手,是所有人期待的那个重要时刻。OpenAI此前的烟雾弹,Perplexity不停地碰瓷,都让Google一直显得太过安静。而这一次终于有了最大的一次更新和变化。

当数亿美国用户今天打开Google时,他们将看到近几年最大变化的Google。

AI overview,也就是AI生成的搜索答案总结,会出现在所有人的搜索框下。

而且,这个总结并不是一个固定的模版,而是根据你的问题进行调整。

比如,Google可以根据你的问题帮你做规划。这时候在搜索框下,会显示正在进行的步骤,然后在Overview里展示给你不同卡片,把需要的信息整理出来提供给你。

Google表示这是必须有强大的实时搜索才能做的,言外之意,那些没有搜索能力基础的公司,就别来碰瓷了。

而搜索的改造也只是个开始,它看起来很像是要变成Google激发用户AI需求的一个超级入口。

比如Google展示了一个场景,当用户哪怕不知道自己该具体问什么的时候,Google也可以给你推荐,与你做头脑风暴。而此时这个搜索的界面也进一步完全变成了另一个样子。像是不同卡片的信息流,每一个都可以进一步操作。

“Google会替你Google。”这是Pichai对此的定义。

更进一步,Google还展示了一个用实时视频对话来搜索的功能。而这也是全场进行了半小时后的第一次Live demo的环节。

dc802d2c-1417-11ef-bb9f-92fbcf53809c.jpg

现场一度过于安静,人们等待Live demo,这个小车带着一台电脑被推上来时,大家骚动了一下

当你买了一台唱片播放器,但你对此毫无了解,它出了播放问题,但你不知道问题到底在哪里的时候,你可以直接打开摄像头拍摄并询问。

而Google直接给出了AI整理的答案和解决建议。

“这就是Gemeni时代的搜索。”Pichai说。现场掌声再次响起。

dc916da8-1417-11ef-bb9f-92fbcf53809c.jpg

4

对全家桶的AI能力进一步改造升级

Google I/O上的保留节目是对全家桶的新功能展示。而Gemini时代来了,这些全家桶也自然要更新。

Pichai在当天展示的第一个应用案例,是“Ask Photo”。9年前,Google Photo发布。每天有60亿的照片视频上传。Gemini让AI编辑更简单。

你现在可以ask photo,与照片进行对话。比如,你可以问Photo app,“我的汽车牌照是多少”。然后Gemini就在照片里寻找出来你的车告诉你答案。

或者你可以询问Photo,“我女儿是什么时候学会游泳的”,然后还可以进一步询问,“她的进步是怎样的”。Photo都可以把对应的照片和视频给你展示出来。这对于每天都抱着手机看自己宝贝孩子成长历程的人们来说,实在是太有用了。

这个功能的展示也让全场一阵欢呼。

此外Workspace也有了很多新功能,Google还展示了一个基于多模态能力的教学工具,你可以用语音提出教学要求,比如“给我一个用篮球解释力学原理的案例”,Motion就会自动用很自然的语音讲出来。

另一个让现场观众眼前一亮的功能,是Android对Gemnini的使用。现场展示的一个live demo中,一个诈骗电话打来,像我们经常遇到的电话那样,在一通义正严辞的提醒后,对方要求你把钱转到一个安全的账户。

而就在这句话说出来时,Gemini被激发了,直接弹出一个警告框,阻止了电话的继续进行。

全场响起可能是当天第二长的一次欢呼。

在发布会的最后,Pichai做最后总结时开玩笑说,肯定有人在数,我今天说了多少次AI。

“不用数了,Gemini数完了。”

然后大屏幕显示120。

“我说了这么多次AI。”

dcbd4090-1417-11ef-bb9f-92fbcf53809c.jpg

然后Gemini又加了1,变成了121。

现场都笑了。

很明显,Google依然正在一个整合资源的过程里。无论是对全家桶的能力提升,还是对搜索的改造,背后都是一个逻辑,要把Google这么多年积累下来的能力和资源用起来,由Gemini来做唯一的大脑,改造一切,守住并继续抢夺新的用户。

Google不会轻易下牌桌,AI大战会继续进行下去。

以下为当天Google I/O上各种发布的更多信息:

(1)Gemini 1.5 Flash :更快、更经济的轻量化推理模型

为了满足用户对低延迟和低成本的需求,谷歌首先带来轻量化模型Gemini 1.5 Flash。它专为大规模服务设计,速度更快、成本低至0.35美元每百万tokens。

尽管1.5 Flash体积小巧,仍实现了100万个标记的长上下文窗口,开发人员还能注册尝试200万个标记。此外,它在跨大量信息的多模态推理方面表现出色,适用于摘要、聊天应用、图像和视频字幕、长文档和表格的数据提取等多种任务。

这种强大性能来源于“蒸馏”技术,该技术将1.5 Pro中最重要的知识和技能转移到更小、更高效的模型中。从今天起,超过200个国家的用户都可以在Google AI Studio和Vertex AI中使用Gemini 1.5 Flash。

(2) Gemini 1.5 Pro 迎来重大升级:200万上下文、更强大的推理和理解能力

今天起,Google最先进的多模态大模型Gemini 1.5 Pro 将在 Gemini Advanced 中直接供消费者使用100万标记上下文窗口,并在私人预览中扩展到 200 万标记。这使得Gemini 1.5 Pro能处理更更大量的复杂信息,生成更准确、更细致的输出。

同时,通过数据和算法改进,增强了模型的代码生成、逻辑推理和规划、多轮对话以及音频和图像理解能力。升级后的Gemini 1.5 Pro在MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema等多项公共基准测试中取得了显著改进,在多项图像和视频理解基准测试中也实现了最先进性能。

此外Gemini 1.5 Pro还能够遵循越来越复杂和细微的指示,包括指定产品级行为的指示,如角色、格式和风格等。谷歌也在 Gemini API 和 Google AI Studio 中增加了音频理解,支持跨图像和音频进行推理。

用户可以通过 Gemini Advanced 订阅服务体验最新的Gemini 1.5 Pro,支持超过150个国家的35种语言。

(3) 首个AI Agent产品Project Astra

Hassabis表示,Project Astra旨在像人类一样理解和响应复杂的动态世界,记住所见所闻以理解上下文并采取行动。同时,它需要主动、可教和个性化,使用户能够自然地与之交流,无延迟。

其挑战之一是将响应时间缩短到对话级别,这是一个困难的工程难题。Astra基于Gemini和其他特定任务模型,通过持续编码视频帧、将视频和语音输入结合到事件时间线上,并缓存信息以便高效回忆,从而更快地处理信息。

“基于 Gemini 模型,我们开发了能够高效调用视频帧和语音输入的代理,并增强了其语调范围,使其更好地理解上下文并快速响应。” Hassabis补充道。

未来,用户就可以通过手机或眼镜拥有一个专家级别助手。今年晚些时候,这些功能将出现在Gemini应用程序等Google产品中,如Gemini应用程序。

(4)Veo:比Sora更强的视觉模型

Veo能够生成超过一分钟的高质量1080p视频,涵盖多种电影和视觉风格。据介绍,Veo具备高级的自然语言和视觉语义理解能力,能准确呈现细节并捕捉情感基调。它理解“延时摄影”等电影术语,提供高度创作控制,生成的镜头中人、动物和物体的运动非常真实。

Google已邀请电影制片人和创作者试用Veo,并根据他们的反馈改进技术。Veo基于Google多年生成视频模型的工作,如GQN、DVD-GAN、Imagen-Video等,结合新技术提高质量和分辨率。Veo将作为VideoFX的私人预览提供给特定创作者,所有人可申请注册候补名单,未来可能直接引入YouTube Shorts。

(5)Imagen 3发布,文生图模型升级

Imagen 3是Google最高质量的文本到图像生成模型。它能生成细节丰富、栩栩如生的图像,视觉干扰明显少于之前的模型。并且能更好地理解自然语言和提示背后的意图,结合长提示中的细微细节,掌握多种风格。它还是迄今为止Google最好的文字渲染模型,使生成个性化生日祝福和演示文稿标题页成为可能。

从今天起,Imagen 3将作为ImageFX中的私人预览提供给特定创作者,用户可以注册加入候补名单。很快,Imagen 3也将在Vertex AI上提供。

此外,Google还设计并构建了音乐AI工具Music AI Sandbox,旨在为创意打开新的天地,让人们从零开始创作新的器乐部分并以新的方式转换声音。

(6)AI搜索

Gemini时代的搜索正在全面改变搜索的呈现方式、服务体验和广告方式。首先,美国用户将体验到近年来最大的交互界面变动。搜索框下方的信息会先呈现一个AI生成的概览,据Google透露,用户已通过搜索实验室数十亿次使用AI概览。这一功能增加了搜索频率,并提高了用户对搜索结果的满意度。本周,数亿用户将可使用AI概览,预计到年底覆盖超过十亿人。

搜索也不再是“一次性”的服务,而是一个AI智能体的入口。用户提出复杂问题后,AI会将其分解为小模块,提供准确的答案和建议,还可以根据问题和搜索结果为你拟定计划。例如,用户可以搜索“创建一个易于准备的3天餐计划”,获得来自网络的各种食谱,并能提出进一步需求和修改建议使答案更个性化,再快速将餐点计划导出到Docs或Gmail,“一条龙”式服务极大提升了搜索的实用性和便捷性。

此外,AI不仅提供答案,还能主动帮助用户寻找灵感并进行头脑风暴,创建AI组织的结果页面。未来,Google还会推出视频AI搜索功能。

这种改动也对广告产生了影响。Google表示,通过AI概览,用户会访问更多样化的网站,以解决更复杂的问题。AI概览中包含的链接获得的点击次数比传统网页列表更多。随着这一体验的扩展,Google将继续专注于为出版商和创作者带来有价值的流量,广告仍会出现在专用位置,并清晰标注以区分有机和赞助结果。

——从回答、计划、需求定制到组织和视频搜索,Google都会替你完成,而你需要做的只有提问。

(7)TPU

十多年来,Google一直在开发专用的AI硬件——Tensor Processing Units(TPU)。今天大会上展示的Gemini 1.5 Flash、Imagen 3和Gemma 2.0这些创新模型都是在TPU上训练和部署的。今天,谷歌也推出自己迄今为止性能最高、能效最优的第六代TPU——Trillium。

Trillium TPUs提供比TPU v5e高4.7倍的峰值计算性能,同时将高带宽内存(HBM)和芯片间互连(ICI)带宽翻倍。配备第三代SparseCore加速器,能更快地训练基础模型并降低延迟和成本。其能效比TPU v5e提高67%以上,是最可持续的TPU。它也可以在单个集群中扩展到256个TPU,并通过多切片技术和Titanium IPU扩展到数百个集群,构建大规模的超级计算机。

多项技术突破使得Trillium TPUs能够大幅提升AI工作负载训练和服务性能,处理更大模型,提升计算能力,改进大模型训练和服务性能。

(8)Gemini on Android

Google此次也在安卓平台上推出一系列全新AI功能,将搜索和智能服务提升到一个新的水平。此前,"Circle to Search"允许用户无需切换应用即可搜索,现在起它还可以作为学习伴侣,解答数学题、图表等复杂问题。目前这一功能已在超过1亿台安卓设备上提供,预计到年底这一数字将翻倍。

在与朋友的信息对话中,用户可以随时召唤Gemini生成图片,针对YouTube教程视频或较长的PDF文档提出特定问题,Gemini会在几秒钟内提供解答,就像把数据中心装进了口袋。

端侧模型上,接入具备多模态能力的Gemini Nano。用户可以询问照片信息或获取关于服装搭配的意见。Gemini Nano还将集成到Android Studio中,为开发者提供助力。此外,当收到不明诈骗电话时,AI系统还会自动发出警报,提示用户可能存在诈骗风险。

总之,Gemini正在将AI融入所有安卓平台的服务和应用中,为用户带来更加智能和便捷的使用体验。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Googl
    +关注

    关注

    0

    文章

    4

    浏览量

    10333
  • AI
    AI
    +关注

    关注

    87

    文章

    27513

    浏览量

    265162
  • 人工智能
    +关注

    关注

    1781

    文章

    45041

    浏览量

    232421
收藏 人收藏

    评论

    相关推荐

    AI商业化的考卷,360选了搜索来答

    广告之外的第二条路。随着AI技术的发展,搜索引擎领域正经历巨大变革。截至今年4月,美国人工智能搜索公司PerplexityAI上线仅15个月,访问量已突破10亿次,迅速成为谷歌的重要竞
    的头像 发表于 06-16 08:04 148次阅读
    <b class='flag-5'>AI</b>商业化的考卷,360选了<b class='flag-5'>搜索</b>来答

    开发者申请Gemini 1.5 Pro API Key:轻松获取Gemini 1.5 Pro模型API Key并开发部署AI应用

    Google Gemini Pro 1.5重大更新:新增音频理解、单次处理任何格式数据、更强大的函数调用和JSON模式,DataLeanrerAI实测音频理解能力优秀,且同时Gemini
    的头像 发表于 06-10 18:21 518次阅读
    开发者申请<b class='flag-5'>Gemini</b> 1.5 Pro API Key:轻松获取<b class='flag-5'>Gemini</b> 1.5 Pro模型API Key并开发部署<b class='flag-5'>AI</b>应用

    Google Calendar、Tasks和Keep应用将整合Gemini模型

    在今日举行的I/O 2024开发者大会上,谷歌公司带来了一项令人兴奋的新功能:在Google Calendar、Tasks和Keep应用中整合了Gemini模型,为用户带来前所未有的AI体验。这一创新举措将极大地丰富用户在日程管
    的头像 发表于 05-15 11:24 375次阅读

    Google Workspace融入Gemini,带来全新工作体验

    据报道,5月15日I/O 2024开发者大会期间,谷歌宣布Google Workspace将深度融合Gemini,并在侧边栏引入基于Gemini 1.5 Pro的多项实用功能。
    的头像 发表于 05-15 11:13 179次阅读

    谷歌Gmail将支持Gemini总结电子邮件内容

    谷歌透露,Gemini 将协助 Workspace 和 Google One AI Premium 的用户理解和处理电子邮件内容。用户可通过移动应用和网页版 Gmail 使用 Gemini
    的头像 发表于 05-15 11:11 237次阅读

    谷歌Google Calendar、Tasks与Keep应用中成功整合Gemini模型

    谷歌于今日发布的I/O 2024开发者大会新闻中展现了其在Google Calendar, Tasks以及Keep应用中整合Gemini模型的最新进展,为用户呈现出更为智能化的使用体验。
    的头像 发表于 05-15 11:10 153次阅读

    苹果与谷歌探索iOS/iPadOS引入Gemini模型

    确认Apple与Google确已开启会谈,下一代iPhone或将搭载Gemini的生成式AI模型。三位知情人士表示,如今的谈判尚属初级阶段,潜在交易的具体细节暂未确定。
    的头像 发表于 03-20 10:38 259次阅读

    谷歌AI Gemini1.5评OpenAI Sora生成视频:评价负面

    此前,两家科技巨头分别推出自家创新技术: Google Gemini 1.5 Pro与OpenAI文本视频转换工具Sora。Sora的发布时间备受瞩目,有人质疑OpenAI有意分散公众对Google
    的头像 发表于 02-19 14:18 392次阅读

    谷歌AI聊天机器人改名为Gemini

    谷歌(Google)近日宣布,旗下备受瞩目的AI聊天机器人Bard正式更名为Gemini,并推出了一款功能更加强大的付费版本——Gemini Advanced。这一战略调整旨在与微软、
    的头像 发表于 02-18 11:28 729次阅读

    谷歌DeepMind资深AI研究员创办AI Agent创企

    近日,刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦,此前曾担任谷歌DeepMind的首席开发人员,自去
    的头像 发表于 02-04 10:02 465次阅读

    AI Agent爆发在即!深剖AI Agent技术原理及发展趋势

    电子发烧友网报道(文/李弯弯)AI Agent指人工智能代理,是一种能够感知环境、进行决策和执行动作的智能实体。AI Agent通常基于机器学习和人工智能技术,具备自主性和自适应性,在
    的头像 发表于 01-12 01:01 2895次阅读

    谷歌发布新的AI SDK,简化Gemini模型与Android应用程序的集成

    对于 Android 应用程序,Google 提供了 Google AI Client SDK for Android,它将 Gemini REST API 封装为惯用的 Kotlin
    的头像 发表于 01-03 16:29 646次阅读

    Gemini到来是否会对大模型市场带来冲击?

    在今年 5 月的 Google I/O 大会上,皮查伊首次透露了 Google 正在研发一款多模态基础模型 Gemini,下一步 Google 所有产品都将基于它们,包括
    发表于 12-29 11:10 141次阅读
    <b class='flag-5'>Gemini</b>到来是否会对大模型市场带来冲击?

    谷歌推出Gemini 希望击败GPT-4

    Gemini不仅仅是一个单一的人工智能模型。有一个简单版本叫Gemini Nano,旨在在安卓设备上离线运行。有一个更强大的版本叫Gemini Pro,很快将为谷歌的许多人工智能服务提
    的头像 发表于 12-14 17:30 574次阅读

    我们心中AI Agent的现在和未来

    在大模型技术上领先的 OpenAI 同样对 AI Agent 十分感兴趣,它们的首席科学家 Ilya Sutskever 不止一次表达过 OpenAI 对 AI Agent 技术的关注
    的头像 发表于 11-09 16:20 478次阅读