截杀ChatGPT-4o，谷歌系AI产品迎来全面升级-电子发烧友网

电子发烧友报道（文/周凯扬）作为算法巨头的谷歌，在AI时代发布了一系列AI产品，比如Gemini、Bard等。在AI行业日新月异快速迭代的局面下，即便是谷歌也需要加快开发速度，不断更新其AI模型和应用。近日举办的谷歌I/O大会上，谷歌宣布全面进入Gemini时代，并发布了一系列与AI相关的更新。

对标ChatGPT-4o，谷歌发布Project Astra

相信本周ChatGPT-4o的演示，已经令不少人期待起这个支持视听输入的实时AI助手，谷歌也不甘示弱，发布了Project Astra的演示，展示了他们对于未来AI助手的构想。Project Astra基于Gemini模型打造，支持视频和语音的输入，通过连续的视频帧编码和先进的语音模型，谷歌得以更快地处理输入信息。

相较其ChatGPT-4o更先进的是，谷歌的Project Astra还支持实时交互，比如在手机上圈选出实时视频画面中的一部分，让AI助手提供描述等。不仅如此，Project Astra将视频与语音输入转换成一连串的时间线事件，并缓存这些信息用于未来的高效回溯。

谷歌也对该项目未来的应用场景进行了构想，这些功能不仅可以用于手机端，更是可以用于AR眼镜，为用户提供交互式的AI助手体验。谷歌在外媒的采访中也证实，他们正在考虑为Project Astra打造新的AR眼镜的构想。他们认为对于AR设备来说，Project Astra很有可能成为新一轮的杀手级应用。

安卓迎来新一轮AI功能更新

在这个AI重塑手机体验的世代，而安卓作为全球用户技术最大的智能手机系统，谷歌也希望能用AI带去全新的设备交互方式。

圈选搜索解题 / 谷歌

自从在三星Unpacked大会上公布圈选搜索功能，谷歌已经为更多Pixel和三星设备加入了全屏翻译等功能。在I/O大会上，谷歌宣布为圈选搜索加入作业辅助的功能，比如面对某些物理和数学应用题，圈选搜索不仅可以给出答案，还可以列出具体的解题过程。

安卓上的Gemini已经成为新一代的助手应用，借助生成式人工智能来提供创造力和效率，而未来几个月内，谷歌将为其推送更新，可以在使用中的应用程序中唤醒，并将生成的图片、文字等拖拽到其他应用上。

Gemini Nano / 谷歌

至于端侧的Gemini Nano，同样将在今年年末迎来升级，引入多模态支持。为了做到离线使用和保证用户隐私，谷歌于去年底推出了Gemini Nano，而多模态的加入将引入对文本之外的视觉声音支持。以语音反馈功能为例，对于盲人或弱视群体，在面对无标签的图片时，Gemini Nano赋能的语音反馈功能将提供更多细节的描述。

谷歌同样借助Gemini Nano对语音的支持，引入了可选的防诈骗功能。通过在通话过程中检测到与诈骗相关的对话模式，手机就会自动发出实时警报，比如要求紧急转账、提供银行卡密码等。因为这些保护措施都是在端侧完成的，所以此类对话都是完全保密的，用户无需担心隐私泄露问题。

第六代TPU Trillium，性能与能效双提升

在本届I/O大会上，谷歌也宣布了AI基础设施的升级，其TPU将迎来第六代产品，Trillium。相较TPU v5e，谷歌扩大了MXU（矩阵乘法单元）的大小，并提高了时钟速度，使得Trillium单芯片的峰值计算性能实现了4.7倍的提升，能效提升67%。

同时谷歌还加倍了HBM内存的容量和带宽，更大的内存容量和带宽允许Trillium可以跑更多权重、更大KV缓存和更大规模的模型。谷歌称下一代的HBM带来了带宽提升和能效提升，改善了大模型的训练时间以及服务时延。

同样加倍的还有片间互联带宽，这使得Trillium的扩展性大大加强，单个服务器Pod内可借助定制的光学 ICI做到256个芯片互联，再借助谷歌的Jupiter网络扩展至数百个Pod互联。

从第一代TPU开始，谷歌已经将这一加速硬件集成到其提供的各种软件服务中，比如实时语音搜索、照片物体识别以及交互式语言翻译等等，当然也包括了最新的Gemini、Imagen和Gemma等模型。除此之外，一些行业模型也将从TPU中受益，比如自动驾驶模型、药物开发模型等。据谷歌预告，Trillium将于今年年末开放给谷歌云客户。

Gemini和Gemma迎来全面迭代升级

除了上面提到的安卓端Gemini新功能外，Gemini模型本身也将迎来新一轮升级。在Gemini 1.5 Pro发布后不到半年，谷歌就再次对其进行了升级，如今的Gemini 1.5 Pro将支持两百万Token的上下文窗口。

除此之外，谷歌还加强了Gemini 1.5 Pro的代码生成、逻辑推理和多轮对话交互能力。不仅音频和图像的理解能力也得到了进一步加强，不少特殊用例的模型响应控制也得到了提升，比如不同的对话角色和响应风格。无论是使用API的开发者还是谷歌云用户，现在都可以申请这一升级。

为了响应用户对低时延和低成本模型的要求，谷歌还推出了轻量版的Gemini 1.5 Pro：Gemini 1.5 Flash。Gemini 1.5 Flash专门针对高流量、高频率的任务进行了优化，支持100万的Token上下文窗口，而且支持文本、图片、语音和视频的混合输入。

开放模型Gemma同样迎来了升级，首先是新推出的视觉语言模型PaliGemma，其灵感来源自PaLI-3，支持图片和文本作为输入，可以回答有关图片的问题，并提供详细信息和上下文，可以用于对图片或短视频添加说明、对象检测等。其主要优势在于支持多模态理解，而且可以针对各种视觉语言任务进行微调，也有专门面向研究的版本PaliGemma-FT，可对特定的研究数据集进行微调。

Gemma 2性能测试对比 / 谷歌

此外还有下一代Gemma模型的更新，Gemma 2。Gemma 2是一个270亿参数的大模型，得益于全新的架构，在性能和效率上均实现了突破。相较于Meta的Llama 3 70B模型，其规模只有一半不到，却可以实现与之相近的性能。从预训练阶段的测试成绩来看，Gemma 2仅仅略微逊色于Llama 3，快于Grok-1。除了针对英伟达 GPU做了优化外，Gemma 2还可以高效地运行在单个TPU主机上，进一步降低了用户的部署成本。目前Gemma 2依然还在预训练阶段，预计将于今年六月推出。

写在最后

谷歌通常会将年度I/O开发者大会的舞台用于发布Android系统，以及Pixel智能手机的下一代更新。但从今年的发布内容来看，谷歌已经全面转向了AI产品的开发。无论是Android 15的下一个Beta版本，还是Pixel 8a，都只是被短短提及而已。由此可以看出，谷歌已经将下一轮软硬件的革新全面押注在了AI上，未来我们将见证一个围绕AI开发产品矩阵的新谷歌崛起。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6166

浏览量
105352
AI

AI

+关注

关注
87

文章
30830

浏览量
268996
ChatGPT

ChatGPT

+关注

关注
29

文章
1560

浏览量
7625

AI眼镜形态席卷可穿戴市场！谷歌眼镜几次“流产”，将靠AI翻盘

电子发烧友网报道（文/莫婷婷）在ChatGPT进化史上，绕不开的一家厂商是谷歌。2024年12月，谷歌发布 Gemini 2.0，该产品被称为登顶

发表于 12-26 00:12 •263次阅读

万物皆AI 基于联发科科技 MTK Genio 130 结合 ChatGPT 功能的解决方案

AIChatGPT

大大通

发布于 :2024年11月12日 14:20:21

解锁 GPT-4o！2024 ChatGPT Plus 代升级全攻略（附国内支付方法）

Plus 的实际使用体验，并提供国内支付方案，助您做出明智的订阅决策。 ChatGPT Plus 核心优势最新 AI 模型: 体验 GPT-4o、o1-preview 和

发表于 10-29 18:17 •805次阅读

蚂蚁数科以AI全面升级云产品

蚂蚁数科近期宣布了一项重大战略决策，即以AI技术全面升级其云服务产品矩阵，并推出“四新”战略。蚂蚁数科副总裁余滨在公开场合表示，公司将从底层技术平台到上层运营工具进行

发表于 10-18 17:20 •690次阅读

华纳云：ChatGPT 登陆 Windows

ChatGPT 现已在 Windows 上推出。今天，OpenAI宣布已开始预览其 AI 聊天机器人平台ChatGPT的专用 Windows 应用程序。 OpenAI 表示， ChatGPT

发表于 10-18 15:50 •240次阅读

启明智显：深度融合AI技术，引领硬件产品全面智能化升级

启明智显，作为AI领域的先行者，正以前所未有的决心和行动力，深度融合先进的人工智能技术，引领硬件产品全面智能化升级

发表于 07-18 16:11 •403次阅读

超ChatGPT-4o，国产大模型竟然更懂翻译，8款大模型深度测评｜AI 横评

随着AI工具的不断增多，各家模型的能力也日益提升，现在无论哪款大模型几乎都能够处理各种翻译难题。在AI浪潮当下，越来越多的论文和前沿信息需要快速翻译和解读，依赖传统的翻译工具依旧面临“翻译质量不稳定

发表于 07-14 08:04 •128次阅读

国内直联使用ChatGPT 4.0 API Key使用和多模态GPT4o API调用开发教程！

1. 前言 ChatGPT-4o API 是 OpenAI 提供的强大工具，可用于自然语言处理和多模态任务。在国内直联使用这些服务需要一些配置和技巧。本文将详细介绍GPT-4o模型以及如何获取

发表于 06-08 00:33 •4944次阅读

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

功能和实际应用。 GPT-4 turbo****的增强功能 ChatGPT-4o带来了几个值得注意的升级，增强了性能和可用性： · 更快的响应时间和更高的准确性：是客户服务和其他快节奏环境中所

发表于 05-27 15:43

两小时“吼出”121次AI，谷歌背后埋伏着Open AI的幽灵

谷歌做AI依旧不痛不痒谷歌和OpenAI的又一次对阵，刚刚落幕了。北京时间5月14日凌晨，OpenAI发布端到端多模态AI大模型GPT-4o

发表于 05-19 08:05 •391次阅读

谷歌发布多模态AI新品，加剧AI巨头竞争

在全球AI竞技场上，谷歌与OpenAI一直稳居领先地位。近日，谷歌在I/O开发者大会上掀起了一股新的技术浪潮，发布了多款全新升级的多模态

发表于 05-16 09:28 •450次阅读

OpenAI推出面向所有用户的AI模型GPT-4o

在周一的直播盛会上，OpenAI揭开了其最新的人工智能模型GPT-4o的神秘面纱。这款新模型旨在为其著名的聊天机器人ChatGPT提供更强大、更经济的支持。GPT-4o是此前备受瞩目的GPT-

发表于 05-15 09:23 •401次阅读

新火种AI|挑战谷歌，OpenAI要推出搜索引擎？

作者：一号编辑：美美在AI革新的浪潮下，谷歌搜索迎来了越来越多的“挑战者”。最近，据多家外媒的消息，有知情人士透露，OpenAI正计划上线一款基于ChatGPT的大型

发表于 05-07 22:06 •363次阅读

在FPGA设计中是否可以应用ChatGPT生成想要的程序呢

当下AI人工智能崛起，很多开发领域都可看到ChatGPT的身影，FPGA设计中，是否也可以用ChatGPT辅助设计呢？

发表于 03-28 23:41

【国产FPGA+OMAPL138开发板体验】（原创）6.FPGA连接ChatGPT 4

访问ChatGPT 4这样的AI模型是非常复杂的，因为这涉及到大量的数据传输、协议实现、并行处理、优化等等。更重要的是，ChatGPT 4这

发表于 02-14 21:58