谷歌 I/O 开发者大会:Jeff Dean登场,压轴的谷歌 AI-电子发烧友网

美国时间 5 月 7 日，谷歌 2019 年 I/O 开发者大会在山景城总部开幕，为期三天。

在开幕式上，谷歌宣布了诸多亮点，比如更贴近用户的搜索功能，更强大的 AI 与语音助手，内置在安卓系统中的语音转文字功能，新款 Pixel 3a 和 3a XL 中端手机，Nest Hub Max 智能家居设备，还有安卓 Q 系统更新等等。

“To Be Helpful”是整场大会的主题之一。因此，无论是产品演示，还是演讲者，几乎全都从安全、隐私和实用的理念出发，透露出与往届 I/O 大会不同的务实风格。

图 | 谷歌AI领军人 Jeff Dean: 为每一个人打造一个更有帮助的谷歌

即使是最后登场的谷歌 AI 领军人 Jeff Dean，也是以现有研究成果出发，强调了 BERT 模型在自然语言处理领域取得的建树，以及 AI 技术在健康和环境领域的应用潜力，并未带来令人眼前一亮的惊艳机器学习新成果。

不过从另一个角度来看，这或许才是科技本身应有的样子：一项高科技，无论初见有多惊艳，最终只有成为像空气一般的存在，让我们几乎察觉不到它，却又依赖于它，才能让我们开始享受它的价值，进而真正地享受生活。

这也是谷歌 2019 年 I/O 开发者大会带给我们的启示。

图 | 谷歌I/O大会开场

“黑科技”开场，奠定务实风格

一开场，谷歌就遵循一贯风格，直接亮出了人们喜闻乐见的“黑科技”。

副总裁 Aparna Chennapragada 率先介绍了谷歌的最新视觉技术：巧妙地整合摄像头和增强现实（AR）技术，强化谷歌搜索结果的互动性和实用性。

她在谷歌上搜索出的二维图片，可以直接转换成三维模型，并通过摄像头放在真实环境中。

无论你搜索的是人体骨骼，一双鞋，还是一条鲨鱼，都没问题，只要谷歌制作了 3D 模型，就可以通过摄像头，展示在现实场景中，供用户查看效果。它们不仅可以活动，还能够接受放大、缩小、运动和转移等操作指令。

可以肯定的是，3D 化的搜索结果不仅仅停留在有趣这一阶段，它可以给用户带来更直观的使用体验和感受，加深对物体运作机制的理解程度。

想象一下，如果你想知道心脏长什么样子，除了看到实物，有什么东西能比一个会跳动的、可以放大缩小和分解的立体模型更加形象的呢？尤其是它可以随时随地出现在任何地方，AR 技术的价值进一步得到了挖掘。

图 | 搜索出的大白鲨以 AR 形式出现在演讲台上

除了强化搜索结果，谷歌还通过 Google Lens 程序，让手机摄像头变得更有价值。

如果你新到一家餐馆，不知道有什么特色菜，没关系，只要拿出手机，打开 Google Lens 程序，对准菜单，它就可以根据已有点评，标注出大多数人推荐的特色菜。

如果你去法国旅游，却不会法语，看不懂路标，没关系，只要拿出手机，打开 Google Lens 程序，对准路标，它就可以识别上面的法语，直接翻译成中文和英语等十多种语言，还可以直接朗读出来，让语言不再成为交流和旅游的障碍。

如果你想看菜谱学做菜，没问题，Google Lens 配合食谱制造商，录制预先制作的烹饪视频，只要将镜头对准菜谱文字，就会有实际演示视频跳出来，为你展示如何操作。

这些都是非常贴近日常生活的实用功能，如果实际操作效果与演示效果相符，那么将极大地方便我们的生活。

图 | Google Lens可以翻译多种语言的不同标志

谷歌在现场播放了一段视频，讲述了印度的试点项目。视频中，一名不识字的印度母亲依靠着 Google Lens 程序，终于可以以听的方式理解书上的内容，孩子的作业，路上的标识，餐馆的菜单等等，最后无需别人的帮助，单独完成很多任务。

虽然在普通人看来，她完成的都是些琐碎小事，比如去 ATM 取钱和预订火车票，但对于她来说，这就像打开了生活的另一扇门。

由此可见，谷歌贯彻的“To Be Helpful”的理念，意味着技术应该能够真正帮助有需要的人提高生活质量。

图|印度母亲使用Google Lens帮助自己看懂包装盒上的字

谷歌最后强调，这种技术结合了自然语言处理、机器视觉、以及谷歌 20 多年来的搜索信息才能实现，但代码只有 100 KB 左右，所以无需高端设备就可以运行。

这项功能将加入 Google Go 应用中。对视觉障碍者，以及不会外语的人来说，这无疑是获取信息的新方式。目前，Google Go 已经能支持数十种语言，售价为 35 美元。

不得不说，谷歌选择用直观的视觉技术作为开场，非常机智。不仅契合主题，突出了实用性，还成功塑造出眼前一亮的感觉，调动了观众的积极性。但是稍显可惜的是，这些演示或许是整场大会最有看点的部分了。

更强大、更懂你的AI语音助手

在去年的 I/O 大会上，谷歌的语音助理技术推出新功能 Google Duplex，让 AI 打电话预订餐厅，因其声调语气相当逼真，接电话的人没察觉，该技术一鸣惊人，但引起了一些争议。

在今年的 I/O 大会上，谷歌也演示了新功能，包括一句话开启驾驶模式和更先进的 Duplex on the web，也就是“Duplex 可以帮忙执行网页上的任务”。

例如用户可以呼出语音助理，要求它上网帮你预订一台车，然后语音助理就会进入租车网站，帮你填写姓名、住址，甚至是偏好车型等信息，并要求你确认。

图 | 语音助手帮你租车

它还利用知识图谱来进行个人推荐。根据用户的使用习惯，AI 能更好地理解用户的语音指令，可以通过语音瞬间打开 App，并且可以使用连续的语音指令，而不需要每次都说出唤醒词。比如 AI 可以追踪一连串语音指令：打开地图，播放音乐，打开相册，搜索有动物的照片，发送给某人，它能根据一系列语音指令按顺序完成相应动作。

谷歌认为此功能拥有很大的应用前景，并强调随着深度学习的进展，把 AI 模型放置到移动装置将是一种范式的转换。他们希望可以把 100GB 的语音识别模型缩小到 0.5GB，并放在终端设备上，让用户更方便使用。

不过谷歌表示，目前该功能还在完善阶段，预计今年晚些时间才会公布更多细节，并透露在今年晚些会推出新的 Pixel 手机。

安卓内置语音转文字功能

作为一家以人性化为核心的公司，谷歌这次格外考虑到了听觉或语言障碍人士，推出了 Live Caption（实时字幕）技术。

图 | 实时字幕技术演示

该技术由循环神经网络支持，可以把手机中的视频和音频内容实时转化成文字，类似于微信的语音信息转文字。

不过更重要的是，Live Caption 是原生存在于安卓系统中的功能，意味着它能够契合所有的应用，适用于视频聊天、电话、录像，甚至是游戏中，而且使用全程可在设备端进行处理，不需要联网，从而进一步保障用户隐私。

对于普通人来说，如果不想外放语音，一副耳机就可以解决。但对于听觉或语言障碍人士来说，这项功能可以发挥很大的作用，帮助他们更好地与人沟通。

在此基础上，谷歌推出了 Project Euphonia，通过机器学习来了解语言障碍者的对话模式，来实现精准的语音转写。

安卓Q围绕安全和隐私等优化

尽管谷歌有许多平台，像是 Chrome，但安卓系统依旧是最重要、装机量最大的那一个，目前全球已有超过 25 亿台安卓设备。

谷歌在今天也发布了最新安卓 Q Beta 3 版本，围绕安全和隐私等核心问题进行优化，12 家 OEM 厂商的 21 个手机机种都可以升级，包括华为、小米、Vivo 等。

除了支持上述的 Live Caption 功能，安卓 Q Beta 3 还适配可折叠屏幕，游戏应用可以直接在两种模式下无缝流畅转换，并且加入了用户期待已久的黑暗主题。

图 | Q Beta 3 适配折叠屏

此外，谷歌还推出了其它新功能，比如 Focus Mode 专注模式，可以让用户暂时停止使用一些容易打扰人的应用；Smart Reply 功能，可以预测和提供智能回复建议，能够通过任何应用快速发送回复；以及针对小孩的父母管理机制。

值得一提的是，安卓 Q 已经增加了 5G 网络支持，为未来 OEM 厂商推出 5G 手机打下了基础。

强调隐私保护，Nest Hub Max 诞生

智能家居一直是各家业者都想争取的市场，Nest 是谷歌旗下专注智能家居的独立团队，已有家庭安全摄像头和带有显示屏的 Home Hub 等智能家居产品。

图 | 推出新版 Nest Hub Max

谷歌在大会上表示，智能家居必须非常重视用户的隐私，并且宣布，将 Home Hub 更名为 Nest Hub，同时推出升级版 Nest Hub Ｍax，装有更大的 10 英寸显示屏，直接与 Facebook Portal 和亚马逊 Echo Show 等同类产品竞争。

谷歌强调，没有用户允许绝不会启动摄像头，另外拍下或录下的数据只会存在终端上，并使用 FaceMatch 面部识别用户，支持手势操作。

屏幕较大的 Nest Hub Ｍax 售价 229 元，现有的 Nest Hub 则降价 20 美元至 129 美元。

推出两款Pixel，进军中端智能手机市场

随后谷歌带来了两款 Pixel 系列手机，Pixel 3a 与 Pixel 3a XL，售价分别是 399 美元和 479 美元，前者即日起开售，后者今年暑期上市。这也是谷歌首次推出中端智能手机。

图 | 新款Pixel 3a售价399美元，即日发售

两个机型在外观上依然延续 Pixel 家族的特点，无刘海屏幕，后置单摄像头，提升拍照质量主要靠搭载谷歌自研 Pixel Visual Core 图像处理单元，还继续使用后置指纹识别，保留有 3.5mm 耳机孔，一次充电可以支撑 30 小时，并且配有 Titan M 安全芯片，专门用来保护用户隐私。

至于硬件配置，谷歌大会上并没有给出详细参数，但已有媒体爆出了比较可信的数据，其中 Pixel 3a 搭载高通骁龙 670 处理器，配备 4GB 内存+ 64GB 存储，分辨率为 1080×2160 ；Pixel 3a XL 搭载高通骁龙 710 处理器，配备 4GB 内存+128GB 存储，分辨率为 2220×1080。

相比 Pixel 3 的 799 美元售价，两款中端手机的价格更加亲民，这在一定程度上可以刺激目前较为疲软的 Pixel 销量，但随着全球整体智能手机市场逐渐饱和，再加上谷歌在大会上暗示今年晚些时候将推出新 Pixel 高端机，它们究竟能够为谷歌带来多少收益还不得而知。

就像在刚刚过去的第一季度财报会议上，谷歌 CEO Pichai 表示的那样，“在硬件之路上，谷歌还处于早期阶段”。

Jeff Dean登场，压轴的谷歌 AI

在大会的最后，谷歌 AI 领军人物 Jeff Dean 压轴登场，介绍了自己团队一直以来的研究目标和方向。从推动计算机视觉的极限，到语音识别，他们研究的领域涵盖生活中的方方面面。

图 | Jeff 介绍谷歌AI 团队的研究进展

在Jeff 看来，最让他激动的AI技术进展是语言理解。

遵循这一思想，谷歌 AI 一直在努力提高计算机对语言的理解能力，希望有朝一日能媲美人类的水平。最新的研究成果就是自然语言处理领域大名鼎鼎的 BERT 模型（Bidirectional Encoder Representation from Transformers）。

BERT 模型突破了传统 RNN 模型的限制，不再局限于单个关键词词义的理解，而是结合上下文分析语义，能够在大段文字下更好地理解语境和整体内容。

该模型于 2018 年 11 月推出，直接刷新了自然语言处理任务的 11 项纪录，同时启发了多个研究团队，后续衍生模型不断刷新着新的纪录。

谷歌团队更是将其直接定义为：BERT 模型开启了自然语言处理的新时代！

随后，谷歌 AI 介绍了 AI for Social Good 项目，旨在将 AI 技术推广到各个领域。

图 | 谷歌用AI 检测肺癌

他们将 AI 运用于医疗保健，建立了 CT 扫描图预测模型，可以帮助检测肺癌。他们还将 AI 运用在自然灾害预测领域，建立了一个洪水预测模型，预测洪水会出现在何时何地。该模型结合了深度学习、卫星影像与以现实为基础的情境模拟，并且会将信息共享给可能会受到影响的个人。

除此之外，谷歌的 AI for Social Good 项目还包括地震余震预测、全球渔业活动预测等等，都突显出 AI 技术的实用价值。

图 - 用 AI 模型预测地震余震

结语

最近一两年，数据隐私和 AI 道德问题持续困扰着美国科技巨头们，特别是用户体量巨大、掌握海量数据的 Facebook 和谷歌。

上周的 Facebook F8 大会，扎克伯格三句话不离数据隐私保护，力求挽回形象，而在谷歌 I/O 大会开幕式上，我们似乎也感受到了谷歌的刻意“保守”。

去年，谷歌在大会上演示了 Google Duplex，让 AI 打电话订位，AI 模仿人类太成功，接听电话的店员根本没有察觉有异，不料却引起外界忧心技术被用来欺骗人类。

随后，谷歌遭人诟病的事一桩接着一桩，一下子员工联名抗议用 AI 做军事生意，导致云计算部门高管的离职潮，一下子又反对 AI 道德委员会的某些外部成员，使得该组织才成立一周就被迫解散。这让曾经确立“AI 优先”战略的谷歌不得不重新思考技术的发展走向和展示策略。

所以，今年的 I/O 大会在展示 AI 技术时，更多演示 AI 对于人类带来正面效益的应用，塑造出一种“谷歌是你的好帮手”的感觉，例如帮助听力或语言障碍人士更好地与世界沟通，在谈论服务及硬件设备时，也不断重申数据保护、摄像头绝不会监视用户等，深怕又被外界抓了小辫子。

或许正是因为如此，今年的大会才略显平淡，少了曾经的惊艳。

但就像开头所说，以创新力闻名的谷歌能带来颠覆性技术突破固然令人兴奋，可是相比于过分激进，转型成为这样一种帮手型角色，对于普通用户、谷歌自身和社会发展来说，未尝不是一件好事。

科技之于人类，本就应该扮演这样的角色。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6126

浏览量
104895
AI

AI

+关注

关注
87

文章
29640

浏览量
267981

原文标题：谷歌发布最新视觉“黑科技”：搜索3D化，代码仅100KB，无需高端设备即可运行

文章出处：【微信号：deeptechchina，微信公众号：deeptechchina】欢迎添加关注！文章转载请注明出处。

AI驱动智慧未来，2024 TUYA全球开发者大会（中东）圆满落幕

助力开发者把握AI时代中的无限商机。【2024TUYA全球开发者大会（中东）活动现场】此次大会，涂鸦以“AIInAllSustainable

发表于 10-19 08:05 •206次阅读

<b class='flag-5'>AI</b>驱动智慧未来，2024 TUYA全球<b class='flag-5'>开发者</b><b class='flag-5'>大会</b>（中东）圆满落幕

谷歌:聚焦AI与技术创新,携手中国开发者共筑未来

2024年8月9日，备受瞩目的谷歌开发者大会——I/O Connect China圆满落幕。此次盛会，谷

发表于 08-09 17:03 •834次阅读

谷歌I/O大会AI+AR眼镜原型揭幕，Meta/微美全息加速引领AR消费生态新篇章

5月14日，一年一度谷歌(GOOG.US)2024 I/O大会如期召开。大会上，谷歌宣布了一系列

发表于 05-27 17:19 •445次阅读

两小时“吼出”121次AI，谷歌背后埋伏着Open AI的幽灵

。24小时后，携新版GeminiAI大模型等产品，谷歌在北京时间5月15日凌晨1点的I/O2024大会上重振旗鼓，试图在AI赛道上重新夺回主

发表于 05-19 08:05 •391次阅读

谷歌发布新一代TPU芯片，欲挑战OpenAI，挑战语音助手市场

当日，谷歌在年度I/O开发者大会上展示了一系列人工智能产品，包括新增的旗舰级Gemini AI模

发表于 05-17 09:36 •398次阅读

谷歌发布多模态AI新品，加剧AI巨头竞争

在全球AI竞技场上，谷歌与OpenAI一直稳居领先地位。近日，谷歌在I/O开发者

发表于 05-16 09:28 •406次阅读

截杀ChatGPT-4o，谷歌系AI产品迎来全面升级

和应用。近日举办的谷歌I/O大会上，谷歌宣布全面进入Gemini时代，并发布了一系列与AI相关的

发表于 05-16 01:58 •2653次阅读

谷歌将推出第六代数据中心AI芯片Trillium TPU

在今日举行的I/O 2024开发者大会上，谷歌公司震撼发布了其第六代数据中心AI芯片——Tril

发表于 05-15 11:18 •572次阅读

谷歌Google Calendar、Tasks与Keep应用中成功整合Gemini模型

谷歌于今日发布的I/O 2024开发者大会新闻中展现了其在Google Calendar， Tasks以及Keep应用中整合Gemini模型

发表于 05-15 11:10 •304次阅读

MediaTek 天玑开发者大会MDDC 2024启幕

上 MediaTek 将带大家一同进入「 AI 予万物」的科技“芯”世界！欢迎大家前往围观。由MediaTek主办的天玑开发者大会（MediaTek Dimensity Developer

发表于 05-07 10:25 •618次阅读

Create2024百度AI开发者大会深圳开幕

Create2024百度AI开发者大会深圳开幕 4月16日至17日，以“创造未来（Create the Future）”为主题的百度Create AI

发表于 04-16 15:13 •801次阅读

谷歌模型合成工具在哪找到

谷歌模型合成工具可以在谷歌的官方网站或相关的开发者平台上找到。具体地，您可以尝试访问谷歌的AI平台或开发

发表于 03-01 18:13 •1509次阅读

全球顶尖AI大会—百度Create AI开发者大会最新干货曝光

全球顶尖AI大会——百度Create AI开发者大会，定档于2024年4月16日至17日在深圳国际会展中心（宝安）举办，

发表于 02-22 14:35 •704次阅读

谷歌Android 15开发者预览版遇问题，OTA更新暂停

谷歌在Android Developer官网发表声明，因发现“已知问题”，将暂时关闭Android 15 DP1的OTA更新订阅服务。谷歌解释道：“禁用OTA镜像下载是为了深入调查问题。”对于想要尝鲜Android 15的开发者

发表于 02-21 14:08 •591次阅读

谷歌推出AI驱动的代码补全和生成工具Duet AI

谷歌称，Duet AI现在可运用上述合作伙伴的数据，协助开发者们编写相关平台的代码。它还将与Datadog、JetBrains及Langchain等公司的文档和知识资源相结合，以协助开发者

发表于 12-14 11:22 •843次阅读