作者 / 开发者关系工程师 Terence Zhang 和产品经理 Kristi Bradford
Google Pixel 的 Recorder 应用允许用户录制、转录、保存和共享音频。为了让用户更轻松地管理和回顾自己的录音,Recorder 的开发者将目光锁定在功能强大的设备端大语言模型 (LLM) Gemini Nano 上。这一集成引入了 AI 驱动的音频摘要功能,帮助用户更轻松地找到所需的录音并快速掌握内容要点。
近期,随着引入新的多模态模型,Gemini Nano 实力大增。Recorder 应用已经在利用此升级来提炼更长的录音,并提升了对语法和细节的处理能力。
使用设备端 AI 满足用户需求
Recorder 的开发者最初尝试了基于云端的解决方案,在性能和质量方面取得了卓越的成果。然而,为了优先考虑用户的无障碍和隐私需求,他们转而寻求一种设备端解决方案。Gemini Nano 提供了一个绝佳机会,可以提供用户所需的简洁音频摘要,与此同时还能保持在设备端进行数据处理。
Gemini Nano 是 Google 为设备端任务打造的最高效的模型。Pixel essential 应用产品经理 Kristi Bradford 表示: "在设备端集成 LLM 对用户有很多好处,能为用户提供更高隐私性、更低延迟,而且由于不需要网络,用户在任何地方都能使用。"
为了取得更好的效果,Recorder 还使用与其用例相匹配的数据对模型进行了微调。开发者采用低秩适应 (LoRA) 技术进行微调,从而让 Gemini Nano 能够稳定地输出包含相关发言人姓名、内容要点和主题在内的三点描述。
AICore 是一种 Android 系统服务,可集中管理 LLM 的运行时、交付和关键安全组件,大幅简化了 Recorder 对 Gemini Nano 的使用。借助用于运行 GenAI 工作负载的开发者 SDK,开发团队仅依靠四名开发者,在短短四个月内便开发了转录摘要功能。而这样的效率,正是由于无需维护内部模型所实现的。
自 Recorder 发布以来,用户平均每天使用 2 到 5 次新的 AI 摘要功能,保存的录音总数增加了 24%。这一功能显著提高了应用的总体参与度和用户留存率。Recorder 团队还指出,用户对新功能给予了正面反馈,许多用户表示新的 AI 摘要功能为他们节省了大量时间。
下一项重大进展:
多模态 Gemini Nano
Recorder 的开发者还采用了最新的 Gemini Nano 模型,即多模态 Gemini Nano,以进一步改进该应用在 Pixel 9 设备上的摘要功能。新模型比 Pixel 8 设备上的旧模型大很多,而且功能更强大、结果更准确、扩展能力更出色。新模型还扩展了令牌 (token) 支持,让 Recorder 可以提炼比以前更长的转录文本。
将 Gemini Nano 与多模态集成需要再进行一轮微调。不过,Recorder 的开发者得以利用原始 Gemini Nano 模型的微调数据集作为基础,从而简化了开发过程。
为了充分发挥新模型的功能,Recorder 开发者扩大了数据集,支持更长的录音,实施了完善的评估方法,并建立了侧重于语法和细节的发布标准指标。将语法作为评估推理质量的新指标,完全得益于多模态 Gemini Nano 的增强功能。
使用设备上的 AI 实现更多功能
Kristi 表示:"生成式 AI 是一项新的功能,整个团队都在学习使用它的过程中收获了乐趣。现在,我们有能力在满足用户新需求和把握新机遇的同时,突破极限。生成式 AI 确实为解决问题和开展实验带来了全新的创造力。我们已经演示了至少两项生成式 AI 功能,它们可以帮助人们在公司内部节省时间,以获得早期反馈。我们很期待看到未来的更多可能性。"
-
Google
+关注
关注
5文章
1757浏览量
57388 -
Gemini
+关注
关注
0文章
51浏览量
7569 -
模型
+关注
关注
1文章
3137浏览量
48666 -
Pixel
+关注
关注
1文章
237浏览量
9970
原文标题:Pixel 的 Recorder 应用通过 Gemini Nano 将用户参与度显著提升了 24%
文章出处:【微信号:Google_Developers,微信公众号:谷歌开发者】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论