AI模型只能部署在云端？高通白皮书发布：混合AI是AI的未来-电子发烧友网

近日，高通技术公司正式发布白皮书《混合 AI 是 AI 的未来》。高通在白皮书中提到，随着生成式 AI 正以前所未有的速度发展以及计算需求的日益增长，AI 处理必须分布在云端和终端进行，才能实现 AI 的规模化扩展并发挥其最大潜能——正如传统计算从大型主机和瘦客户端演变为当前云端和边缘终端相结合的模式。与仅在云端进行处理不同，混合 AI 架构在云端和边缘终端之间分配并协调 AI 工作负载。云端和边缘终端如智能手机、汽车、个人电脑和物联网终端协同工作，能够实现更强大、更高效且高度优化的 AI。

高通产品管理高级副总裁兼 AI 负责人 Ziad Asghar 在媒体沟通会上进一步分享了高通对于混合 AI 的愿景，以及如何结合自身的产品技术优势，让混合 AI 的愿景成为现实。

Ziad Asghar 表示，“我们正在引领混合 AI 愿景的实现。对隐私和安全要求比较高的终端侧工作负载，可以继续通过边缘云，完全在终端侧完成。对于其它的模型工作，我们也可以和云服务供应商合作完成。通过在云端和边缘侧终端分布工作负载，我们能够大幅度减少云端的处理量。混合 AI 的优势在于，即使不同终端处理能力不尽相同，但仍然能够提供相近的体验，同时带来包括成本、能耗、隐私与安全、个性化等优势；还能通过出色的 5G 连接技术确保信息在端到端之间进行高效传输。”

混合 AI 对生成式 AI 规模化扩展至关重要

ChatGPT 的爆火掀起生成式 AI 热潮。自 2022 年 11 月推出后，ChatGPT 仅用了短短两个月时间月活用户便达到 1 亿，成为有史以来增长速度最快的消费类应用和第一个杀手级的生成式 AI 应用。

作为一项变革性的技术，生成式 AI 颠覆了原有的工作、娱乐方式，并拥有非常丰富的应用领域，应用数量也在不断激增。具体而言，生成式 AI 的应用主要包括搜索、内容生成、生产力、代码编写等等，能够在数秒之内通过大型基础模型创作内容。数据显示，AI 正迎来大爆发时期，目前已有超过 3000 个可用的生成式 AI 应用和特性。

据初步估计显示，生成式 AI 市场规模将达到 1 万亿美元，广泛覆盖生态链的各个参与方。为把握这一巨大机遇，并推动 AI 成为主流，计算架构需要不断演进并满足大规模生成式 AI 日益增长的处理和性能需求。

拥有数十亿参数的众多生成式 AI 模型对计算基础设施提出了极高的需求。因此，无论是为 AI 模型优化参数的 AI 训练，还是执行该模型的 AI 推理，至今都一直受限于大型复杂模型而在云端部署。

AI 推理的规模远高于 AI 训练。尽管训练单个模型会消耗大量资源，但大型生成式 AI 模型预计每年仅需训练几次。然而，这些模型的推理成本将随着日活用户数量及其使用频率的增加而增加。在云端进行推理的成本极高，这将导致规模化扩展难以持续。

高通认为，混合 AI 能够解决上述问题，正如传统计算从大型主机和瘦客户端演变为当前云端和 PC、智能手机等边缘终端相结合的模式。

具体来说，混合 AI 指终端和云端协同工作，在适当的场景和时间下分配 AI 计算的工作负载，以提供更好的体验，并高效利用资源。在一些场景下，计算将主要以终端为中心，在必要时向云端分流任务。而在以云为中心的场景下，终端将根据自身能力，在可能的情况下从云端分担一些 AI 工作负载。混合 AI 架构 (或仅在终端侧运行 AI)，能够在全球范围带来成本、能耗、性能、隐私、安全和个性化优势。

利用边缘侧终端规模化扩展生成式 AI

Ziad Asghar 表示，当前很多人将生成式 AI 和云端联系在一起，通过高通的技术，能够让这些出色的用例在边缘侧实现。“生成式 AI 对众多领域产生了广泛影响，目前有大量的新兴应用需要生成式 AI 能力，且已经拥有了庞大的用户规模，市场上也出现了众多非常庞大的模型。我们认为，要真正释放生成式 AI 的全部潜能，AI 需要在边缘侧运行，这也是高通一直努力的方向，我们相信凭借我们的技术，我们能够带来遥遥领先的终端侧生成式 AI 体验。”

在以终端为中心的混合AI架构中，云端仅用于处理终端侧无法充分运行的AI任务。

据了解，目前生成式 AI 的应用能够在高通所推出的几乎所有主要产品线中使用。举例来说，手机作为高度个性化的设备，能够通过生成式 AI 成为消费者真正意义上的数字助手，它可以接受用户的所有需求，且甚至无需联网就能够完成任务，并完全通过大型基础模型（例如文本生成文本模型 LLaMA）与用户交流。此外，生成式 AI 能够基于视频会议的语音转录内容，制定任务清单，并自动生成完整的演示文稿直接供用户使用，使生产力能够成倍增长。骁龙计算平台拥有专用的硬件单元，能够原生支持生成式 AI 在本地使用。

在 XR 方面，生成式 AI 能够根据终端侧所提供的用户信息进行定制和优化，为用户带来完全不同的独特虚拟世界体验。Ziad Asghar 表示，如果只在云端运行，则不具备终端侧的情境信息，因此利用终端能够带来更好的用户体验。

汽车领域的用例也非常丰富。在座舱中使用对话式 AI，能够帮助用户规划路线，在去餐厅的路上推荐用餐选项，或者在上班途中列出今日的工作事项。生成式 AI 还可以根据出发点和目的地信息，结合汽车的丰富传感器数据制定不同的路线规划，找到最佳路线。

物联网领域，生成式 AI 能够助力打造面向专业领域的 GPT 类型模型，以及帮助用户完成不同任务的 IoT 助手。如果来到一个新的城市，生成式 AI 能够帮助提供旅行目的地推荐。此外它还适用于其他的垂直领域，如医疗、零售、酒店管理等等。

随着强大的生成式 AI 模型不断缩小，以及终端侧处理能力的持续提升，混合 AI 的潜力将会进一步增长。参数超过 10 亿的 AI 模型已经能够在手机上运行，且性能和精度达到与云端相似的水平。不久的将来，拥有 100 亿或更高参数的模型将能够在终端上运行。

全栈 AI 优化

Ziad Asghar 表示，目前高通已经实现了全球首个 Android 手机上的 Stable Diffusion 终端侧演示。Stable Diffusion 是一个参数超过 10 亿的超大神经网络基础模型，能够基于输入的文本提示生成图片。高通的这一终端侧演示是在飞行模式下进行的，通过高通的全栈 AI 优化，这一模型能够完全在终端侧运行，实现在 15 秒内完成 20 步推理，生成饱含细节的图像。

高通面向 Stable Diffusion 进行了全栈 AI 优化。2022 年 6 月，高通推出了专门面向边缘侧 AI 的领先软件栈产品——高通 AI 软件栈，能够从软件层面进行模型优化。

Ziad Asghar 表示，在云端服务器上训练的模型一般采用 32 位浮点运算（FP32），这意味着完成模型推理需要大量的处理工作。“我们希望通过整数运算模式和量化技术进行 AI 推理，即时获取模型推理结果。针对 Stable Diffusion，我们所采用的是 8 位整数运算（INT8）。去年年底在第二代骁龙 8 移动平台上，我们已经进一步支持了 4 位整数运算（INT4）能力。我们的硬件、软件以及工具设计也都考虑了如何充分利用这一关键优势。”

目前高通能够支持 Stable Diffusion 这一超过 10 亿参数的模型在终端侧运行，但许多关键的生成式 AI 模型，比如文本生成图像、自然语言处理、编程、图像理解、图像创作等，模型规模一般在 10 亿到 100 亿参数之间。Ziad Asghar 表示未来几个月内，高通将有望支持参数超过 100 亿的模型在终端侧运行。

对话 Ziad Asghar： AI 大模型会在 C 端和 B 端同步落地

在媒体沟通会上，Ziad Asghar 接受了 InfoQ 在内的部分媒体采访。以下为采访实录，经编辑。

问：刚才说到，高通在几个月之后就可以实现在终端侧处理参数规模达 100 亿的模型，你们会用什么样的大语言模型？

Ziad Asghar：我们看到目前大语言模型的模态非常丰富，并且已经出现了多模态模型，包括文本生成图片、文本生成文本、文本生成视频，甚至还有图片生成文本、图片生成视频等方式。这将揭开新的序幕，开启许多人们未曾想象过的全新用例。我们已经开始面向不同场景和用例需求的模型展开工作。

问：对于文本生成文本模型，会不会考虑使用来自于 Meta 的开源 LLaMA 模型？

Ziad Asghar：我们对模型的应用持有非常开放的态度。针对中国市场的模型，我们会专注于面向本地语言和使用场景的模型调优和训练，以让用户能够根据不同的需求，随时随地地使用模型。我们当前在关注不同的开源模型，同时我们也将与众多的中国合作伙伴携手，实现这些模型在本土市场的终端侧部署。

问：智能手机端侧运行生成式 AI 会成为未来的大趋势吗？

Ziad Asghar：我们认为这将是一个非常值得期待的重要趋势。所有不同的终端在生成式 AI 的助力之下，将为消费者带来更强大的吸引力。终端的可用性、娱乐性和生产力价值将远远超越当前的水平。

问：您刚刚提到的 Stable Diffusion 成功在安卓手机上运行，不到 15 秒生成图片，这个是完全在终端侧上就能运行吗？我们大约什么时候能用上？以什么样的方式用上？

Ziad Asghar：目前我们已经能够完全在终端侧运行 Stable Diffusion，无需连接云端，即使是将手机调到飞行模式也可以。但是目前只有采用高通技术的终端能够实现。对于具体的用例，举例来说，我们可以将 Stable Diffusion 的能力集成到相机应用中，用户在任何一个地点拍摄照片，再提出需求，例如将照片背景改为夕阳之下的万里长城，Stable Diffusion 就能够完成这一任务。此外还有其他的用例，比如数字助手、生产力应用等。我们相信通过与合作伙伴的共同努力，用户将能在今年体验到这些终端侧用例。

问：高通实现终端侧运行 AI 大模型，在硬件、软件层面的核心技术优势是什么？未来基于其他移动芯片平台的产品是否也会跟进这一能力？

Ziad Asghar：长期以来，高通致力于持续基于我们所打造的硬件、软件和工具资源，驱动生成式 AI 在终端侧的规模化扩展。首先在硬件方面，我们在既定功耗下的处理能力领先于市场上的其他竞争对手，这让我们能够在运行生成式 AI 用例时实现非常出色的表现。凭借我们的研究投入，我们能够在终端侧利用量化技术，在处理相同用例时大幅节省功耗和算力，同时完全不影响准确性，这是我们的竞争对手做不到的。另外一个优势在软件方面，我们提供高通 AI 引擎 Direct 以及 Qualcomm AI Studio 等软件工具，让这些模型能够完全在终端侧运行。

问：以聊天机器人对代表的生成式 AI 应用要有好的使用体验，一个比较大的挑战是时延，每个指令（token）的时延需要在毫秒级别，如何才能将这类应用部署在终端侧，并且拥有不错的体验？

Ziad Asghar：我们能够提供非常高效的 token 生成速率，完全不会因为时延影响到用户的体验。时延对于用户体验的确至关重要，而得益于我们的技术，我们的每秒 token 生成速率能够为用户提供流畅的体验。

问：高通的 AI 硬件在处理 AI 应用时比 CPU 有明显优势，接下来是否会增加 transformer 核心让端侧生成式 AI 的体验更好？

Ziad Asghar：高通 AI 引擎涵盖了 CPU、GPU 以及 Hexagon 处理器，从而能够在最合适的位置进行 AI 处理。谈到在高通 AI 硬件上进行 AI 处理的优势，除了我们的硬件引擎有着非常强大的处理能力外，我们也在去年推出了专门面向 transformer 处理的领先技术，能够大幅提升 transformer 处理效率。所以在硬件层面我们的技术已经完备，能够支持在终端侧获得大幅提升的 transformer 处理表现。

问：我们注意到高通今天正式将自研 AI 技术的起步时间点定在了“十年前”，也就是曾经的 Zeroth 处理器。我们想知道，当年 Zeroth 的 SNN 网络架构在如今的骁龙移动平台上得到了多大程度的继承？

Ziad Asghar：高通长期专注于脉冲神经网络（SNN）研究，骁龙 820 平台是我们最先应用这一技术的产品。我们的大量工作也得益于这一技术研究，我们在这一技术基础之上不断积累，覆盖了各个领域，包括技术、硬件增强和软件等等。我认为这也是我们今天能够在终端侧取得如此领先和丰富的 AI 能力的原因之一。

问：您认为目前的 AI 大模型在 C 端和 B 端，哪侧会更快落地？

Ziad Asghar：我认为应该会在 C 端和 B 端同步落地，同时高通也有能力来支持这些模型落地。无论是智能手机、VR、AR 还是汽车等面向消费者的智能设备，亦或是企业级的搭载骁龙计算平台的 PC、智能手机等设备。我们的产品和技术能够支持面向专业领域的 GPT 模型以及丰富的模型模态（比如文本生成图片等），这能够为 C 端和 B 端都带来巨大可能性，为所有人带来出色体验，无论是在家中还是在工作场所。甚至只要人们用手机，就可以感受到 AI 带来的优势。

问：生成式 AI 在汽车座舱、智能驾驶上的应用进展如何？需要调用数据量和模型形式和手机端有哪些本质不同？边缘侧的低功耗、低时延，是结合 5G 座舱芯片或大算力芯片共同实现的吗？

Ziad Asghar：第一个问题，关于生成式 AI 赋能的数字座舱体验，大家可以想象一下，用户可以体验到真正意义上的“和自己的车对话”。你可以告诉你的车：导航带我去机场，但是在去机场的路上，我要找个地方吃个汉堡，再找个地方喝某种口味的咖啡，顺便把我之前干洗的衣服取了。在数字座舱里，我们可以为用户提供真正意义上的虚拟助手。对于汽车应用的不同模态，其要求会更加严格，并且需要更高的准确性。因为与其他商用终端不同，在汽车里出现任何一个小错误都可能带来非常严重的后果。所以我们在确保提供最佳体验的同时，也要确保极高的准确性。

第二个问题，在汽车领域我们需要将多模态相结合，同时结合雷达、激光雷达、以及摄像头等传感器数据，从而让我们在使用生成式 AI 规划路线时，获得最佳的效果。

第三个问题，汽车需要非常强大的处理能力。一方面，汽车领域的生成式 AI 用例需要非常丰富的终端侧处理能力，同时，它还需要通过高速低时延的 5G 连接，在需要的情况下利用云端资源进行处理。与我们其他产品线的产品相比，我们的汽车产品通常能够提供更多的生成式 AI 处理能力。

问：目前在 PC 以及其他平台上，NPU 通常是一个独立于 CPU、GPU 的计算单元。但是在骁龙移动平台上，CPU、GPU、DSP、ISP、甚至调制解调器都具备一定的 AI 计算能力，这就意味着骁龙平台的 AI 计算架构实际上是一种分布式的设计。那么这是否会加大软件开发的难度？或者是否会出现某些应用不能完整调用全部 AI 计算单元的情况？

Ziad Asghar：我们的平台采用的是异构计算架构，高通 AI 引擎包括 Hexagon 处理器、CPU、GPU 以及 ISP。我们相信 AI 是能够赋能整个平台的通用技术，无论是摄像头还是图像、调制解调器、视频、音频、语音等等都可以利用 AI 技术。同时，基于我们在软件方面进行的大量投入，无论要在终端侧运行何种应用，高通 AI 引擎都能提供充沛、强大的算力。

问：终端设备上的 AI 模型是否对用户的个人数据进行处理？

Ziad Asghar：针对用户所担心的个人隐私数据保护，终端侧处理恰恰能够解决这一问题。正如我刚刚所讲，无论是 10 亿参数的模型，还是 100 亿参数的模型，如果我们能够完全在终端侧来运行，比如用户发出一个查询，终端接收之后能够独立完成推理，那么所有相关的查询信息和数据都会留在终端上，不会离开终端，这也是边缘处理相对于云端处理的独特优势所在，因为如果要在云端进行查询，那么数据就要先发送到云端，处理完再从云端回到终端。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31000

浏览量
269334
模型

模型

+关注

关注
1

文章
3254

浏览量
48894
ChatGPT

ChatGPT

+关注

关注
29

文章
1563

浏览量
7776

原文标题：AI 模型只能部署在云端？高通白皮书发布：混合 AI 是 AI 的未来

文章出处：【微信号：AI前线，微信公众号：AI前线】欢迎添加关注！文章转载请注明出处。

企业AI模型部署攻略

当下，越来越多的企业开始探索和实施AI模型，以提升业务效率和竞争力。然而，AI模型的部署并非易事，需要企业

发表于 12-23 10:31 •130次阅读

AI模型部署和管理的关系

AI模型的部署与管理是AI项目成功的两大支柱，它们之间既相互独立又紧密相连，共同推动着AI技术从实验室走向实际应用。

发表于 11-21 10:02 •165次阅读

如何在STM32f4系列开发板上部署STM32Cube.AI，

已下载STM32Cube.AI扩展包，但是无法使用，感觉像是没有部署AI模型，我是想要通过摄像头拍照，上传图像后，经过开发板处理器进行AI

发表于 11-18 09:39

AI云端计算资源有哪些类型

AI云端计算资源涵盖了从基础设施到软件服务的多个层面，为AI模型的训练、推理和部署提供了强大的支持。下面，

发表于 11-15 09:39 •170次阅读

AI模型托管原理分析

AI模型托管是指将训练好的AI模型部署在云端或边缘服

发表于 11-07 09:33 •197次阅读

华为发布天线数字化白皮书

近日，2024 全球移动宽带论坛（MBBF 2024）在伊斯坦布尔召开。华为发布了《天线数字化白皮书》，该白皮书深入探讨了天线数字化的新趋势和关键创新方向，与行业共同展望移动

发表于 11-05 13:42 •269次阅读

IDC生成式AI白皮书亮点速递

在数字化浪潮中，生成式 AI 正成为推动创新和变革的关键力量。本文将分享由 IDC 发布的《技术革新引领未来——生成式 AI 塑造核心发展引擎》白皮

发表于 11-04 10:12 •235次阅读

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

计算的结合我深刻体会到高性能计算（HPC）在AI for Science中的重要性。传统的科学计算往往面临计算量大、计算时间长等问题，而AI技术的引入可以显著提高计算效率。同时，HPC也为A

发表于 10-14 09:16

联发科携生态伙伴发布《生成式AI手机产业白皮书》，引领手机生成式AI风潮

AI生态战略以及终端生成式AI应用开发的一站式解决方案——“天玑AI开发套件”。同时，联发科与业界生态伙伴共同发布了《生成式AI手机产业

发表于 05-08 17:46 •585次阅读

MediaTek携手生态伙伴联合发布《生成式AI手机产业白皮书》

、腾讯混元、vivo等生态伙伴*，联合发布《生成式AI手机产业白皮书》，共同定义了“生成式AI手机”的概念和典型特征。

发表于 05-08 16:48 •444次阅读

联发科等联合发布生成式AI手机产业白皮书，预测2027年市场规模

白皮书中，Counterpoint提出了生成式AI手机这一创新概念，并详细描述了其核心特性，主要包括支持大规模深度学习模型本地运行和通过云端协同完成复杂

发表于 05-08 09:47 •346次阅读

联发科联合生态伙伴推出《生成式AI手机产业白皮书》，生成式AI手机发展路线明确了！

深入探讨，同时，联发科展示了其天玑AI生态战略以及终端生成式AI应用开发的一站式解决方案——“天玑AI开发套件”。此外，联发科联合产业伙伴共同发布了《生成式

发表于 05-07 16:34 •438次阅读

MediaTek携手生态伙伴联合发布《生成式AI手机产业白皮书》，共同定义生成式AI手机

Lab、腾讯混元、vivo等生态伙伴*，联合发布《生成式AI手机产业白皮书》，共同定义了“生成式AI手机”的概念和典型特征。 MediaTek资深副总经理、无线通信事业部总经理徐敬全

发表于 05-07 10:25 •194次阅读

NanoEdge AI的技术原理、应用场景及优势

，可以减少数据在传输过程中被窃取或篡改的风险，提高数据安全性。 - 低能耗：通过优化神经网络模型和硬件设计，NanoEdge AI 可以在有限的资源下实现高效的计算，降低设备的能耗。

发表于 03-12 08:09

宁畅参与发布AI加速卡液冷设计白皮书

近日，由宁畅参与起草的《基于标准PCIe接口的人工智能加速卡液冷设计》白皮书正式发布。该技术白皮书由开放计算标准工作委员会(OCTC)归口，旨在为冷板式人工智能加速卡的设计提供重要指导。

发表于 01-09 11:28 •804次阅读

搜索历史

AI模型只能部署在云端？高通白皮书发布：混合AI是AI的未来

评论

企业AI模型部署攻略

AI模型部署和管理的关系

如何在STM32f4系列开发板上部署STM32Cube.AI，

AI云端计算资源有哪些类型

AI模型托管原理分析

华为发布天线数字化白皮书

IDC生成式AI白皮书亮点速递

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

联发科携生态伙伴发布《生成式AI手机产业白皮书》，引领手机生成式AI风潮

MediaTek携手生态伙伴联合发布《生成式AI手机产业白皮书》

联发科等联合发布生成式AI手机产业白皮书，预测2027年市场规模

联发科联合生态伙伴推出《生成式AI手机产业白皮书》，生成式AI手机发展路线明确了！

MediaTek携手生态伙伴联合发布《生成式AI手机产业白皮书》，共同定义生成式AI手机

NanoEdge AI的技术原理、应用场景及优势

宁畅参与发布AI加速卡液冷设计白皮书