如今,几乎所有企业都开发或采用应用软件,对发票、人力资源档案或产品规格等信息的处理进行编码。整个行业已经开始在集中式数据中心或云中,以及在商店、工厂和家用电器等边缘位置部署和执行这些企业应用程序。
最近,企业软件的性质发生了变化,因为开发人员现在将人工智能纳入了他们的应用程序中。根据 Gartner 的数据,到 2027 年,深度学习形式的机器学习将包含在超过 65% 的 edge 用例中,而 2021 这一比例还不到 10% *。使用 AI ,您不需要为每个可能的输入编码输出。相反,人工智能模型从训练数据中学习模式,然后将这些模式应用于新的输入。
自然,管理基于 AI 的应用程序所需的过程不同于为纯粹确定性、基于代码的应用程序而发展的管理。这是真的,尤其是对于边缘的基于 AI 的应用程序,在这些应用程序中,计算资源和网络带宽都很稀缺,并且容易访问设备会带来安全风险。
基于 AI 的应用程序受益于新的工具和过程,可以在边缘安全地部署、管理和扩展。
传统企业软件与边缘 AI 应用程序之间的差异
传统企业软件和边缘 AI 应用程序的设计和管理方式有四个根本区别:
集装箱化
数据策略
更新
安全
集装箱化
虚拟化一直是企业在世界各地的数据中心部署传统应用程序时采用的主要部署和管理工具。对于传统的应用程序和环境,虚拟化为在虚拟机监控程序上运行的这些工作负载提供了结构、管理和安全性。
虽然虚拟化仍在几乎每个数据中心使用,但我们看到容器技术在人工智能应用程序中的广泛应用,尤其是在边缘。在最近一份关于 The State of Cloud Native Development 的报告中,云原生计算基金会强调“……从事边缘计算的开发人员对容器和Kubernetes 的使用率最高。”76%的边缘AI应用程序使用容器,63%使用Kubernetes。
为什么那么多开发人员在边缘使用容器来处理 AI 工作负载?
表演
可扩展性
弹性
可移植性
表演
容器虚拟化主机操作系统的内核,而在传统的虚拟化中,虚拟机监控程序虚拟化物理硬件,并在每个实例中创建来宾操作系统。这允许容器以完全裸机性能运行,而不是接近裸机性能。这对于许多边缘 AI 应用程序来说是至关重要的,尤其是那些具有安全相关用例的应用程序,其中响应时间以亚毫秒为单位。
容器还可以在同一个系统上运行多个应用程序,从而提供整合,而不需要虚拟化的性能开销。
可扩展性
边缘 AI “数据中心”可能分布在数百个位置。基于云的管理平台为管理员提供了集中管理环境的工具,这些环境可以扩展到数百和数千个位置。通过利用网络和智能软件进行扩展,而不是让人员前往每个边缘位置,可以降低成本、提高效率和恢复能力。
弹性
AI 应用程序通常通过扩展提供弹性。同一应用程序的多个克隆在负载平衡器后面运行,当克隆失败时,服务将继续。
即使边缘环境只有一个节点,容器策略也可以确保应用程序自动重新启动,使停机时间降到最低。
可移植性
将应用程序容器化后,可以将其部署在任何基础设施上,无论是裸机、虚拟机还是各种公共云上。还可以根据需要放大或缩小它们。有了容器,应用程序可以像在任何云中一样轻松地在边缘服务器上运行。
虚拟机和容器在几个方面有所不同,但它们是在单个平台上部署多个独立服务的两种方法。许多供应商提供的解决方案同时适用于 Red Hat OpenShift 和 VMware Tanzu 这两种环境。
边缘环境既有虚拟化,也有容器化,但随着越来越多的边缘 AI 工作负载投入生产,预计将朝着裸机和容器的方向发展。
数据策略
下一个区别是数据在传统边缘应用程序和边缘 AI 应用程序生命周期中的作用。
传统的边缘应用程序通常会接收少量结构化数据流,如买卖点交易、患者病历或说明。处理后,应用程序会发回类似的结构化信息流,例如支付授权、分析结果或记录搜索。当数据被使用时,它对应用程序不再有用。
与传统应用程序不同,人工智能应用程序的生命周期超越了分析和推理,包括重新培训和持续更新。 AI 应用程序从传感器(通常是摄像头)传输数据,并对数据进行推断。一部分数据在边缘位置收集,并共享回集中的数据中心或云,以便用于重新培训应用程序。
由于这种对数据的依赖可以改进应用程序,因此,强大的数据策略至关重要。
从边缘向数据中心或云传输数据的成本受数据大小、网络带宽以及应用程序需要更新的频率的影响。以下是人们在边缘 AI 应用程序中采用的一些不同的数据策略:
收集错误推论
收集所有数据
收集有趣的数据
收集错误推论
至少,一个组织应该收集所有错误的推论。当人工智能做出错误推断时,需要识别、重新标记数据,并用于重新培训,以提高模型精度。
然而,如果只使用错误的推断进行再培训,模型可能会经历一种称为模型漂移的现象。
收集所有数据
选择将其所有数据发送到中央存储库的组织通常会遇到带宽和延迟不是限制因素的情况。这些组织使用这些数据重新培训或调整并构建新模型。或者,他们也可以将其用于批量数据处理,以收集不同的见解。
收集所有数据的好处是可以利用巨大的数据池。缺点是它的成本非常高。通常,移动那么多数据甚至都不可行。
收集有趣的数据
这是数据收集的最佳点,因为它平衡了对有价值数据的需求与传输和存储数据的成本。
有趣的数据可以包含组织预期对其当前或未来模型或数据分析项目有价值的任何数据。例如,对于自动驾驶汽车,从天气相似的相同街道收集的大多数数据不会显著改变模型的训练。然而,如果正在下雪,这些数据将有助于发送回中央存储库,因为它可以改进极端天气下驾驶的模型。
更新
传统 edge 软件的功能内容是通过代码传递的。开发人员编写并编译在边缘设备上执行的指令序列。任何管理和编排平台都必须适应软件的更新,以修复缺陷、添加功能和修复漏洞。
开发团队通常每月、每季度或每年发布新代码,但并不是每个新版本都会立即推送到边缘系统。相反, IT 团队倾向于等待大量更新,只有在必要时才进行更实质性的更新。
相反, Edge AI 应用程序遵循不同的软件生命周期,该生命周期以 AI 模型的培训和再培训为中心。每次模型更新都有可能提高准确性和精度,或增加或调整功能。模型更新的频率越高,它就变得越准确,从而为组织提供额外的价值。
例如,如果一个检验 AI 应用程序的准确率从 75% 提高到 80% ,那么该组织会发现遗漏的缺陷更少,从而提高产品质量。此外,更少的误报导致更少的产品浪费。
图 1 :。典型边缘 AI 解决方案的生命周期
在图 1 中,步骤 5 和 6 详细说明了再培训过程,这对于更新模型至关重要。
部署边缘人工智能解决方案的组织应该经常更新模型。通过从一开始就通过容器等云本地部署实践构建再培训流程,并实施强大的数据战略,组织可以开发可持续的 edge AI 解决方案。
安全
对于许多 IT 团队来说,边缘计算代表着安全范式的巨大转变。在 castle and moat 网络安全模型中,网络外部没有人能够访问内部数据,但网络内部的每个人都可以访问。相反,边缘环境本质上是不安全的,因为几乎每个人都有物理访问权限。
边缘人工智能应用程序加剧了这一问题,因为它们是使用价值极高的企业知识产权构建的,而企业知识产权是企业的生命线。它代表了允许企业差异化的竞争优势,是其功能的核心。
虽然安全性对所有应用程序都很重要,但在使用 AI 应用程序时,提高边缘的安全性也很重要。有关更多信息,请参阅 边缘计算:安全架构师的考虑事项 。
人身安全
数据隐私
企业知识产权
访问控制
人身安全
由于边缘设备位于物理数据中心之外,因此边缘计算站点的设计必须假定恶意参与者可以物理访问计算机。为了应对这种情况,可以采用物理篡改检测和安全引导等技术,作为额外的安全检查。
数据隐私
Edge AI 应用程序通常存储真实世界的数据,如语音和图像,这些数据传达了有关人们生活和身份的高度隐私信息。 Edge AI 开发人员肩负着保护此类私人数据宝库的责任,以维护其用户的信任并遵守法规。
企业知识产权
推理引擎结合了对大量专有数据的学习以及机器学习团队的专业知识和工作。将这些推理机的控制权交给竞争对手可能会极大地削弱公司在市场上的竞争力。
访问控制
由于这些环境的分布式特性,几乎可以保证有人需要远程访问它们。实时( JIT )访问是一种策略,用于确保向人员授予在有限时间内完成任务所需的最低权限。
设计边缘 AI 环境
随着企业从部署传统企业应用程序转向边缘 AI 应用程序,维护支持传统应用程序的相同基础架构并不是一个可扩展的解决方案。
对于成功的 edge AI 应用程序,更新组织的部署方法、数据策略、更新节奏和安全策略非常重要。
NVIDIA 提供的软件可帮助企业在任何地方开发、部署和管理其 AI 应用程序。
例如,帮助组织跨我们创建的分布式位置管理和部署多个 AI 工作负载 NVIDIA Fleet Command ,一个用于容器编排的托管平台,可优化边缘系统和 AI 应用程序的供应和部署。
为了帮助企业快速起步,我们创建了 NVIDIA LaunchPad ,这是一个免费的程序,提供对必要硬件和软件堆栈的即时、短期访问,以体验端到端解决方案工作流,例如构建和部署 AI 应用程序。
关于作者
Tiffany Yeung 是 NVIDIA Edge 和企业计算解决方案的产品营销经理。 Tiffany 专注于利用 NVIDIA 边缘解决方案使医院、商店、仓库、工厂等实现创新。在 NVIDIA 之前, Tiffany 的背景是创业,她曾为许多财富 500 强公司提供咨询。
审核编辑:郭婷
评论
查看更多