急得满头大汗的小王看向悠闲喝茶的小李道:你怎么不紧不慢的?刚刚主任发的紧急任务做完了?
小李得意的说:这年头,偷偷用一下AI就搞定啦~
一旁的小张插进来:你还敢用!不怕安全部门找你啊!
小王听罢,还是老老实实埋头苦干吧。
随着各种AI“超级助手”的不断升级,各行各业的员工使用其帮助提高工作效率的比例可能比想象中高得多。
根据微软和领英联合开展的一项调查显示,自今年5月起到过去的6个月里,全球78%的知识型员工秘密地将自己的AI工具(BYOAI)带入到工作中,且这一现象在中小型公司中更为常见(80%)。
虽然这种方式提高了效率,但难以忽视一些关键信息被放在公共模型中带来的⻛险。幸运的是,众多企业意识到采用人工智能的重要性,将重点转向通过实施AI实现利益最大化的发展战略。不过,在进行训练阶段又陷入了两难:究竟在本地,还是云端更好呢?
有些企业选择了云——能够动态调整计算资源以适应训练变化的灵活性给众多管理者会心一击。其次,云端配备的高性能GPU、TPU等加速器,能够高效处理大规模数据集和复杂模型,加快训练速度;易于访问与协作、通常集成了多种自动化工具和服务的云平台也极大地简化了开发流程;并且,由于无需维护硬件设施,在云端训练AI更具经济效益。
但是,在云端训练的缺点也不少:数据传输时可能消耗大量的时间和带宽;尽管采取严格的安全措施,却仍有隐私泄露的风险;当网络延迟或中断时,可能中断训练过程,影响效率;对于高度定制化的软硬件需求有一定限制,且在模型训练好后,将模型部署到本地或其他环境时,可能会遇到兼容性和优化问题。
于是,一些企业选择可以更好地控制数据与成本,具有网络独立性,可完全根据需求定制化硬件和软件环境,并可直接监控和调试训练过程、能够无惧延迟及时反馈问题的本地部署。
然而,本地训练同样存在一些问题——硬件资源固定、计算资源有限;需要定期维护与升级设备,增加额外的时间和成本负担;进行大规模训练时可能增加能源消耗和冷却成本;不便于协作等。
同时兼顾云和本地优势的混合云,或是最优选。
采用混合云训练AI的一般步骤和考虑因素有:
●架构设计:设计一个能够跨越本地数据中心和公有云的混合云架构至关重要。通常涉及构建或利用现有的Kubernetes集群,确保本地集群与云服务商的容器服务兼容。
●数据管理与迁移:使用数据同步工具或服务在本地与云端之间高效地移动或缓存数据,确保数据一致性的同时,也能根据训练需求动态调整数据位置。
●模型开发与训练:在本地或云上开发AI模型,利用云服务商提供的AI开发平台和工具进行模型训练。可以在本地进行初步测试和调试,然后利用公有云的弹性GPU资源进行大规模并行训练。
●弹性资源扩展:根据训练任务的需求,动态扩展公有云商的计算资源。如在需要大量计算是自动或手动增加云上GPU实例的数量,训练完成后释放资源以降低成本。
●模型推理与部署:训练好的模型可以在混合环境中部署,既可以在本地进行低延迟推理,也可以部署到公有云上,利用云服务的全球分布特性服务于不同地区的用户。
●监控与优化:实施全面的监控系统,跟踪模型训练过程中的资源使用情况、性能指标和成本消耗,不断优化模型训练效率和成本效益。
●安全与合规:确保在整个混合云架构中实施严格的数据加密、访问控制和合规措施,特别是在数据传输和存储过程中,保护敏感信息不被泄露。
打通云上云下
让“鱼和熊掌兼得”
作为业界最灵活,最安全和高效的横向扩展文件存储平台之一,PowerScale是戴尔AI解决方案整体架构中最重要的基础。聚合了多个节点的性能,PowerScale可以完全满足AI的存储性能需求,不仅能够增强模型训练加载GPU的性能,同时还能提供先进的、经过验证的可用性、数据保护、安全性和多租户等功能。并且,由于能够轻松扩充数十PB,可大量并发、就地分析、自动分层和简单管理,PowerScale对于基于文本的模型训练或推理没有明显的瓶颈,十分适合AI模型训练。
此外,为了解决公司因多年来在数据中心、边缘和云部署中构建和使用多种不同类型的存储、存储设备而导致的“同时跨多个位置管理数据”难题,戴尔还全面推出了适用于Azure的戴尔APEX文件存储,不仅弥合了云存储和AI驱动的见解之间的巨大差距,还支持灵活支付费用,为用户提供极大的便利。
适用于Azure的戴尔APEX文件存储的核心是戴尔PowerScale OneFS,通过将这个高性能横向扩展文件存储解决方案引入Azure云,戴尔使用户能够更有效地整合和管理数据,降低存储成本并增强数据保护和安全性,同时利用原生云AI工具更快地获得见解。
通过SyncIQ本机复制,它可将文件数据从本地设备快速、无风险、策略驱动地迁移到云。由于OneFS软件平台在本地和Azure中是相同的,因此用户无需对底层存储架构进行任何更改。一旦进入云,IT团队就会使用他们已熟悉的用户界面、命令执行界面(CLI)、API界面和身份管理,方便企业利用现有技能,减少管理数据和技术架构所花费的时间,降低管理复杂性。
适用于Azure的APEX文件存储可在单个命名空间中支持多达18个节点和5.6PiB,可提供可扩展性和灵活性,同时又不牺牲管理的简易性,并可实现:
● 集群性能提高6倍
● 命名空间大至11倍
● 每个卷最多可增加23倍快照
● 集群弹性提高2倍
● 横向扩展到252个节点
另外,APEX文件存储直接与多种最常见的AI工具(包括Azure AI Studio)集成,利用原生AI工具来支持最苛刻的工作负载。适用于Azure的戴尔APEX文件存储专为混合云和云爆发用例而设计,无论是传统IT工作负载还是尖端的人工智能应用程序,它都具有最高的AI规模性能,将AI工作负载推向创新和效率的新高度。
结 语
在数字技术快速发展的时代,多云策略的需求从未如此明显。通过更加灵活、安全、高效的解决方案,企业不仅能够从容应对挑战,还能以前所未有的速度驱动业务增长。作为行业领导者,戴尔科技将继续以领先的创新、全面的服务,帮助企业更好地适应AI时代。
-
戴尔
+关注
关注
5文章
619浏览量
39896 -
数据中心
+关注
关注
16文章
4619浏览量
71874 -
AI
+关注
关注
87文章
29666浏览量
268009
原文标题:训练AI在本地还是云端?
文章出处:【微信号:戴尔企业级解决方案,微信公众号:戴尔企业级解决方案】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论