0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮AIStation助力企业AI计算资源使用大幅提升

汽车玩家 来源:中国IDC圈 作者:中国IDC圈 2020-03-20 16:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

对于AI企业来说,GPU等计算资源昂贵,如何提高资源利用率,保护计算力投资?如何解决资源抢占,保证资源使用公平合理?如何减少等待时间,提高模型训练效率……这些问题都关系着研发创新的进度。且看浪潮AIStation人工智能开发平台用三招“组合拳”打破计算力壁垒,加速企业AI开发进程。

某企业AI开发面临的问题

某企业有四台8卡GPU服务器供50位开发人员使用,典型的人多资源少。具体来说,有以下几大问题:

人均不足一张GPU卡,GPU使用需要相互协调,开发效率低;

每十多人为一个小组共用一个GPU节点,可能使有的小组资源空闲而有的小组却无资源可用,造成资源孤岛;

缺乏优先机制,重要任务无法得到及时提交;

在白天GPU卡几乎全部用于开发环境创建,开发人员只能在晚上提交训练任务,模型训练数量非常有限。

AIStation三招解决企业算力问题

AIStation是面向AI企业开发场景的人工智能资源平台,可通过资源配额、GPU共享、排队托管三招“组合拳”,智能化分配GPU计算资源,提高资源利用率,帮助用户提高开发效率。

首先,AIStation收拢分散的计算资源,提供集群式的池化管理,并设置资源配额策略,实现多用户公平均衡使用资源。

AIStation将开发用户划分为5个用户组,每个用户组10人,并根据业务需求设置每组和每个用户的使用配额,如可设置每组使用6张GPU卡、40个CPU核。并对每个用户的开发环境使用时长、同时提交任务数量进行限制。

其次,AIStation通过GPU共享策略,可以让多人共用一张GPU卡且互不影响。

AIStation统一管理4台GPU节点,将其中2个节点的16张GPU卡设置为开发资源组,用于开发环境创建,剩下16张GPU卡为训练资源组,用于模型训练。通过共享策略,AIStation可将开发资源组的每张GPU卡切分为8份,每份使用4G显存。这样原来的16张GPU卡相当于变为了128张卡。并且通过设置CPU超线程策略扩展CPU核数,满足50个用户同时创建开发环境的需求。用户也可以根据自己的模型设置batchsize和显存使用的大小。

GPU共享模式

最后,AIStation通过任务排队托管、定义任务优先级,充分利用空闲时间训练任务,并且可根据优先级调度任务排队运行。

用户可同时提交多个训练任务,资源不足时排队等待,一个任务训练结束后自动释放资源给排队等待的任务,从而可以充分利用夜间、周末训练任务,延长GPU的使用时间。同时用户可设置优先级,让重要任务优先训练。

开发用户任务托管

AIStation取得显著效果

GPU使用时间加大近1倍。原来单个GPU节点分配给一个用户小组使用,每卡每天的平均使用时间仅为14.4小时。AIStation通过GPU共享、任务托管,解决资源孤岛,将每卡每天的平均使用时间提升到22.8小时。

一天周期内集群GPU使用情况

GPU利用率提升50%。原来用户在开发阶段独占一张GPU,GPU利用率仅为10%,训练阶段可达90%,每天每卡的平均利用率为30%。使用AIStation后,开发阶段8人共用一张GPU卡,GPU利用率可上升为80%,训练阶段为90%,每天每卡的利用率可达到80%。

GPU使用情况对比

每周训练任务的数量增大一倍多。假设提交一个ImageNet数据集和一个ResNet50模型,使用1张Tesla V100 GPU卡训练任务,每个任务的训练时间大概为12小时。

原来因为人均不够一张卡,白天GPU卡用于创建开发环境,晚上才能训练任务,那么一个工作日可以完成的任务数最多为32个,即一周可以完成160个任务。

而AIStation支持任务排队,可以最大限度的使用GPU资源。一周可以完成368个任务数,效率提升2.3倍。假设开发团队单个项目平均需要训练的任务数为50,那么每个月的项目完成数从3个提升到7个。

可以看出,浪潮AIStation通过对计算资源的高效管理、调度,在GPU使用时间、利用率和训练任务数量上,相比原方案均实现了大幅提升,最大化地优化了资源使用。

浪潮AIStation人工智能资源平台面向AI企业开发场景,致力于帮助企业构建一体化的AI开发平台,为AI开发工程师提供高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的AI开发业务整合,助力AI企业提高开发效率和产品上市速度,增强企业竞争力。

除了高效的资源管理,AIStation在开发环境创建、数据管理、开发流程管理等方面也表现出色。在后续文章中,我们将结合实际应用场景为大家详细介绍,敬请关注。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136065
  • 浪潮
    +关注

    关注

    1

    文章

    490

    浏览量

    25483
  • AI
    AI
    +关注

    关注

    91

    文章

    41101

    浏览量

    302576
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI大模型微调企业项目实战课

    自主可控大模型:企业微调实战课,筑牢未来 AI 底座 在人工智能席卷全球商业版图的今天,企业对大模型(LLM)的态度已经从“新奇观望”转变为“全面拥抱”。然而,随着应用层面的不断深入,一个严峻
    发表于 04-16 18:48

    智造引擎,仿真之巅:Altair HyperWorks 重塑工程研发新格局?

    、顶尖优化、AI 赋能、开放兼容四大核心竞争力,重新定义 CAE 平台标准:· 为企业缩短研发周期 30%-70%,减少物理原型 60%-90%,大幅降低研发成本;· 助力产品轻量化
    发表于 04-03 14:45

    嵌入式AI开发必看:杜绝幻觉,才是工业级IDE的核心底气

    AI浪潮正在重塑嵌入式开发范式,代码生成效率大幅提升的同时,“AI幻觉”问题却成为工业场景落地的核心阻碍——看似合规的代码暗藏时序错误、硬件
    发表于 03-18 13:49

    AI 虹吸存储资源,中小企业 IT 断供危机!华为云给出安全替代方案

    2025 年,AI 技术的爆发式增长引发全球存储资源重构。生成式 AI 与大模型训练对高端 DRAM、HBM 的需求激增,全球 TOP5 内存厂商将 70% 以上晶圆产能转向数据中心级存储,
    的头像 发表于 12-31 12:59 352次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    持续发展体现在: 1、收益递减 大模型的基础的需要极大的算力,这首先源于昂贵的高性能AI芯片,然后是宝贵的电力、水等与环境相关的资源。 收益递减体现在: ①模型大小 ②训练数据量 ③训练算法的优化 2
    发表于 09-14 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    是展望未来的AGI芯片,并探讨相关的发展和伦理话题。 各章的目录名称如下: 第1章 大模型浪潮下,AI芯片的需求与挑战免费 第2章 实现深度学习AI芯片的创新方法与架构 第3章 AI
    发表于 09-05 15:10

    AI 芯片浪潮下,职场晋升新契机?

    、新架构不断涌现。能够在工作中提出创新性的解决方案,推动 AI 芯片性能、功耗、成本等关键指标的优化,将极大提升在职称评审中的竞争力。例如,在芯片设计中引入新的计算范式,如存算一体技术,有效解决传统冯・诺
    发表于 08-19 08:58

    睿海光电800G光模块助力全球AI基建升级

    18%。 智算中心建设:与国内AI独角兽合作,提供支持液冷散热的800G模块集群,助力其大模型训练效率提升30%。 边缘计算网络:在北美某5G运营商边缘节点中,基于DML方案的SR8模
    发表于 08-13 19:05

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    器件敏捷调配。 定制化服务:支持OEM/ODM/JDM模式,满足客户从标准品到液冷模块的多元化需求。 这一优势已助力多家头部云服务商在AI云平台部署中抢占市场窗口期。 三、广泛兼容性:平滑升级,保护
    发表于 08-13 19:01

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    有效降低整体运维成本l 优化人力资源AI自动化处理大量重复性监控、初步分析与告警任务,释放高级工程师精力,使其专注于更具战略性的复杂问题与创新。l 提升资源利用率:
    发表于 07-16 15:29

    AI芯片:加速人工智能计算的专用硬件引擎

    处理等应用落地的关键硬件基础。   AI芯片的核心技术特点     AI芯片的设计重点在于提升计算效率,主要技术特点包括:   1.   并行计算
    的头像 发表于 07-09 15:59 1959次阅读

    润和软件AIRUNS 3.0助力企业打造私有化AI模型

    ”)打造企业级全流程AI模型工艺平台——AIRUNS 3.0,深度适配国产软硬件,实现从数据接入到模型落地的高效闭环,助力企业加速AI工程化
    的头像 发表于 06-28 17:03 1651次阅读

    全球各大品牌利用NVIDIA AI技术提升运营效率

    欧莱雅、LVMH 集团和雀巢利用 NVIDIA 加速的智能体 AI 和物理 AI大幅提升产品设计、营销及物流等方面的运营效率。
    的头像 发表于 06-19 14:36 1356次阅读

    RAKsmart服务器如何助力企业破解AI转型的难题

    当今,企业AI转型已成为提升竞争力的核心战略。然而,算力不足、成本失控、部署复杂等问题却成为横亘在转型路上的“三座大山”。面对这一挑战,RAKsmart服务器凭借其技术创新与全球化资源
    的头像 发表于 05-27 10:00 544次阅读

    提升AI训练性能:GPU资源优化的12个实战技巧

    在人工智能与机器学习技术迅速发展的背景下,GPU计算资源的高效利用已成为关键技术指标。优化的GPU资源分配不仅能显著提升模型训练速度,还能实现计算
    的头像 发表于 05-06 11:17 1679次阅读
    <b class='flag-5'>提升</b><b class='flag-5'>AI</b>训练性能:GPU<b class='flag-5'>资源</b>优化的12个实战技巧