0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

蚂蚁集团AI研发部门开源AI Infra技术,助力大模型训练效率提升

CHANBAEK 来源:网络整理 2024-02-04 10:01 次阅读

蚂蚁集团AI创新研发部门NextEvo近日宣布,他们将全面开源AI Infra技术,以推动AI研发效率的提升。该技术框架名为DLRover,目标在于实现大规模分布式训练的智能化。

DLRover技术能够帮助大模型千卡训练实现高效运行,有效时间占比超过95%。这意味着在训练过程中,大部分时间都能够得到充分利用,而不是浪费在无谓的操作上。通过实现训练时的“自动驾驶”,该技术能够显著提高AI研发的效率。

为了进一步提高大模型训练的效率和稳定性,NextEvo团队还对DLRover进行了持续的优化和完善。最新集成进DLRover的是Flash Checkpoint(FCP)方案。在模型训练过程中,通常需要打Checkpoint以便在中断时能够恢复到最近的状态。然而,常规的Checkpoint做法存在一些缺点,如耗时长、高频打点易降低训练可用时间、低频打点恢复时丢失过多等。

针对这些问题,FCP方案进行了优化。通过应用FCP方案,在千卡千亿参数模型训练中,Checkpoint导致的训练浪费时间降低了约5倍。此外,持久化时间降低了约70倍,有效训练时间从90%提升至95%。这一改进显著提高了模型训练的效率和稳定性,进一步推动了AI技术的发展。

蚂蚁集团开源DLRover技术的举措将为AI研发领域带来积极的影响。通过分享和交流,这一技术有望成为推动AI领域发展的重要力量。我们期待看到更多基于DLRover技术的创新应用和突破性成果,为人工智能的发展做出更大的贡献。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30072

    浏览量

    268345
  • 开源
    +关注

    关注

    3

    文章

    3243

    浏览量

    42378
  • 蚂蚁集团
    +关注

    关注

    0

    文章

    91

    浏览量

    3571
收藏 人收藏

    评论

    相关推荐

    为什么ai模型训练要用gpu

    GPU凭借其强大的并行处理能力和高效的内存系统,已成为AI模型训练不可或缺的重要工具。
    的头像 发表于 10-24 09:39 190次阅读

    AI模型训练数据来源分析

    AI模型训练数据来源广泛且多元化,这些数据源对于构建和优化AI模型至关重要。以下是对AI
    的头像 发表于 10-23 15:32 343次阅读

    如何训练自己的AI模型

    训练自己的AI模型是一个复杂且耗时的过程,涉及多个关键步骤。以下是一个详细的训练流程: 一、明确需求和目标 首先,需要明确自己的需求和目标。不同的任务和应用领域需要不同类型的
    的头像 发表于 10-23 15:07 545次阅读

    ai模型训练需要什么配置

    AI模型训练是一个复杂且资源密集的过程,它依赖于高性能的硬件配置来确保训练效率和效果。 一、处理器(CPU) CPU是计算机的核心部件,负
    的头像 发表于 10-17 18:10 801次阅读

    AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    计算的结合 我深刻体会到高性能计算(HPC)在AI for Science中的重要性。传统的科学计算往往面临计算量大、计算时间长等问题,而AI技术的引入可以显著提高计算效率。同时,HP
    发表于 10-14 09:16

    Mobileye关闭激光雷达研发部门

    Mobileye Global近期宣布了一项重大战略调整,决定终止其内部对下一代调频连续波(FMCW)激光雷达的研发项目,该项目原旨在增强自动驾驶及高度自动驾驶系统的性能。随着这一决定的实施,Mobileye的激光雷达研发部门将于2024年底正式关闭,此举预计将影响约10
    的头像 发表于 09-10 15:56 312次阅读

    IBM关闭中国研发部门 称根据需要调整运营

    强全部名单中排名第71位。 1995年,IBM在中国成立了中国研究院,是IBM全球八大研究中心之一。1999年,IBM在中国成立了中国软件开发中心,现在IBM公司将彻底关闭中国研发部门,此次关闭
    的头像 发表于 08-26 15:03 515次阅读

    蚂蚁集团成立数字蚂力新公司

    蚂蚁集团近期在北京宣布成立全新子公司“数字蚂力”,标志着其在人工智能赋能企业服务领域的又一重要布局。数字蚂力作为蚂蚁集团AI
    的头像 发表于 08-14 16:57 620次阅读

    ai模型ai框架的关系是什么

    的数据和计算资源来进行训练AI模型的主要特点包括: 1.1 参数数量大:AI模型的参数数量通常在数百万到数十亿之间,这使得它们能够捕捉
    的头像 发表于 07-16 10:07 4w次阅读

    蚂蚁集团去年研发投入达211.9亿元

    蚂蚁集团近日发布的《2023年可持续发展报告》揭示了其在人工智能领域的坚定投入与卓越成就。据报告,2023年蚂蚁集团积极拥抱AI
    的头像 发表于 06-13 14:27 435次阅读

    AI+云服务引领行业发展,蚂蚁集团模型自主研发取得新突破

    随着数字转型的推进,人工智能(AI)与云服务的融合正在改变各个行业。5月25日,在上海财经大学滴水湖高级金融学院2024年度大会上,蚂蚁集团研究院院长李振华发表演讲
    的头像 发表于 05-27 09:22 352次阅读

    NanoEdge AI技术原理、应用场景及优势

    NanoEdge AI 是一种基于边缘计算的人工智能技术,旨在将人工智能算法应用于物联网(IoT)设备和传感器。这种技术的核心思想是将数据处理和分析从云端转移到设备本身,从而减少数据传输延迟、降低
    发表于 03-12 08:09

    蚂蚁集团推出20亿参数多模态遥感基础模型SkySense

    近日,蚂蚁集团联合武汉大学宣布成功研发出20亿参数多模态遥感基础模型SkySense。这一创新模型蚂蚁
    的头像 发表于 03-04 11:22 768次阅读

    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型开发效率提升10倍

    的潞晨科技Colossal-AI系统,用户可实现在本地算力平台一键训练、微调、推理、部署大模型,将大模型开发效率
    的头像 发表于 03-01 09:43 455次阅读
    潞晨科技Colossal-<b class='flag-5'>AI</b> + 浪潮信息AIStation,大<b class='flag-5'>模型</b>开发<b class='flag-5'>效率</b><b class='flag-5'>提升</b>10倍

    蚂蚁集团成立AI研发与应用部门

    蚂蚁集团近日宣布成立AI创新研发与应用部门,名为“NextEvo”,由蚂蚁
    的头像 发表于 01-25 16:43 852次阅读