蚂蚁集团AI研发部门开源AI Infra技术，助力大模型训练效率提升-电子发烧友网

蚂蚁集团AI研发部门开源AI Infra技术，助力大模型训练效率提升

蚂蚁集团AI创新研发部门NextEvo近日宣布，他们将全面开源AI Infra技术，以推动AI研发效率的提升。该技术框架名为DLRover，目标在于实现大规模分布式训练的智能化。

DLRover技术能够帮助大模型千卡训练实现高效运行，有效时间占比超过95%。这意味着在训练过程中，大部分时间都能够得到充分利用，而不是浪费在无谓的操作上。通过实现训练时的“自动驾驶”，该技术能够显著提高AI研发的效率。

为了进一步提高大模型训练的效率和稳定性，NextEvo团队还对DLRover进行了持续的优化和完善。最新集成进DLRover的是Flash Checkpoint（FCP）方案。在模型训练过程中，通常需要打Checkpoint以便在中断时能够恢复到最近的状态。然而，常规的Checkpoint做法存在一些缺点，如耗时长、高频打点易降低训练可用时间、低频打点恢复时丢失过多等。

针对这些问题，FCP方案进行了优化。通过应用FCP方案，在千卡千亿参数模型训练中，Checkpoint导致的训练浪费时间降低了约5倍。此外，持久化时间降低了约70倍，有效训练时间从90%提升至95%。这一改进显著提高了模型训练的效率和稳定性，进一步推动了AI技术的发展。

蚂蚁集团开源DLRover技术的举措将为AI研发领域带来积极的影响。通过分享和交流，这一技术有望成为推动AI领域发展的重要力量。我们期待看到更多基于DLRover技术的创新应用和突破性成果，为人工智能的发展做出更大的贡献。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30728

浏览量
268886
开源

开源

+关注

关注
3

文章
3309

浏览量
42471
蚂蚁集团

蚂蚁集团

+关注

关注
0

文章
95

浏览量
3589

GPU是如何训练AI大模型的

在AI模型的训练过程中，大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来，AI部落小编带您了解GPU是如何

发表于 12-19 17:54 •82次阅读

开源AI模型库是干嘛的

开源AI模型库是指那些公开源代码、允许自由访问和使用的AI模型集合。这些

发表于 12-14 10:33 •156次阅读

为什么ai模型训练要用gpu

GPU凭借其强大的并行处理能力和高效的内存系统，已成为AI模型训练不可或缺的重要工具。

发表于 10-24 09:39 •256次阅读

AI大模型的训练数据来源分析

AI大模型的训练数据来源广泛且多元化，这些数据源对于构建和优化AI模型至关重要。以下是对AI大

发表于 10-23 15:32 •542次阅读

如何训练自己的AI大模型

训练自己的AI大模型是一个复杂且耗时的过程，涉及多个关键步骤。以下是一个详细的训练流程：一、明确需求和目标首先，需要明确自己的需求和目标。不同的任务和应用领域需要不同类型的

发表于 10-23 15:07 •1271次阅读

ai模型训练需要什么配置

AI模型训练是一个复杂且资源密集的过程，它依赖于高性能的硬件配置来确保训练的效率和效果。一、处理器（CPU） CPU是计算机的核心部件，负

发表于 10-17 18:10 •1181次阅读

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

计算的结合我深刻体会到高性能计算（HPC）在AI for Science中的重要性。传统的科学计算往往面临计算量大、计算时间长等问题，而AI技术的引入可以显著提高计算效率。同时，HP

发表于 10-14 09:16

Mobileye关闭激光雷达研发部门

Mobileye Global近期宣布了一项重大战略调整，决定终止其内部对下一代调频连续波（FMCW）激光雷达的研发项目，该项目原旨在增强自动驾驶及高度自动驾驶系统的性能。随着这一决定的实施，Mobileye的激光雷达研发部门将于2024年底正式关闭，此举预计将影响约10

发表于 09-10 15:56 •354次阅读

IBM关闭中国研发部门称根据需要调整运营

强全部名单中排名第71位。 1995年，IBM在中国成立了中国研究院，是IBM全球八大研究中心之一。1999年，IBM在中国成立了中国软件开发中心，现在IBM公司将彻底关闭中国研发部门，此次关闭

发表于 08-26 15:03 •571次阅读

蚂蚁集团成立数字蚂力新公司

蚂蚁集团近期在北京宣布成立全新子公司“数字蚂力”，标志着其在人工智能赋能企业服务领域的又一重要布局。数字蚂力作为蚂蚁集团AI

发表于 08-14 16:57 •666次阅读

蚂蚁集团去年研发投入达211.9亿元

蚂蚁集团近日发布的《2023年可持续发展报告》揭示了其在人工智能领域的坚定投入与卓越成就。据报告，2023年蚂蚁集团积极拥抱AI

发表于 06-13 14:27 •458次阅读

AI+云服务引领行业发展，蚂蚁集团大模型自主研发取得新突破

随着数字转型的推进，人工智能（AI）与云服务的融合正在改变各个行业。5月25日，在上海财经大学滴水湖高级金融学院2024年度大会上，蚂蚁集团研究院院长李振华发表演讲

发表于 05-27 09:22 •378次阅读

蚂蚁集团推出20亿参数多模态遥感基础模型SkySense

近日，蚂蚁集团联合武汉大学宣布成功研发出20亿参数多模态遥感基础模型SkySense。这一创新模型由蚂蚁

发表于 03-04 11:22 •812次阅读

潞晨科技Colossal-AI + 浪潮信息AIStation，大模型开发效率提升10倍

的潞晨科技Colossal-AI系统，用户可实现在本地算力平台一键训练、微调、推理、部署大模型，将大模型开发效率

发表于 03-01 09:43 •483次阅读

蚂蚁集团成立AI研发与应用部门

蚂蚁集团近日宣布成立AI创新研发与应用部门，名为“NextEvo”，由蚂蚁

发表于 01-25 16:43 •897次阅读

搜索历史