除了数据并行之外,还有其他的主流并行技术,即张星并行和流水线并行训练。
张星并行和流水线并行技术通常被描述为模型并行,在开源社区中,最著名的两个系统是NVIDIA的Megatron- M和Microsoft的DeepSpeed。
Megatron- M使用一维张量并行,线算符的权重被分割,大型矩阵乘法被分解为在不同设备上执行的较小矩阵藏法,这可以是模型大小在集群中扩展并提高计算效率。
微软的DeepSpeed和NVIDIA的Megatron- M兼容,并通过Zero Redundancy Optimizer改善数据并行训练,消除内存冗余。
Colossal-AI不仅提供了完整的现有并行方法,还提供了更高级的办法,例如2D、2.5D 和3D张星并行,以及序列并行。
与1D张量并行相比,这些并称为是2.5D 和3D张星并行,不仅切分参数,而且沿更多张量唯独切分输入和输出,正方形或者立方体的每个子集,表示可以分配给不同处理器的部分数据和工作。
2D张量并行基于经典SUMMA矩阵利法算法
-
人工智能
+关注
关注
1800文章
48107浏览量
242260 -
英伟达
+关注
关注
22文章
3874浏览量
92472 -
深度学习
+关注
关注
73文章
5527浏览量
121893 -
gtc
+关注
关注
0文章
73浏览量
4483
发布评论请先 登录
相关推荐
FPGA中的流水线设计
基于流水线负载平衡模型的并行爬虫研究
基于流水线技术的并行高效FIR滤波器设计

基于流水线的并行FIR滤波器设计

Verilog基本功之:流水线设计Pipeline Design
嵌入式_流水线

什么是流水线 Jenkins的流水线详解
以Gpipe作为流水线并行的范例进行介绍

Google GPipe为代表的流水线并行范式

评论