0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谈谈DeepSeek-v3提到的基础设施演进

OSC开源社区 来源:OSC开源社区 2025-01-02 10:04 次阅读

看DeepSeek-v3的感受是, 算法和Infra的非常紧密结合. 其实很多大模型团队的算法和Infra是非常割裂的, 完全同时懂算法和Infra的人并不多, DeepSeek这个团队就是其中之一, DeepSeek团队中应该有不少OI竞赛获奖选手, 其实对于我们这些搞过OI的人, 对于计算上的优化策略基本上都是手到擒来,很多时候把处理器的体系结构也研究的很深, 所以同时做算法和Infra是非常自然的一件事情, 而如今很多算法岗的新人大多数人的代码能力是非常有限的....

当然渣B稍微再得瑟一下, 比DeepSeek他们还更懂更底层的芯片以及它们的互联, Maybe再多懂一点数学... 昨天还跟一朋友讲了一个冷玩笑, FP8训练这些Quantization不就是Quant变渣("za"tion)么,^o^.

1. 算力不再应当只是约束,而是一个可以联合优化的变量

其实很多年前, 阿里妈妈团队就在推荐系统引入深度学习时做过大量的算法和算力Infra协同的工作, 非常认同周国睿老师的一句话:“算力不再应当只是约束,而是一个可以联合优化的变量”

9d8c0c86-c659-11ef-9310-92fbcf53809c.png

今年年初还把这一系列的算法和算力的协同发展整理了一下, 可以参考

《谈谈AI落地容易的业务-搜广推》

其实再来说说量化交易这一块, 它和搜广推很类似的也是需要在一个时间约束下做到算力和算法的平衡, 对于很多高频交易策略其实就更难了, 涉及到一系列硬件上和算法算力的协同了, 有些时候还可以牺牲稳定性为代价, 举个例子有些高频交易的团队还在用家用CPU超频的方式来获得更快的运算速度, 另一个例子在很多网卡上连一个寄存器都要省....

对于DeepSeek/幻方有了这样的主营业务做大模型时,整个团队的火力自然是满满的...当然渣B这样的参与了国内几乎所有交易所的交易网络设计有合规问题和自身的职业操守就没有去趟高频这块...

另一方面渣B对现在的大模型Transformer架构还是有更多的不认同, 它一定不是通往AGI的终态, 因为这样的依赖极大算力的ScalingLaw的算法本质上应该是一个错误, 所以渣B更多的时间是在底层优化算力和顶层算法背后的数学原理上花了更多的精力.

在底层算力方面, 主要是GPU微架构的分析和Tensor运算相关的工作以及AI加速器高速互联等

《GPU架构演化史》

《Tensor运算》

《AI加速器互联》

在数学方面(嗯,学习J神“数学方面”), 渣B一直有一个暴论:这一次人工智能革命的数学基础是:范畴论/代数拓扑/代数几何这些二十世纪的数学第一登上商用计算的舞台。, 因此一直也在做一些专题的研究

《大模型的数学基础》

最近看到一些论文, 例如TOPOS的视角来看待多模态大模型, 还有一些Grothendieck图神经网络一类的东西, 似乎看到一些光了,但是这些东西是这个世界上为数不多英雄主义的存在, 一张纸一支笔的浪漫.

当然很多人怀疑这些代数上的东西以及GNN本身的一些稀疏计算的效率问题似乎跟AGI毫无关系. 但事实上它们可能是人脑里最精彩的存在. 昨天也到MTP时有一个观点:

MTP让我想到了Zen5的2-Ahead Branch Predictor 非常有趣的工作, 其实对于o3这样的模型, 本质上是token as an intruction.

原来GPT是一个顺序执行结果predic next token 类似于 pc++, 然后在栈上(historical tokens as stack)操作. 顺序预测下一个token

o1/o3 Large Reasoning Model 无论是MoE或者是强化学习一类的PRM, 实质上是在Token Predict上做了Divergence, 例如跳转/循环/回溯 等, PRM可以看作是一个CPU分支预测器. 从体系架构上渐渐的可以让大模型做到类似于图灵完备的处理能力.

基于这个观点, 那么当前的GPU的TensorCore/Cuda Core实际上就构成了一个执行引擎, 外面还需要一系列控制, 分支预测, 译码器, LSU来配合, 对于基础设施带来的演进还是有很多有趣的话题可以去探索的

另外一个暴论:当前的Transformer模型本身作为一种生成Token的数据路径, 而Grothendieck图神经网络一类的东西和相关的代数结构本身作为模型的控制路径, 这是跑通LRM的一条路

2. 硬件和体系架构的演进

DeepSeek-v3的实现也非常优雅, 例如考虑H800被阉割的影响, 训练没有采用TP并行. 然后针对MoE的AlltoAll做了极致的优化, 例如PXN和IBGDA等, 还有warp specialization以及dualpipe等.

相反我们看看Meta那群人, AlltoAll去年的OCP还在叫唤着Call for Action, 然后Llama3的MoE听李沐讲了一个八卦他们训练失败了...也难怪要多花10倍的钱...

回到DS团队提到的一些未来硬件的需求, 例如当前H800的132个SM中被分配了20个SM用于通信, 需要通信协处理器,以及为了减少应用程序编程的复杂性,希望这种硬件能够从计算单元的角度统一ScaleOut和ScaleUp网络。通过这种统一接口, 计算单元可以通过提交基于简单原语的通信请求.

其实这些东西渣B几年前就全部讲清楚并做了一系列POC. 在2018年的时候, 看到Transformer出来以及模型开始越来越大通信成为瓶颈时, 渣B当时在Cisco就在做AI Infra相关的预研, 第一个把深度学习模型引入到Cisco路由器中做一系列Performance Assurance和Security Assurance相关的业务.

然后2020年的时候和第四范式的一些研讨后, 然后设计和实现了NetDAM. 到如今你会发现Tesla TTPoE也是在做同样的事情.

《NetDAM专题》

9dab63d8-c659-11ef-9310-92fbcf53809c.png

时至今日, 你会发现DeepSeek对未来硬件的演进, 都在这一套框架内完全实现.

9dc7f390-c659-11ef-9310-92fbcf53809c.png

首先, 它对GPU侧是一个标准的内存接口, 通过在NetDAM上的一片内存, 基于内存语义把ScaleOut(Inter-Host)和ScaleUP(Intra-host)的通信完全融合了. 然后DS提到的Read/Write/multicast/reduce这些也是NetDAM一开始就做的功能, 例如RoCE需要多次访问GPU内存并引入CPU控制流

9ddfa01c-c659-11ef-9310-92fbcf53809c.png

而NetDAM直接进行了卸载:

9df7c084-c659-11ef-9310-92fbcf53809c.png

而对于DS后面提到的一系列量化和Scale相关的近内存计算, 本质上在NetDAM上是最好的附着点. 例如很多人说Mellanox延迟低, NetDAM直接bypass PCIe延迟轻松秒杀

9e090b3c-c659-11ef-9310-92fbcf53809c.png

但是这个世界并不是完美的, 因为人总归是有屁股的. 例如思科当时的重心全部放在了Silicon One上, Intel守着自己的UPI在CXL上扣扣搜搜的, 而同样Nvidia在B200这一代虽然把IB和NVSwitch融合在一起做交换芯片, 但最终在未来还是分开了...

而如今呢?当一切的事情越来越清晰的时候, 或许这些厂商们会明白这个问题了...

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    456

    文章

    50889

    浏览量

    424281
  • 算法
    +关注

    关注

    23

    文章

    4615

    浏览量

    92993
  • 大模型
    +关注

    关注

    2

    文章

    2476

    浏览量

    2806

原文标题:谈谈DeepSeek-v3提到的基础设施演进

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    雷军千万年薪挖角95后AI天才少女 DeepSeek开源大模型DeepSeek-V2关键开发者之一罗福莉

    95后AI“天才少女”刷屏;原因是雷军千万年薪挖角。人工智能时代最贵的依然是人才! 这位 95后AI“天才少女”是DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉。 罗福莉本科
    的头像 发表于 12-30 10:58 389次阅读

    NVIDIA助力印度打造AI基础设施

    在孟买举办的 NVIDIA AI Summit 上,黄仁勋和穆克什·安巴尼(Mukesh Ambani)探讨了关于 AI 基础设施的投资,这些投资有望为各行各业带来变革。
    的头像 发表于 10-27 09:44 281次阅读

    智能驾驶所需的基础设施

    智能驾驶所需的基础设施主要包括以下几个方面: 一、通信网络基础设施 5G/6G网络 :高速、低延迟的通信网络是实现智能驾驶的重要基础。5G网络已经能够提供足够的带宽和低延迟,支持车辆与云端、其他车辆
    的头像 发表于 10-23 16:05 812次阅读

    TDA3xx ISS调优和调试基础设施

    电子发烧友网站提供《TDA3xx ISS调优和调试基础设施.pdf》资料免费下载
    发表于 10-11 10:16 0次下载
    TDA<b class='flag-5'>3</b>xx ISS调优和调试<b class='flag-5'>基础设施</b>

    微软贝莱德成立AI基础设施投资基金

    微软与全球顶尖资产管理公司贝莱德携手,共同发起了一项名为“全球人工智能基础设施投资伙伴关系”的宏伟计划。该基金旨在汇聚超过300亿美元的私募股权力量,以撬动高达1000亿美元的巨额投资,专注于构建支撑人工智能发展的基础设施
    的头像 发表于 09-19 16:55 358次阅读

    BAW电网基础设施振荡器解决方案应用简介

    电子发烧友网站提供《BAW电网基础设施振荡器解决方案应用简介.pdf》资料免费下载
    发表于 09-09 14:49 0次下载
    BAW电网<b class='flag-5'>基础设施</b>振荡器解决方案应用简介

    通信基础设施设备的电流检测应用

    电子发烧友网站提供《通信基础设施设备的电流检测应用.pdf》资料免费下载
    发表于 09-03 10:03 0次下载
    通信<b class='flag-5'>基础设施</b>设备的电流检测应用

    PerfXCloud顺利接入MOE大模型DeepSeek-V2

    今日,在 PerfXCloud 重磅更新支持 llama 3.1 之后,其平台再度实现重大升级!目前,已顺利接入被誉为全球最强的 MOE 大模型 DeepSeek-V2 ,已在 PerfXCloud(澎峰云)官网的体验中心对平台用户免费开放体验。
    的头像 发表于 07-27 10:08 643次阅读
    PerfXCloud顺利接入MOE大模型<b class='flag-5'>DeepSeek-V</b>2

    中国电动汽车充电基础设施发展年报

    电子发烧友网站提供《中国电动汽车充电基础设施发展年报.pdf》资料免费下载
    发表于 04-18 14:24 19次下载

    大模型时代,商汤大装置重构AI基础设施与服务

    大模型时代,怎样的基础设施与服务才能满足行业所需?
    的头像 发表于 04-12 11:47 760次阅读
    大模型时代,商汤大装置重构AI<b class='flag-5'>基础设施</b>与服务

    Arm Neoverse S3 系统 IP 为打造机密计算和多芯粒基础设施 SoC 夯实根基

    Arm 基础设施事业部高级产品经理 Mohit Taneja   Arm Neoverse S3 是 Arm 专门面向基础设施的第三代系统 IP,应用范围涵盖高性能计算 (HPC)、机器学习 (ML
    发表于 03-26 16:33 791次阅读
    Arm Neoverse S<b class='flag-5'>3</b> 系统 IP 为打造机密计算和多芯粒<b class='flag-5'>基础设施</b> SoC 夯实根基

    展望2024数据中心基础设施

    前阵子,DeLL'ORO GROUP发布预测报告,回顾了23年数据中心基础设施报告中的突出趋势,及展望了2024年数据中心基础设施的发展情况,以下是报告内容。
    的头像 发表于 03-25 15:59 411次阅读

    垂直起降机场:飞行基础设施的未来是绿色的

    电动垂直起降(eVTOL)飞机的日益发展为建立一个新的网络来支持它们提供了理由,这将推动开发绿色基础设施新模式的机会。这些电气化的“短途”客运和货运飞机通常被描述为飞行汽车,是区域飞行和城市出租车
    发表于 03-25 06:59

    Neoverse S3系统IP为打造机密计算和多芯粒基础设施SoC夯实根基

    Arm Neoverse S3 是 Arm 专门面向基础设施的第三代系统 IP,应用范围涵盖高性能计算 (HPC) 、机器学习 (ML)、边缘和显示处理单元,是新一代基础设施系统级芯片 (SoC) 的理想技术根基。
    的头像 发表于 03-22 11:30 567次阅读
    Neoverse S<b class='flag-5'>3</b>系统IP为打造机密计算和多芯粒<b class='flag-5'>基础设施</b>SoC夯实根基

    KVM矩阵系统助力企业构建高效、安全的IT基础设施

    随着企业信息化程度的不断提高,IT基础设施的重要性日益凸显。如何构建高效、安全的IT基础设施成为了企业面临的重要挑战。KVM矩阵系统作为一种先进的远程管理解决方案,以其高效、灵活、安全的特点,成为
    的头像 发表于 02-18 14:53 570次阅读