0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

异构混训整合不同架构芯片资源,提高算力利用率

Carol Li 来源:电子发烧友 作者:李弯弯 2024-07-18 00:11 次阅读

电子发烧友网报道(文/李弯弯)随着AI技术的飞速发展,大模型的训练和推理任务对算力的需求日益增长。然而,单一品牌芯片往往难以满足所有需求,且可能存在供应链风险。因此,异构芯片混训成为了一种重要的解决方案。通过混合使用多种异构芯片,可以充分利用不同芯片的优势,提高算力利用率,降低算力成本,并推动AI技术的广泛应用。

异构混训能够整合不同架构芯片资源

在2024年世界人工智能大会AI基础设施论坛上,无问芯穹联合创始人兼CEO夏立雪发布了全球首个千卡规模异构芯片混训平台,千卡异构混合训练集群算力利用率最高达到了97.6%。

同时,无问芯穹Infini-AI云平台已集成大模型异构千卡混训能力,是全球首个可进行单任务千卡规模异构芯片混合训练的平台,具备万卡扩展性,支持包括AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA六种异构芯片在内的大模型混合训练。通过Infini-AI云平台,用户可以在异构算力资源上实现高效的模型训练和推理,从而加速AI应用的开发和部署。

据称,已有智谱AI、月之暗面、生数科技等大模型公司客户在Infini-AI上稳定使用异构算力,还有20余家AI Native应用创业公司在Infini-AI上持续调用各种预置模型。

异构混训平台具有多样化算力资源、高效算力分配、灵活性与可扩展性、降低总体拥有成本(TCO)、推动技术创新和生态整合等特点。

具体来看,异构混训平台能够整合来自不同厂商、不同架构的芯片资源,这些芯片在各自擅长的领域具有不同的性能优势。通过智能的调度算法和任务分发机制,异构混训平台能够根据任务的特性和需求,将最适合的算力资源分配给相应的芯片,从而实现算力资源的最大化利用。

异构混训平台支持多种芯片和算法的组合使用,能够灵活应对不同规模、不同复杂度的训练任务。同时,它也具备较高的可扩展性,能够根据实际需求进行算力资源的动态扩展。通过整合不同架构的芯片资源,避免对单一硬件平台的过度依赖,异构混训平台能够降低供应链风险,并通过提高算力利用率和训练效率来降低总体拥有成本。

异构混训平台为AI技术创新提供了更加广阔的舞台,通过整合不同芯片和算法的优势资源,可以激发更多的创新灵感和技术突破。同时,它也有助于打破不同硬件生态系统之间的壁垒,促进生态整合与协同发展。

异构混训在AI领域的需求日益凸显

近年来,随着人工智能技术的不断发展,大模型的参数量急剧增加,从十亿、百亿到千亿甚至万亿级别。以ChatGPT、LLama等为代表的大模型技术正持续推动社会变革,引发新一轮人工智能热潮。这些大模型具有数千亿甚至上万亿参数规模,单个计算节点无法满足训练需求,训练过程耗时巨大。

面对如此庞大的模型,传统的同构算力集群已经无法满足训练需求。即使采用分布式训练框架,也需要充分整合可调动的算力资源进行分布式并行加速。然而,由于不同厂商的智算芯片之间存在计算架构、缓存资源、互联方式等诸多差异,以及AI计算框架与各厂商基础软件栈深度绑定,导致多种智算芯片难以协同工作,限制了算力资源的充分利用。

异构芯片混训成了解决算力限制的重要方式,目前已经有诸多应用案例。如,医疗机构采用异构芯片混训平台,将NVIDIA GPUIntel CPU以及华为昇腾AI处理器等多种芯片混合使用。通过平台的高效调度和算力分配,实现了对医学影像数据的快速处理和分析。

异构芯片混训平台能够显著提高了医疗影像分析系统的处理速度和精度,为医生提供了更加准确和及时的诊断支持。

自动驾驶汽车研发公司采用异构芯片混训平台,将AMD GPU、NVIDIA GPU以及专用AI加速器等多种芯片混合使用。通过平台的异构并行训练能力,实现了对自动驾驶算法模型的高效训练和优化。

异构芯片混训平台能显著提高自动驾驶算法模型的训练速度和精度,为自动驾驶汽车的研发提供了有力支持。同时,通过降低算力成本和提高资源利用率,也可以帮助公司加快自动驾驶技术的商业化进程。

写在最后

当然,在异构芯片混训过程中,可能会面临一些技术挑战,如不同芯片间的通信问题、性能差异等。为了解决这些问题,可以采取相应的措施,如建立通用的集合通信库,实现不同种芯片的高效通信,兼容多种硬件;提出基于流水线并行的非均匀拆分方案,解决不同硬件效率不一样的问题,针对自身情况分配最适合的任务等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29283

    浏览量

    267527
  • 算力
    +关注

    关注

    1

    文章

    866

    浏览量

    14640
  • 大模型
    +关注

    关注

    2

    文章

    2201

    浏览量

    2201
收藏 人收藏

    评论

    相关推荐

    交换机内存利用率过高会是什么问题

    在现代网络架构中,交换机扮演着至关重要的角色,负责在网络设备之间高效地转发数据包。然而,随着网络规模的扩大和数据流量的增加,交换机的内存资源可能会变得紧张,导致内存利用率过高。这种情况如果不加
    的头像 发表于 10-18 09:53 53次阅读

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    、GPU、NPU,给我们剖析了芯片的微架构。书中有对芯片方案商处理器的讲解,理论联系实际,使读者能更好理解
    发表于 10-15 22:08

    中国智能汽车腾飞,为什么异构是第一生产

    智能时代的“世纪之车”,异构是第一驱动力
    的头像 发表于 09-14 10:32 3380次阅读
    中国智能汽车腾飞,为什么<b class='flag-5'>异构</b><b class='flag-5'>算</b><b class='flag-5'>力</b>是第一生产<b class='flag-5'>力</b>?

    名单公布!【书籍评测活动NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架构分析

    社会资源和资本力量关注芯片的发展,希望我们的国家能够更独立自主地设计制造高性能
    发表于 09-02 10:09

    安谋科技异构组合,破局生成式AI挑战

    近日,此芯科技集团有限公司(以下简称“此芯科技”)AI PC战略暨首款芯片发布会在上海举行,正式推出了其首款专为AI PC打造的异构高能效芯片产品——“此芯P1”。作为国产新一代AI PC
    的头像 发表于 08-13 09:12 456次阅读

    神州鲲泰亮相北京数字安全大会,以智能构筑数据安全的坚实底座

    正成为赋能各行各业数字化转型的基础技术要素,神州鲲泰面对智时代多云、异构、绿色计算等现实需求,智集群间以及集群内复杂
    的头像 发表于 07-18 16:06 352次阅读
    神州鲲泰亮相北京数字安全大会,以智能<b class='flag-5'>算</b><b class='flag-5'>力</b>构筑数据安全的坚实底座

    无问芯穹发布千卡规模异构芯片平台

    联合创始人兼CEO夏立雪在会上震撼发布了全球首个千卡规模异构芯片平台,这一里程碑式的成果不仅标志着AI计算能力的巨大飞跃,也预示着异构
    的头像 发表于 07-08 14:27 600次阅读

    鲲泰新闻|神州鲲泰创新智之旅北京站开幕,发布全新智架构和液冷整机柜产品应对 “多云、异构、绿色

    加速平台HICA以及一体化交付的神州鲲泰全液冷整机柜产品。帮助企业客户在整个异构资源池中匹配更优
    的头像 发表于 05-22 10:56 318次阅读
    鲲泰新闻|神州鲲泰创新智<b class='flag-5'>算</b>之旅北京站开幕,发布全新智<b class='flag-5'>算</b><b class='flag-5'>架构</b>和液冷整机柜产品应对 “多云、<b class='flag-5'>异构</b>、绿色

    全志科技T527高八核异构芯片获“年度最佳SoC”荣誉

    全志科技T527高八核异构芯片获“年度最佳SoC”荣誉
    的头像 发表于 04-08 10:29 1339次阅读
    全志科技T527高<b class='flag-5'>算</b><b class='flag-5'>力</b>八核<b class='flag-5'>异构</b><b class='flag-5'>芯片</b>获“年度最佳SoC”荣誉

    台积电晶圆厂产能利用率将全面提高

    消息来源表示,TSMC 8英寸及12英寸晶圆工厂的利用率已分别回升至70-80%和80%。尤其值得注意的是,28纳米制程的利用率已重返80%的常态范围;而7/6纳米与5/4纳米制程的利用率更分别达到75%以及接近饱和状态。
    的头像 发表于 01-17 13:56 576次阅读

    产能利用率降至四成!电池行业迎深度洗牌

    据统计,我国电池生产的平均产能利用率低于50%,即便是龙头企业宁德时代上半年产能利用率也降至60.5%,三季度也仅回升至70%以上,仍处于历史较低水平。
    的头像 发表于 12-28 17:16 753次阅读

    燧原科技与青云科技达成战略合作,创新异构调度

    NEWS 燧原科技与青云科技日前达成战略合作,携手创新异构资源池的灵活调度,共建支持场景落地的AI
    的头像 发表于 12-11 12:20 544次阅读

    SPWM与SVPWM—调制比与电压利用率

    学习调制方法时,**调制比**与**电压利用率**是个重要的概念。我发现教材中却对这两个内容介绍的很模糊,网上也没有很多包含具体推导过程的公式。
    的头像 发表于 12-01 17:04 1.9w次阅读
    SPWM与SVPWM—调制比与电压<b class='flag-5'>利用率</b>

    全球晶圆厂利用率,将降至67%

    尽管情况有所改善,但芯片制造指标仍然疲软,预计 2023 年第四季度晶圆厂利用率将降至 67%,部分原因是库存消耗增加了销售额。因此,预计 2023 年下半年资本支出将下降。
    的头像 发表于 11-15 17:08 682次阅读
    全球晶圆厂<b class='flag-5'>利用率</b>,将降至67%

    晶圆代工产能利用率下降,降价大战一触即发

    晶圆代工行业正面临产能利用率的重大挑战,据悉,联电、世界先进和积电等主要代工厂纷纷降低明年首季的报价,幅度高达两位数百分比,项目客户降幅更高达15%至20%,各大晶圆代工厂深陷产能利用率六成保卫战。
    的头像 发表于 11-13 17:17 798次阅读