0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

类ChatGPT训练需高性能芯片大规模并联,高速接口IP迎红利时代

lPCU_elecfans 来源:电子发烧友网 2023-03-10 09:47 次阅读

近段时间,ChatGPT的火热重新掀起人工智能产业热潮,尤其是AIGC(指利用人工智能技术来生成内容)领域,已经进入到狂飙姿态,头部科技企业争分夺秒地寻求抢先发布类ChatGPT应用。

众所周知,类ChatGPT应用是一个吞金兽,微软公司为了训练ChatGPT使用了1万张英伟达的高端GPU。“从训练的角度来看,计算性能再好的GPU芯片比如A100如果无法集群在一起去训练,那么训练一个类ChatGPT的大模型可能需要上百年。因此,AI大模型的训练对高速接口IP是一个巨大的挑战,也是一个巨大的机遇。”奎芯科技市场及战略副总裁唐睿在接受电子发烧友网采访时表示。

奎芯科技成立于2021年,该公司的口号是“芯粒高速互联,海量算力源泉 ”。目前,奎芯科技已经推出的高速接口IP组合包括USB、PCIe、SATA、SerDes、MIPIDDRHDMI、DP、HBM等丰富的类型。

类ChatGPT带动接口IP发展

半导体产业分布来看,IP是底层技术,接口IP同样如此,因此关键性和重要性是不言而喻的。那么在AIGC产业里,接口IP能够发挥哪些作用呢?唐睿提到了以下几点。

首先是芯片上的互联接口,也就是Die to Die类型的互联接口IP,包括UCIe等,用以扩充单芯片的计算能力;其次是Chip to Chip类型的互联接口IP,包括SerDes/PCIe/CXL等,能够加快芯片之间的互联和数据交换,满足更高带宽的需求;此外还有内存接口IP,包括SATA、DDR、HBM等,能够用于打造更高性能的存储产品,帮助类ChatGPT存储和交换大规模的数据;再上一层就是数据通讯接口的接口IP。因此,从训练的角度来看,类ChatGPT应用的爆发,能够带来非常大的接口IP需求。

在此前的预测里,有市场调研机构的数据显示,2022年至2026年高速互联IP的市场规模有望以75%的年复合增长率快速成长。“接口IP市场的增长一定是跟随整个高性能计算芯片大趋势的,包括芯片运算性能、内存和带宽方面的提升都需要接口IP的帮助,因此芯片用量的提升一定会带来更大的接口IP用量。”唐睿认为,“同时计算芯片性能的提升已经受限于摩尔定律放缓的影响,单芯片的性能会逐渐遇到瓶颈,那么互联组成算力集群就是一个有效的手段,这也会加快推动接口IP的发展。”

虽然产业热潮来临,不过唐睿并不担心一下子会涌入很多同行或者友商,造成国内接口IP产业内卷。“市场竞争的激烈程度会增加,但接口IP是高门槛的领域,目前国内做高速混合电路的人才其实并不多,特别是在先进制程上做高速模拟电路设计的人才更少,因此从零组建团队进入这个领域是非常困难的。”他对此讲到。

国产厂商的布局和追赶

从全球产业格局来看,在接口IP方面,目前新思科技和楷登电子等EDA厂商以及其他国际上的接口IP厂商还处于领先位置。相关数据显示,截止到2021年,国产接口IP的自给率还不足10%。

“目前,从技术上来看,国产接口IP厂商确实还处于追赶的位置,不过这种差距已经越来越小。”唐睿指出,“2023年,奎芯科技将会推出一系列性能达到国际领先水平的接口IP产品,包括HBM3以及其他领先的D2D类型的互联接口IP。”

同时,他还讲到,在服务国内客户方面,实际上也会存在很多本地化的需求,需要根据这些需求结合晶圆厂的工艺特色,提供IP解决方案。奎芯科技很多IP产品,在研发的过程中或者研发之前,就得到了客户方的问询,围绕客户的芯片架构,有非常清晰的需求。奎芯科技联合自己的下游客户成立了多个产业联盟,通过这些联盟将不同类型的计算芯片公司联合在一起,协同发展,围绕数据中心应用把国产方案搭建好,弥补国内这一块的空白。

当前,AI大模型训练所用到的算力集群基本上都是基于英伟达通用算力芯片来打造,在这方面国产通用算力芯片还存在一定的性能差距。唐睿表示,国产高性能计算芯片还是有机会的,AI大模型并不是一个近期出现的新鲜事物,近些年国内AI产业已经在跟进这一趋势,只是类ChatGPT类型应用背后的大模型参数规模更大。针对这方面的需求,国内芯片产业也早就启动了这方面的布局,包括奎芯科技所在的接口IP赛道,都在向这个方向努力。不过,从IP研发到芯片设计,再到应用落地,这中间会有一个时间差。实际上,国外的公司也是在用之前的芯片通过互联在做这方面的硬件支持。

“还需要特别提出的是,AIGC是一个软硬件结合的应用。软件方面,算法模型的体量也是一个值得研究去突破的方向。目前,国外开源的AIGC算法里,也并非只有Open AI的GPT算法,通过介绍信息来看,也有一些参数更小的模型能够实现类ChatGPT应用。我们实际上可以借鉴这些模型,以减少软件对硬件的需求压力。”唐睿最后讲到。

小结

IP对半导体产业有巨大的撬动力量,在全球范围内,约60多亿美元的IP销售额,带动的是5000亿美元的全球半导体市场销售额。对于***而言,短期内实现单芯片性能暴增的难度非常大,不过通过高速接口IP,用算力集群的方式,也能够逐步进入类ChatGPT的红利市场。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

原文标题:类ChatGPT训练需高性能芯片大规模并联,高速接口IP迎红利时代

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用EMBark进行大规模推荐系统训练Embedding加速

    推荐系统是互联网行业的核心系统,如何高效训练推荐系统是各公司关注的核心问题。目前,推荐系统基本上都是基于深度学习的大规模 ID 模型,模型包含数十亿甚至数百亿级别的 ID 特征,典型结构如图 1 所示。
    的头像 发表于 10-31 14:46 95次阅读
    使用EMBark进行<b class='flag-5'>大规模</b>推荐系统<b class='flag-5'>训练</b>Embedding加速

    什么是协议分析仪和训练

    长时间、大规模的分析。 软件型协议分析仪:基于计算机软件的工具,通过安装在计算机上实现网络数据包的捕获、解析和分析,灵活且便于扩展。 二、训练器在电子设计和测试领域,训练器通常与协议分析仪结合使用,用于对特定
    发表于 10-29 14:33

    端到端InfiniBand网络解决LLM训练瓶颈

    ChatGPT对技术的影响引发了对人工智能未来的预测,尤其是多模态技术的关注。OpenAI推出了具有突破性的多模态模型GPT-4,使各个领域取得了显著的发展。 这些AI进步是通过大规模模型训练实现
    的头像 发表于 10-23 11:26 226次阅读
    端到端InfiniBand网络解决LLM<b class='flag-5'>训练</b>瓶颈

    芯品# 高性能计算芯片

    Arm Neoverse基于CSS的CPU芯片组具有超高速接口和高级封装,可为AI,HPC和网络基础设施提供可扩展的性能 英国伦敦和加拿大多伦多-2024年6月6日- Alphawav
    的头像 发表于 06-27 10:28 6900次阅读

    开芯院发布全球首个开源大规模片上互联网络IP“温榆河”

    2024年5月21日,北京开源芯片研究院(简称“开芯院”)通过线上会议的方式,向会员单位正式发布了全球首个开源大规模片上互联网络(NetworkonChip,NoC)IP——研发代号“温榆河”。这一
    的头像 发表于 06-04 08:37 11.7w次阅读
    开芯院发布全球首个开源<b class='flag-5'>大规模</b>片上互联网络<b class='flag-5'>IP</b>“温榆河”

    高性能计算集群的能耗优化

    高性能计算(HighPerformanceComputing,HPC)是指利用大规模并行计算机集群来解决复杂的科学和工程问题的技术。高性能计算集群的应用领域非常广泛,包括天气预报、生物信息学
    的头像 发表于 05-25 08:27 318次阅读
    <b class='flag-5'>高性能</b>计算集群的能耗优化

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    GB200 超级芯片模块组合而成,通过 Nvlink 链接,提供了超大规模的并行计算能力和极高的内存带宽,适用于大规模的 AI 训练、推理和高性能
    发表于 05-13 17:16

    构建高性能计算芯片

    计算的异构多核架构,对整个芯片行业的高性能 CPU 开发产生了影响。 这些芯片都不太可能进行商业销售。它们针对特定的数据类型和工作负载进行了优化,设计预算庞大,但可以通过提高性能和降低
    的头像 发表于 04-25 10:23 1261次阅读
    构建<b class='flag-5'>高性能</b>计算<b class='flag-5'>芯片</b>

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    和强化学习展开,详细介绍各阶段使用的算法、数据、难点及实践经验。 预训练阶段需要利用包含数千亿甚至数万亿单词的训练数据,并借助由数千块高性能GPU 和高速网络组成的超级计算机,花费数十
    发表于 03-11 15:16

    Xilinx FPGA NVMe主机控制器IP高性能版本介绍应用

    独立的数据写入AXI4-Stream/FIFO接口和数据读取AXI4-Stream/FIFO接口,非常适合于超高容量和超高性能的应用。此外,NVMe Host Controller IP
    发表于 03-09 13:56

    晶晟微纳发布N800超大规模AI算力芯片测试探针卡

    近日,上海韬盛科技旗下的苏州晶晟微纳宣布推出其最新研发的N800超大规模AI算力芯片测试探针卡。这款高性能探针卡采用了前沿的嵌入式合金纳米堆叠技术,旨在满足当前超大规模AI算力
    的头像 发表于 03-04 13:59 863次阅读

    【国产FPGA+OMAPL138开发板体验】(原创)6.FPGA连接ChatGPT 4

    方面。而且,由于ChatGPT 4是一个大型的语言模型。通常,FPGA会用于处理一些底层的数据流或执行特定的硬件加速任务,而ChatGPT 4这样的模型则会在云端或高性能服务器上运行。不过
    发表于 02-14 21:58

    对话国产EDA和IP厂商,如何攻克大规模数字电路设计挑战?

    芯片设计企业关注的焦点。作为芯片产业的根技术和硬科技,EDA和IP大规模数字电路设计中发挥着不可替代的作用,也是集成电路技术发展的重要助推器。其运用的好坏,决定着
    的头像 发表于 12-28 08:23 1151次阅读
    对话国产EDA和<b class='flag-5'>IP</b>厂商,如何攻克<b class='flag-5'>大规模</b>数字电路设计挑战?

    国内企业用SD-WAN加速访问ChatGPT

    。 1.ChatGPT概述 ChatGPT是一种基于大规模训练技术的对话生成模型。它采用Transformer网络架构,在海量文本数据上进行预训练
    的头像 发表于 11-15 11:23 493次阅读

    NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

    通过 Merlin 大幅提升大规模深度多目标精排模型训练性能 本案例中,NVIDIA 团队与陌陌推荐系统团队深度合作,共同使用 NVIDIA GPU 和 Merlin 软件解决方案替代其原有
    的头像 发表于 11-09 10:45 325次阅读
    NVIDIA Merlin 助力陌陌推荐业务实现<b class='flag-5'>高性能</b><b class='flag-5'>训练</b>优化