来源:半导体芯科技编译
Mark Liu 是台湾积体电路制造股份有限公司董事长。
Philip Wong 是斯坦福大学工程学院教授兼台积电首席科学家。
TSMC
1997 年,IBM "深蓝 "超级计算机击败了国际象棋世界冠军加里·卡斯帕罗夫。这是超级计算机技术的一次开创性展示,也是高性能计算有朝一日可能超越人类智能的初露端倪。在随后的 10 年中,我们开始将人工智能用于许多实际任务,如面部识别、语言翻译、推荐电影和商品等。
又过了十五年,人工智能已经发展到可以 "合成知识 "的地步。生成式人工智能,如 ChatGPT 和 Stable Diffusion,可以作诗、创作艺术品、诊断疾病、撰写总结报告和计算机代码,甚至可以设计与人类制造的集成电路相媲美的集成电路。
人工智能将面临巨大的机遇,成为人类所有工作的数字化助手。ChatGPT 就是一个很好的例子,它说明了人工智能如何使高性能计算的使用平民化,为社会中的每一个人带来益处。
所有这些令人惊叹的人工智能应用都归功于三个因素:高效机器学习算法的创新、可用于训练神经网络的海量数据的可用性,以及通过半导体技术的进步在高能效计算方面取得的进展。尽管生成式人工智能革命的贡献无处不在,但却没有得到应有的赞誉。
在过去的三十年里,人工智能领域的重大里程碑都得益于当时领先的半导体技术,没有这些技术是不可能实现的。“深蓝”采用 0.6 微米和 0.35 微米节点的混合芯片制造技术实现的。在 ImageNet 比赛中获胜、开启了当前机器学习时代的深度神经网络,是采用 40 纳米技术实现的。AlphaGo 采用 28 纳米技术征服了围棋比赛,而 ChatGPT 的最初版本是在采用 5 纳米技术制造的计算机上进行训练的。最新版本的 ChatGPT 由采用更先进的 4 纳米技术的服务器驱动。相关计算机系统的每一层,从软件和算法到架构、电路设计和设备技术,都是人工智能性能的倍增器。但公平地说,基础晶体管-器件技术是上述各层技术进步的基础。
如果AI革命要以目前的速度继续下去,那么半导体行业将需要更多的努力。在十年内,它将需要一个 1 万亿晶体管 GPU,也就是说,GPU 的设备数量是当今典型设备的 10 倍。
AI模型规模持续增长
在过去五年中,人工智能训练所需的计算量和内存访问量呈数量级增长。例如,训练 GPT-3 需要相当于每秒 50 亿亿次以上的运算量(即每天 5,000 petaflops )和 3 万亿字节(3 TB)的内存容量。
新的生成式人工智能应用所需的计算能力和内存访问能力都在持续快速增长。我们现在需要回答一个紧迫的问题: 半导体技术如何才能跟上步伐?
从集成器件到集成芯片
自集成电路发明以来,半导体技术一直在缩小特征尺寸,以便在拇指指甲大小的芯片中塞进更多的晶体管。如今,集成度更上一层楼;我们正在超越二维扩展,进入三维系统集成。现在,我们正在把许多芯片组装成一个紧密集成、大规模互连的系统。这是半导体技术集成的范式转变。
在AI时代,系统的能力与集成到系统中的晶体管数量成正比。其中一个主要限制因素是,光刻芯片制造工具的设计是为了制造不超过 800 平方毫米的集成电路,这就是所谓的 “光罩极限”(reticle limit)。但是,我们现在可以将集成系统的尺寸扩展到光刻的光罩极限之外。通过将多个芯片连接到更大的中介层(一块内置互连的硅片)上,我们可以集成一个包含比单个芯片上更多器件的系统。例如,台积电CoWoS技术(
chip-on-wafer-on-substrate )可容纳多达六个光罩场的计算芯片,以及十几个高带宽内存(HBM)芯片。
Nvidia 如何使用 CoWoS 先进封装技术
CoWoS是台积电的硅上芯片先进封装技术,目前已应用于产品中。。示例包括 Nvidia Ampere 和 Hopper GPU。每个都由一个 GPU 芯片和六个高带宽内存立方体组成,全部位于硅中介层上。计算GPU芯片的大小与芯片制造工具目前允许的大小差不多。Ampere 有 540 亿个晶体管,Hopper 有 800 亿个。从 7 纳米技术到更密集的 4 纳米技术的转变使得在基本相同的面积上封装 50% 以上的晶体管成为可能。Ampere 和 Hopper 是当今大型语言模型 (LLM) 训练的主力军。训练 ChatGPT 需要数以万计的此类处理器。
HBM 是另一个对 AI 日益重要的关键半导体技术的实例:通过将芯片堆叠在一起来集成系统的能力,我们台积电称之为系统级集成芯片 (SoIC:
system-on-integrated-chips )。HBM 由控制逻辑 IC 顶部的一组垂直互连的 DRAM 芯片组成。它使用称为硅通孔 (TSV) 的垂直互连来获取信号,并通过每个芯片和焊料凸点来形成存储芯片之间的连接。如今,高性能 GPU 广泛使用 HBMm。
展望未来,3D SoIC 技术可以为当今的传统 HBM 技术提供“无凸通替代方案”(bumpless alternative),在堆叠芯片之间提供更密集的垂直互连。最近的进展表明,HBM 测试结构具有 12 层芯片堆叠,使用混合键合,这种铜对铜的连接密度比焊接凸点更高。该存储器系统在较大的基础逻辑芯片上低温键合,总厚度仅为 600 μm。
高性能计算系统由大量运行大型人工智能模型的芯片组成,高速有线通信可能会迅速限制计算速度。如今,光互连已被用于连接数据中心的服务器机架。不久的将来,我们将需要基于硅光子技术的光接口,与 GPU 和 CPU 封装在一起。这样就能为 GPU 与 GPU 之间的直接光通信提供更高的能效和面积效率带宽,从而使数百台服务器能够像拥有统一内存的单个巨型 GPU 一样运行。由于人工智能应用的需求,硅光子技术将成为半导体行业最重要的使能技术之一。
迈向万亿晶体管 GPU
AMD 如何使用 3D 技术
AMD MI300A 加速处理器单元不仅利用了 CoWoS,还利用了台积电的 3D 技术——SoIC。MI300A 结合了 GPU 和 CPU 内核,旨在处理最大的AI工作负载。GPU 执行AI的密集矩阵乘法运算,而 CPU 则控制整个系统的运行,高带宽内存 (HBM) 则统一为两者服务。9 个采用 5 纳米技术制造的计算芯片堆叠在 4 个采用 6 纳米技术制造的基础芯片之上,这些芯片专门用于缓存和 I/O 流量。基础芯片和 HBM 再硅中介层之上。处理器的计算部分由 1500 亿个晶体管组成。
如前所述,用于人工智能训练的典型 GPU 芯片已经达到了光罩极限 (reticle field limit)。它们的晶体管数量约为 1000 亿个。晶体管数量继续增加的趋势将需要多个芯片,通过 2.5D 或 3D 集成相互连接来执行计算。通过 CoWoS 或 SoIC 以及相关的先进封装技术将多个芯片集成在一起,可使每个系统的晶体管总数大大超过单个芯片的晶体管总数。我们预测,十年内多芯片 GPU 的晶体管数量将超过 1 万亿个。
我们需要在3D堆栈中将所有这些芯片连接在一起,但幸运的是,业界已经能够迅速缩小垂直互连的间距,提高连接密度。而且还有足够的空间容纳更多。我们认为互连密度没有理由不能增长一个数量级,甚至更高。
GPU 的高能效性能趋势
那么,所有这些创新硬件技术是如何提升系统性能的呢?
如果我们看看能效性能指标(EEP:energy-efficient performance)的稳步提升,就能发现服务器 GPU 的发展趋势。EEP是对系统能效和速度的综合衡量。在过去的 15 年中,半导体行业每两年就能将能效性能提高约三倍。我们相信,这一趋势将以历史性的速度持续下去。推动这一趋势的将是多方面的创新,包括新材料、器件和集成技术、极紫外线(EUV)光刻技术、电路设计、系统架构设计以及所有这些技术要素的共同优化等等。
特别是,我们在此讨论的先进封装技术将有助于提高 EEP。此外,系统技术协同优化(STCO: system-technology co-optimization)等概念也将变得越来越重要,在STCO 中,GPU 的不同功能部分被分离到各自的芯片上,并使用性能最好、最经济的技术来构建每个部分。
3D集成电路的Mead-Conway时刻
1978 年,加州理工学院教授 Carver Mead 和施乐 PARC的 Lynn Conway 发明了一种集成电路计算机辅助设计方法。他们使用一套设计规则来描述芯片的缩放比例,这样工程师们就可以轻松地设计超大规模集成电路(VLSI),而无需太多的工艺技术知识。
3D芯片设计也需要这种能力。如今,设计人员需要了解芯片设计、系统架构设计以及硬件和软件优化。制造商需要了解芯片技术、3D IC技术和先进的封装技术。正如我们在 1978 年所做的那样,我们再次需要一种通用语言,以电子设计工具能够理解的方式来描述这些技术。这种硬件描述语言可以让设计人员自由地进行 3D 集成电路系统设计,而无需考虑底层技术。它即将问世: 一种名为 3Dblox 的开源标准已被当今大多数技术公司和电子设计自动化 (EDA) 公司所采用。
隧道之外的未来
在人工智能时代,半导体技术是实现新的人工智能能力和应用的关键因素。新型 GPU 不再受限于过去的标准尺寸和外形尺寸。新的半导体技术也不再局限于在二维平面上缩小下一代晶体管的尺寸。一个集成的人工智能系统可以由尽可能多的高能效晶体管、适用于专业计算工作负载的高效系统架构以及优化的软硬件关系组成。
在过去的 50 年里,半导体技术的发展就像在隧道里行走。前方的道路是清晰的,因为有一条明确的道路。每个人都知道需要做什么:缩小晶体管。
现在,我们已经走到了隧道的尽头。从这里开始,半导体技术将越来越难发展。然而,在隧道之外,还有更多的可能性。我们不再受过去的束缚。
审核编辑 黄宇
-
半导体
+关注
关注
334文章
26766浏览量
213580 -
gpu
+关注
关注
28文章
4661浏览量
128526 -
晶体管
+关注
关注
77文章
9595浏览量
137586 -
AI
+关注
关注
87文章
29611浏览量
267905 -
人工智能
+关注
关注
1789文章
46545浏览量
236820
发布评论请先 登录
相关推荐
评论