电子发烧友网报道(文/周凯扬)对于每个想要自己开发和部署AI模型的应用开发者来说,硬件和服务器支出都是一笔不小的费用。就以英伟达的GPU为例,即便是消费级的GPU,最近也迎来了一波涨价潮,更不用爆火的A100/H100等型号了。
即便是租赁服务器,基于这些热门硬件的服务器也远算不上便宜,因此不少云服务厂商为了进一步拉拢更多AI应用开发者,纷纷推出了性价比更高的选项。这些选项有的是基于CPU的AI计算服务器,有的是基于第三方AI加速器打造的服务器,还有的则是由云服务厂商基于自研加速器打造且独家提供的服务器。
谷歌高性价比TPU面世
谷歌在今年8月底发布了第五代的自研TPU,TPU v5e。谷歌称该加速器实现了性能与成本效益的平衡。相比上一代TPU v4,TPU V5e提供了同成本下两倍的训练性能,以及针对LLM和生成式AI模型2.5倍的推理性能。
TPU v5e架构
单个TPU v5e Pod由256个芯片互联,总带宽超过400Tb/s,INT8总算力达100petaOps。而且谷歌为TPU v5e采用了更灵活的配置选项,其支持8个不同的虚拟机配置,单个切片支持单芯片到250多个芯片,如此一来客户就可以根据自己的模型大小来选择合适的配置。
而且过去借助谷歌TPU进行的训练负载只局限于单个切片中,谷歌为此开发了Multislice技术,可通过芯片间互联以及数据中心网络中的多个TPU Pod相连,从而将训练工作扩展到数万个芯片上。
为了进一步扩大对开发生态的支持,TPU v5e还内置了对JAX、Pytorch和Tensorflow等领先AI框架,以及 Hugging Face 的 Transformers 和 Accelerate、PyTorch Lightning 和 Ray等一系列常用开源工具的支持。
开放使用与自用
近日,谷歌终于宣布TPU v5e进入公用阶段,且在最新的MLPerf训练3.1测试中,TPUv5e获得了更好的表现。在该测试中,谷歌改进了创新的混合精度训练算法,除了原生支持的BF16外,还用到了INT8精度格式。这意味着客户在提高了模型准确性的同时,将花费更少的成本。
从谷歌云对于TPU v5e的定价表来看,v5e在成本效益上确实有着极大的优势。不过需要注意的是,v5e与v2、v3 Pod类似,每个芯片中只有一个TensorCore,而v4 Pod的每个芯片中有两个TensorCore。这也是为何v5e的单芯片峰值算力为197TFLOPS,而v4的单芯片峰值算力为275TFLOPS,可即便如此,在按芯片小时的定价下,其所需成本依然低于v4。
在如此高的性价比下,谷歌不仅将TPU提供给外部开发者使用,其内部一些开发项目也开始用上TPU v5e。比如其PaLM模型的创建,就用到了上文提到的Multislice技术,谷歌的Bard团队同样在用TPU v5e训练这一生成式AI聊天机器人。
写在最后
其实在TPUv5e开放使用之前,谷歌也正式开放了A3 VM这类GPU加速虚拟机的使用。这也是多数云服务厂商采用的多方案供应策略,其自研加速器只需要为客户提供一个高性价比的方案,而追求更高性能的客户,依然可以选择基于H100 GPU打造的服务器。
-
AI
+关注
关注
87文章
31845浏览量
270676
发布评论请先 登录
相关推荐
把SiC价格打下来!两年内拟降30%,市场加速渗透
传DeepSeek自研芯片,厂商们要把AI成本打下来
![传DeepSeek自研芯片,厂商们要把<b class='flag-5'>AI</b><b class='flag-5'>成本</b><b class='flag-5'>打下来</b>](https://file1.elecfans.com/web3/M00/08/54/wKgZPGevFn2AP6-UAARLffR7VDU319.png)
评论