电子发烧友网报道(文/周凯扬)从去年国产GPU开始陆续冒尖后,今年各大厂商的动作明显更大了一些,新品频繁面世。但从这些新品的规格和技术来看,其实每家公司对于自己GPU产品的定位都是不同的,我们就选几家国产GPU厂商来分析一下他们的产品定位以及未来技术趋势。
摩尔线程
作为近期刚发布了新品的国产GPU厂商,摩尔线程确实收获了不少关注,他们最新的显卡MTT S80也一度成了热点话题。MTT S80作为一张游戏显卡,搭载了MT-春晓芯片核心,功耗最高250W,单精度浮点算力高达14.4TFLOPS。
不仅如此,MTT S80也是业内首个PCIe 5.0的显卡,支持双向128GB/s的传输带宽。更重要的是,哪怕标榜的是游戏显卡,MTT S80依然支持3D图形渲染、智能多媒体、物理仿真及科学计算和AI计算加速的全功能应用。
MTT S3000 / 摩尔线程
除了MTT S80以外,春晓这一芯片也为摩尔线程带来了面向服务器GPU市场的新产品,MTT S3000。单从芯片规格上来看,MTT S3000与MTT S80都用的是完整的MT-春晓芯片,都内置了4096个MUSA流处理单元,但前者将主频提高到了1.9GHz,FP32也因此提升到了15.2TFLOPS。
为了让MTT S3000更适用于服务器市场,摩尔线程也将其显存提升至了32GB,并增加了对虚拟化的支持,可对GPU弹性切分,MTT S3000也从MTT S80的主动散热改为了被动散热。
到了AI上,摩尔线程的MUSA架构和软件栈为MTT S3000提供了训推一体的支持。除了训练支持TensorFlow、PyTorch、飞桨等常见框架外,摩尔线程还在推理上打造了自研AI推理引擎TensorX,甚至推出了兼容CUDA源码的方案。
可以看出,摩尔线程不仅已经在游戏GPU市场有了弥足珍贵的进展,同样想在服务器市场实现突破,甚至是通过兼容CUDA来吸引更多的客户,这其实也是英伟达这样的GPU巨头主攻的两大方向。但兼容或对标CUDA一法,AMD、英特尔这样的国际大厂也都在推进,却也都是各自为战,考虑到其中涉及的开发投入和难度之大,或许在软件生态上走合作之路会更适合。
芯动科技
在使用GPU这类产品的过程中,支持不同的图形与计算API对于开发者来说尤为重要。而芯动科技的风华GPU在这API上的支持尤为亮眼,目前已经完美支持到OpenGL 4.3、OpenGL ES 3.2、Vulkan 1.2和OpenCL 3.0,这也为风华GPU的开发生态奠定了基础。
芯动高性能接口IP / 芯动科技
虽然其产品性能本身已经足够亮眼,但风华GPU真正最大的优势在于芯动自研高性能接口IP上,包括高带宽内存(GDDR6x、HBM3)、高速SerDes(PCIe 5.0、CXL 2.0)和高清多媒体(HDMI 2.1、eDP 1.4)等等,同时这些IP也实现了对先进工艺的覆盖。而且芯动科技已经在最近推出了跨工艺、跨封装的Chiplet互联解决方案Innolink Chiplet,同时兼容UCIe Chiplet。
对于高性能GPU来说,如果说核心IP决定了性能上限的话,那么这些接口IP就决定了GPU能发挥出多少实力,以及是否能在未来的服务器市场大放异彩。目前看来,风华2号的定位是一款低功耗的GPU产品,更适合用于智能座舱之类的应用中,而风华1号则是面向服务器市场,尤其是像云游戏、云手机之类的场景。
可从规格来看,这两款一年以内发布的产品其实都还没有用到PCIe 5.0之类的新接口技术。芯动科技已经在8月公开表示,风华3号也已经基本完成研发,还支持光线追踪技术,据了解该产品和风华1号一样也是面向服务器/数据中心市场的,但或许还是会侧重在云游戏等商用场景上,相信我们会在未来的发布上看到风华3号更强大的性能表现。
壁仞科技
虽然壁仞科技最近遇上了一些麻烦,但不可否认的是,其BR100系列通用GPU芯片确实在性能上达到了极高的水准。与上面提到的两个GPU不同,BR100虽然是通用计算GPU,但明显更适合于AI和科学计算这样的高性能计算场景,所以BR100并没有去做DirectX和Vulkan这样的图形API支持。
这点从BR100的芯片设计上也能看出,单个BR100由16个流处理簇构成,每个都采用了16个执行单元的设计,而每个执行单元包含16个流处理核心(V-core)和一个向量引擎(T-Core)。V-Core作为SIMT处理器,支持到FP32、FP16、INT32、INT16,用于通用计算。
而T-core在SPC级别的2.5D GEMM架构下,可以极大加速常见的AI运算,诸如MMA矩阵乘加和卷积等。T-Core不仅支持FP32、TF32这些主流数据精度外,还原创定义了TF32+数据精度,相较TF32在实现更高精度的同时,也提高了吞吐性能。
从软件平台上看,壁仞科技的BIRENSUPA不仅支持PyTorch之类的主流框架,也有壁仞自研的推理加速引擎。从BIRENSUPA平台框图中的应用定位来看,壁仞科技的主要发力方向看来还是多媒体、自动驾驶和推荐系统等重AI的场景。
壁仞100P OAM模组 / 壁仞科技
壁仞科技也是在一众国产PCIe产品中,唯一推出了OAM模组的厂商,壁仞科技也和浪潮合作推出了“海玄”这种OAM服务器,实现了8PFLLOPS的峰值算力。不过也正是因为实现了如此高的性能,似乎招致了一些恶意阻碍,但这也恰恰说明了他们走的方向是对的,如果他们能走出这一困境的话,无疑能在服务器市场大有作为。
摩尔线程
作为近期刚发布了新品的国产GPU厂商,摩尔线程确实收获了不少关注,他们最新的显卡MTT S80也一度成了热点话题。MTT S80作为一张游戏显卡,搭载了MT-春晓芯片核心,功耗最高250W,单精度浮点算力高达14.4TFLOPS。
不仅如此,MTT S80也是业内首个PCIe 5.0的显卡,支持双向128GB/s的传输带宽。更重要的是,哪怕标榜的是游戏显卡,MTT S80依然支持3D图形渲染、智能多媒体、物理仿真及科学计算和AI计算加速的全功能应用。
MTT S3000 / 摩尔线程
除了MTT S80以外,春晓这一芯片也为摩尔线程带来了面向服务器GPU市场的新产品,MTT S3000。单从芯片规格上来看,MTT S3000与MTT S80都用的是完整的MT-春晓芯片,都内置了4096个MUSA流处理单元,但前者将主频提高到了1.9GHz,FP32也因此提升到了15.2TFLOPS。
为了让MTT S3000更适用于服务器市场,摩尔线程也将其显存提升至了32GB,并增加了对虚拟化的支持,可对GPU弹性切分,MTT S3000也从MTT S80的主动散热改为了被动散热。
到了AI上,摩尔线程的MUSA架构和软件栈为MTT S3000提供了训推一体的支持。除了训练支持TensorFlow、PyTorch、飞桨等常见框架外,摩尔线程还在推理上打造了自研AI推理引擎TensorX,甚至推出了兼容CUDA源码的方案。
可以看出,摩尔线程不仅已经在游戏GPU市场有了弥足珍贵的进展,同样想在服务器市场实现突破,甚至是通过兼容CUDA来吸引更多的客户,这其实也是英伟达这样的GPU巨头主攻的两大方向。但兼容或对标CUDA一法,AMD、英特尔这样的国际大厂也都在推进,却也都是各自为战,考虑到其中涉及的开发投入和难度之大,或许在软件生态上走合作之路会更适合。
芯动科技
在使用GPU这类产品的过程中,支持不同的图形与计算API对于开发者来说尤为重要。而芯动科技的风华GPU在这API上的支持尤为亮眼,目前已经完美支持到OpenGL 4.3、OpenGL ES 3.2、Vulkan 1.2和OpenCL 3.0,这也为风华GPU的开发生态奠定了基础。
芯动高性能接口IP / 芯动科技
虽然其产品性能本身已经足够亮眼,但风华GPU真正最大的优势在于芯动自研高性能接口IP上,包括高带宽内存(GDDR6x、HBM3)、高速SerDes(PCIe 5.0、CXL 2.0)和高清多媒体(HDMI 2.1、eDP 1.4)等等,同时这些IP也实现了对先进工艺的覆盖。而且芯动科技已经在最近推出了跨工艺、跨封装的Chiplet互联解决方案Innolink Chiplet,同时兼容UCIe Chiplet。
对于高性能GPU来说,如果说核心IP决定了性能上限的话,那么这些接口IP就决定了GPU能发挥出多少实力,以及是否能在未来的服务器市场大放异彩。目前看来,风华2号的定位是一款低功耗的GPU产品,更适合用于智能座舱之类的应用中,而风华1号则是面向服务器市场,尤其是像云游戏、云手机之类的场景。
可从规格来看,这两款一年以内发布的产品其实都还没有用到PCIe 5.0之类的新接口技术。芯动科技已经在8月公开表示,风华3号也已经基本完成研发,还支持光线追踪技术,据了解该产品和风华1号一样也是面向服务器/数据中心市场的,但或许还是会侧重在云游戏等商用场景上,相信我们会在未来的发布上看到风华3号更强大的性能表现。
壁仞科技
虽然壁仞科技最近遇上了一些麻烦,但不可否认的是,其BR100系列通用GPU芯片确实在性能上达到了极高的水准。与上面提到的两个GPU不同,BR100虽然是通用计算GPU,但明显更适合于AI和科学计算这样的高性能计算场景,所以BR100并没有去做DirectX和Vulkan这样的图形API支持。
这点从BR100的芯片设计上也能看出,单个BR100由16个流处理簇构成,每个都采用了16个执行单元的设计,而每个执行单元包含16个流处理核心(V-core)和一个向量引擎(T-Core)。V-Core作为SIMT处理器,支持到FP32、FP16、INT32、INT16,用于通用计算。
而T-core在SPC级别的2.5D GEMM架构下,可以极大加速常见的AI运算,诸如MMA矩阵乘加和卷积等。T-Core不仅支持FP32、TF32这些主流数据精度外,还原创定义了TF32+数据精度,相较TF32在实现更高精度的同时,也提高了吞吐性能。
从软件平台上看,壁仞科技的BIRENSUPA不仅支持PyTorch之类的主流框架,也有壁仞自研的推理加速引擎。从BIRENSUPA平台框图中的应用定位来看,壁仞科技的主要发力方向看来还是多媒体、自动驾驶和推荐系统等重AI的场景。
壁仞100P OAM模组 / 壁仞科技
壁仞科技也是在一众国产PCIe产品中,唯一推出了OAM模组的厂商,壁仞科技也和浪潮合作推出了“海玄”这种OAM服务器,实现了8PFLLOPS的峰值算力。不过也正是因为实现了如此高的性能,似乎招致了一些恶意阻碍,但这也恰恰说明了他们走的方向是对的,如果他们能走出这一困境的话,无疑能在服务器市场大有作为。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
gpu
+关注
关注
28文章
4729浏览量
128890 -
AI
+关注
关注
87文章
30728浏览量
268886
发布评论请先 登录
相关推荐
CPU\GPU引领,国产AI PC进阶
电子发烧友网报道(文/黄晶晶)当前AI PC已经成为PC产业的下一个浪潮,国产CPU、GPU厂商在PC市场一直处于追赶态势,AI PC给了大家新的机遇,在这个赛道
GPU是如何训练AI大模型的
在AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU
《CST Studio Suite 2024 GPU加速计算指南》
《GPU Computing Guide》是由Dassault Systèmes Deutschland GmbH发布的有关CST Studio Suite 2024的GPU计算指南。涵盖GP
发表于 12-16 14:25
《算力芯片 高性能 CPUGPUNPU 微架构分析》第3篇阅读心得:GPU革命:从图形引擎到AI加速器的蜕变
场景精确投射到2D平面;最后在像素着色阶段完成材质渲染和光照明细处理。DirectX API的迭代推动了可编程着色器的发展,解放了GPU的通用计算潜能。特别是像素着色器的设计,启发了我在深度学习任务中
发表于 11-24 17:12
新的Arm GPU助力释放消费电子设备市场中的游戏和AI创新潜能
作为人们日常数字生活中不可或缺的一部分,Arm GPU 赋能了从当今智能手机上的沉浸式游戏,到各类边缘侧人工智能 (AI) 体验的方方面面。
为什么GPU对AI如此重要?
GPU在人工智能中相当于稀土金属,甚至黄金,它们在当今生成式人工智能时代中的作用不可或缺。那么,为什么GPU在人工智能发展中如此重要呢?什么是GPU图形处理器(GPU)是一种通常用于进
大模型时代,国产GPU面临哪些挑战
电子发烧友网报道(文/李弯弯)随着人工智能技术的快速发展,对GPU计算能力的需求也越来越高。国内企业也正在不断提升GPU性能,以满足日益增长的应用需求。然而,相较于国际巨头,国内GPU
国产GPU在AI大模型领域的应用案例一览
电子发烧友网报道(文/李弯弯)近一年多时间,随着大模型的发展,GPU在AI领域的重要性再次凸显。虽然相比英伟达等国际大厂,国产GPU起步较晚、声势较小。不过近几年,国内不少
FPGA在深度学习应用中或将取代GPU
基础设施,人们仍然没有定论。如果 Mipsology 成功完成了研究实验,许多正受 GPU 折磨的 AI 开发者将从中受益。
GPU 深度学习面临的挑战
三维图形是 GPU 拥有如此
发表于 03-21 15:19
硅光计算芯片:AI芯片国产化的关键突破口
大模型训练和推理的硬件以通用图形处理单元(GPU)为主,2022年全球GPU市场规模达到448.3亿美元,美国AI芯片巨头英伟达公司占有80%的市场份额并仍在持续攀升。
发表于 01-19 14:12
•5372次阅读
GPU技术、生态及算力分析
对比AMD从2013年开始建设GPU生态,近10年时间后用于通用计算的ROCm开放式软件平台才逐步有影响力,且还是在兼容CUDA的基础上。因此我们认为国内厂商在软件和生态层面与英伟达CUDA生态的差距较计算性能更为明显。
如何能够实现通用FPGA问题?
FPGA 是一种伪通用计算加速器,与 GPGPU(通用 GPU)类似,FPGA 可以很好地卸载特定类型的计算。从编程角度上讲,FPGA 比 CPU 更难,但从工作负载角度上讲 FPGA
发表于 12-29 10:29
•459次阅读
评论