0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

正视差距,国产GPGPU的进阶之路

Felix分析 来源:电子发烧友网 作者:Felix 2021-09-28 09:03 次阅读
2021年一月,上海天数智芯半导体有限公司(以下简称:天数智芯)宣布,公司旗舰7nm工艺GPGPU云端训练芯片BI成功点亮,这是国内第一款全自研、真正基于GPU架构下的7nm工艺GPGPU训练芯片。

紧接着,2021年3月31日,天数智芯正式对外发布全自研高性能云端7nm芯片BI及产品卡,实现国产云端高性能GPGPU芯片从0到1的突破。在算力方面,天数智芯BI产品单芯每秒可进行147万亿次FP16计算(147TFLOPS@FP16)。

天数智芯在BI产品“点亮”时提到,BI产品的理论峰值性能达市场主流产品的2倍。一时间,国产GPGPU似乎已经站在世界之巅。但天数智芯产品副总裁邹翾在接受电子发烧友采访时表示:“实测性能对用户才是关键,目前国内的软件生态是短板,几乎90%的AI应用都基于国外的基础软件栈,如何在现有软件生态上充分发挥芯片的计算力,提供优秀的实测性能,这是国产GPGPU 发展的关键。”


天数智芯产品副总裁邹翾

减少客户迁移的成本

软件的重要性是毋庸置疑的,是发挥GPGPU硬件潜力的必要一环,让抽象的算力资源能够和具体应用深度结合。目前,在GPGPU领域,无论是CUDA/OpenCL/TensorRT这些硬件加速平台,还是TensorFlow/PyTorch等主流深度学习开发框架,主导者都是国际厂商或机构。邹翾认为:“自己的软件平台一定是需要的,但目前来说,我们与国外主流厂商还有比较大的差距。而且不能单从某一颗芯片上去对比,还包括产品的覆盖范围、生态等方面。尤其是生态建设,这是国内厂商必须要面对的问题。”

他还说到,国内企业一定要敢于承认这种差距,在解决这些问题以后,国内的运算平台才会有真正的用武之地。我们企业还是要围绕怎么解决用户需求去发展,在这个过程中不断追赶并缩小这种差距。。

在天数智芯的系统软件方案中有标注,该公司除了提供高效的全栈式解决方案和全套SDK,也强调API兼容业界主流生态以及无痛迁移。“提供高效率的软件结构,最大限度降低已有客户的开发迁移成本,极大地影响着整个产业的发展。” 邹翾指出,“天数智芯在产品的设计之初就关注到,客户需要最大限度降低跨平台的开发成本。我们考虑到GPGPU产品架构的通用兼容性,本着以客户需求为出发点的原则,从实际角度为客户实现跨平台转换的无痛迁移。”

从云端走向更广阔的场景

在天数智芯BI产品的介绍中我们看到,这款全自研通用计算GPGPU芯片聚焦于云端训练市场。长期以来,云端训练市场被国际巨头垄断,不仅加速卡产品成本高,且生态较为封闭,制约了AI产品多元化发展和升级迭代。

邹翾介绍说,BI产品是国内第一款全自研、真正基于通用GPU架构的GPGPU云端高端训练芯片,以比同类产品更小的芯片面积 、更低的功耗,提供主流厂商实测接近的性能。总结而言,BI产品有以下几个优势:
a) 全自研IP核心;
b) GPGPU架构,更具有通用性及灵活性;
c) 采用先进的 7nm工艺制程,性能效率高,在同样的 power水平上性能更高;
d) 软件对主流生态兼容,客户的跨平台开发成本更低。

作为一种通用计算芯片,云端训练只是GPGPU典型的应用场景之一,正如NVIDIA所言,GPGPU最终的目的是将AI引入到各行各业中。邹翾也谈到:“我们做的GPGPU全称是通用图形处理器(General-Purpose Computing on Graphics Processing Units),就是让本为图形图像处理而生的GPU能够运行图形渲染之外的通用计算任务。”

在采访的过程中,我们谈到了端侧AI的应用。邹翾表示,GPU在端到端AI部署中,属于一个已经被验证的芯片架构。AI端侧发展会驱动应用背后更多新型函数和新型算子的出现,这些需求将被融合到GPU未来的软硬件开发中。

下面这段引述是他对于GPGPU在与各类型AI芯片相比特点的总结:
GPGPU的设计特点在于其通用可编程性,对于层出不穷的新的算法和应用,能做到性能和开发成本间较好的平衡。同时,基于GPGPU的通用性,客户可以在类似软硬件架构间的产品间进行应用的无痛迁移。

在GPGPU领域,NVIDIA无疑是行业的标杆,不仅拥有百万开发者支持的CUDA,还在指令集的覆盖面、颗粒度、效率等维度有领先优势,再考虑到产业生态,国产GPGPU替代还有很长的路要走。在NVIDIA官网有提到,AI应用不仅需要大的内存池,也需要CPU和GPU紧密耦合

对于这一点,邹翾认为,GPU注重的是同类型的数据按照同样的处理流程进行高效并行处理,CPU的优势是处理复杂逻辑流程。CPU和GPU在一个芯片上是可以实现的,而且以前也存在这种整合性的产品,但是对于高端的、云端的CPU加上GPU同时实现,需要非常大的尺寸规模,而且会限制芯片在各自领域的性价比。

天数智芯的下一步

艾瑞咨询此前在相关报告中指出,2020年中国人工智能基础层市场规模为497亿元,为AI产业总规模的33%,AI芯片的高增长是产业规模增长的主要推动力。未来,算力模块的智能服务器国产化率将逐步提升。

毫无疑问,云端训练在未来很长一段时间内仍将是AI芯片的主要市场,市场占比会一直处于前列。但正如邹翾所言,随着AI、5G技术的持续发展与应用落地,端侧及边缘侧未来对算力性能的要求会越来越大。其中,数据中心以及金融、电信等方面将会是很大的市场。

他表示:“目前天数智芯的产品是云端7nm通用计算芯片BI及加速卡,未来公司将聚焦GPGPU领域的高通用性及更广阔的应用领域。天数智芯始终以市场需求为导向,结合公司技术优势,关注客户需求痛点并推出适合的GPGPU产品。随着城市数字化转型,传统行业智能化转型升级需求逐渐扩大,5G、大数据中心、人工智能、工业物联网无人驾驶、智慧城市等众多智能应用领域对高端GPGPU芯片产品的需求量都在急剧增加。”

2021年3月1日,天数智芯对外宣布完成12亿元人民币的C轮融资。在企业高速发展的过程中,除了资金要到位,人才是重中之重。“天数智芯目前已经拥有了一支全球顶尖的数字集成电路设计与基础软件设计科学家团队,为实现公司‘做算力引擎,创世界一流’的愿景而砥砺前行。这支完整的GPGPU研发团队,由公司联合创始人、高级副总裁及首席科学家郑金山先生带领,占比公司总人数85%以上,这其中既有一批行业经验超过20年的世界级技术专家,也有一大批拥有5-15年业界经验的高执行力技术菁英,亦不乏来自于全球顶级院校的博士。” 邹翾对此讲到,“按照公司的业务发展,我们将会持续不断地吸纳优秀人才深耕国产GPGPU芯片设计。随着新产品的推出,团队也将进一步扩大。另外,根据我们产品规划和市场发展需要,天数智芯也会进一步通过融资支持公司的长远发展。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 软件
    +关注

    关注

    69

    文章

    4562

    浏览量

    86676
  • 天数智芯
    +关注

    关注

    0

    文章

    94

    浏览量

    5471
  • GPGPU
    +关注

    关注

    0

    文章

    26

    浏览量

    4852
收藏 人收藏

    评论

    相关推荐

    CPU\GPU引领,国产AI PC进阶

    电子发烧友网报道(文/黄晶晶)当前AI PC已经成为PC产业的下一个浪潮,国产CPU、GPU厂商在PC市场一直处于追赶态势,AI PC给了大家新的机遇,在这个赛道国产厂商加速了布局与渗透。 首款国产
    的头像 发表于 09-01 02:15 4575次阅读
    CPU\GPU引领,<b class='flag-5'>国产</b>AI PC<b class='flag-5'>进阶</b>

    国产芯片原厂的出路:从风潮到现实的破局之路

    国产芯片原厂的出路:从风潮到现实的破局之路
    的头像 发表于 08-12 17:54 285次阅读

    国产FPGA的发展前景是什么?

    ,提升产品性能和技术水平。通过与国际巨头的合作与竞争,国产FPGA在容量、制程、性能等方面逐步缩小与国际先进水平的差距。 技术创新:国产FPGA厂商积极探索新技术、新应用,如SoC FPGA(系统级可编程
    发表于 07-29 17:04

    大国质造——匠心砺技,解读深视智能从国产替代到行业领先的传感器发展之路

    大国质造——匠心砺技,解读深视智能从国产替代到行业领先的传感器发展之路
    的头像 发表于 07-27 08:40 188次阅读
    大国质造——匠心砺技,解读深视智能从<b class='flag-5'>国产</b>替代到行业领先的传感器发展<b class='flag-5'>之路</b>

    商汤科技采购40000颗英伟达芯片,缩小中美算力差距

    徐冰认为,国产芯片崛起以及算力商品化带来的投资价值,使中美算力差距有望逐步缩小。只要中国持续在算力研发上投入资金及资源,便能拉近与美国的算力差距
    的头像 发表于 05-28 11:25 705次阅读

    开源芯片系列讲座第20期:基于RISC-V向量扩展的开源GPGPU软硬件设计

    在当前国际科技竞争日益激烈的情势下,我国急需要建立一个采用开源指令集GPGPU架构,构建起统一的软硬件生态。相关参与方共同努力,共同建设起我国自主可控的GPGPU产业,服务于我国电子信息核心关键产业。
    的头像 发表于 05-20 16:27 210次阅读
    开源芯片系列讲座第20期:基于RISC-V向量扩展的开源<b class='flag-5'>GPGPU</b>软硬件设计

    从杰发科技AutoChips AC8015看国产汽车芯片突围之路

    原标题:从杰发科技AutoChips AC8015看国产汽车芯片突围之路 来源:Gartner 长期以来,中国汽车芯片一直依赖恩智浦、英飞凌、瑞萨、德州仪器等国际大厂,进口比例高达90%以上。根据
    的头像 发表于 04-08 02:57 648次阅读
    从杰发科技AutoChips AC8015看<b class='flag-5'>国产</b>汽车芯片突围<b class='flag-5'>之路</b>

    RK3568驱动指南|驱动基础进阶篇-进阶5 自定义实现insmod命令实验

    RK3568驱动指南|驱动基础进阶篇-进阶5 自定义实现insmod命令实验
    的头像 发表于 02-20 14:10 482次阅读
    RK3568驱动指南|驱动基础<b class='flag-5'>进阶</b>篇-<b class='flag-5'>进阶</b>5 自定义实现insmod命令实验

    RK3568驱动指南|驱动基础进阶篇-进阶8 内核运行ko文件总结

    RK3568驱动指南|驱动基础进阶篇-进阶8 内核运行ko文件总结
    的头像 发表于 01-31 14:58 939次阅读
    RK3568驱动指南|驱动基础<b class='flag-5'>进阶</b>篇-<b class='flag-5'>进阶</b>8 内核运行ko文件总结

    以龙芯、鲲鹏、海光为例,谈国产芯片的进阶发展

    现如今,国内芯片产业发展进入深水期,“从无到有”的任务已经顺利完成,正在迈入“由弱到强”的进阶发展。以龙芯、鲲鹏、海光等国产CPU六强为例,都在引进技术的基础上,成功实现了不同程度的突破,并都在各自
    的头像 发表于 01-18 16:56 650次阅读

    你了解步进阶梯指令吗?

    进阶梯指令是一种在编程中常用的控制结构,它允许程序按照一定的顺序执行一系列操作。
    的头像 发表于 12-14 17:17 707次阅读
    你了解步<b class='flag-5'>进阶</b>梯指令吗?

    从图形到通用计算:GPGPU技术的进化之路

    在当今的计算世界中,GPGPU(General-Purpose computing on Graphics Processing Units)已成为一种重要的技术概念。它与传统的图形处理单元(GPU
    的头像 发表于 12-01 12:55 884次阅读
    从图形到通用计算:<b class='flag-5'>GPGPU</b>技术的进化<b class='flag-5'>之路</b>

    汽车半导体的国产替代之路

    长达近三年之久的缺芯潮,叠加以美国为首的西方国家层层加码的制裁。2022年,国产芯片行业硬是从北美芯片进口量中,抢下了13%的订单量,但是美国对我们的打压不仅没有停止,反而变本加厉的搞起了合纵连横的芯片联盟
    的头像 发表于 09-21 16:27 699次阅读
    汽车半导体的<b class='flag-5'>国产</b>替代<b class='flag-5'>之路</b>

    基于select!宏的进阶用法

    宏,它可以让我们同时监听多个异步事件,一旦其中一个事件触发,就可以立即执行相应的代码。在本教程中,我们将详细介绍 select!宏的进阶用法,并提供多个示例来帮助您更好地理解和掌握这个宏的使用方法。 进阶用法 除了基础用法之外,select!宏还有一些
    的头像 发表于 09-19 15:35 484次阅读

    STM32进阶之串口环形缓冲区实现

    STM32进阶之串口环形缓冲区实现
    的头像 发表于 09-19 09:20 2001次阅读
    STM32<b class='flag-5'>进阶</b>之串口环形缓冲区实现