0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Tenstorrent推出AI芯片Grayskull,兼顾高效能和高扩展性的创新架构

牵手一起梦 来源:DesignNews 作者:佚名 2020-05-15 14:55 次阅读

5月14日消息,长期神秘的加拿大AI芯片初创企业Tenstorrent终于在今年有了新动向,4月7日,Tenstorrent发布其首款AI芯片Grayskull,算力最高可达368TOPS,相当于是高通2019年12月发布的旗舰手机SoC骁龙865算力的24倍。

相较市面上现有AI芯片产品,Grayskull不仅能兼顾高算力和低能耗,还具备高度可扩展的特点,可扩展到10万个节点,支持从小型嵌入式设备到大型数据中心的AI推理和训练任务。

一、兼顾高效能和高扩展性的创新架构

Tenstorrent在2016年创立,总部位于加拿大多伦多市。在创办Tenstorrent之前,其创始人兼CEO Ljubisa Bajic曾在NVIDIA芯片制造部门担任高级架构师,还曾在AMD担任IC设计师和架构师。

Bajic不认为像NVIDIA这样的芯片公司会很快消失,但是该公司迟早会研发不是GPU的AI芯片产品。

Bajic总结,当今对人工神经网络的研究主要集中于两个阵营:一是倾向于在CPU、GPU等硬件上进行密集的矩阵计算,当前已大规模落地;二是对脉冲神经网络(SNN,Spiking neural network)的研究,目前尚处研究阶段,还未实现广泛应用。

密集矩阵算法能够提高芯片密集计算能力,但是能耗较高,常通过以太网扩展到其他机器进行通信

SNN通过电活动的尖峰来传递信息,运作方式更接近自然神经元。每次根据神经网络的行为,只有一定比例的神经元会被激活,这致使网络运行时能耗较低、条件执行效率较高。

但SNN无法保证硬件效率。Bajic解释,训练SNN时,设计人员试图用微分方程来直接描述自然神经元的运作过程,然后尽可能在硬件上实现这些运作方式。“对于工程师来说,这个过程基本上就是把许多标量处理器核心连接到标量网络上。”Bajic说。

据Bajic介绍,Tenstorrent希望能够设计出兼顾硬件效率、条件执行效率、存储效率和高度可扩展性(超过10万个芯片)的产品。

二、动态消除不必要计算,大幅节省功耗和运算时间

如何才能兼顾上述特性呢?研究人员设计了一个能实现细粒度条件执行、动态稀疏处理的完全可编程体系结构,可将较大数据组的复杂计算任务分解成多个较小数据组的计算,由芯片上的各个内核进行独立的处理。为了避免性能损失,Tenstorrent在这些数据组上启动了控制流。

“在运行较小矩阵时,我们可以加上‘if’语句来判别是否运行它们,如果要运行它们,还可以决定是用较低精度、全精度或是两者之间的其他精度。”Bajic说。通过动态消除不必要的计算,该方法打破了计算/带宽需求与模型大小之间的直接联系,使得模型可以适应于已提出的确切输入,并对模型进行训练。

这种创新的设计方法一方面实现了非常出色的能效,但另一方面也带来了关于软件和可扩展性的挑战。

首先需要与硬件适配的新软件堆栈。Bajic称:“问题在于,这个领域内许多公司推出的软件堆栈都假设有一套固定的维度和固定的工作要运行。因此,为了能够在运行时启用适配功能,需要硬件和软件堆栈都能支持它。”

而Tenstorrent的设计将许多决策程序从编译时转到运行时,以实现正确大小的输入。“当我们在运行时去除一些东西后,我们确切地知道了这些东西有多大了。所以要跟上硬件的能力,对软件来说是相当大的挑战。”Bajic说道。

其次是可扩展性。创建可扩展到10万个节点的体系架构,意味着在没有共享内存空间的情况下进行操作,缓存一致性会致使难以扩展到超过几百个节点,这是Tentorrent想要避开的麻烦。

具体而言,Tenstorrent使用一系列Tensix内核来通过网络实现通信。Tensix内核阵列与一个定制的双2D环形片上网络(NoC)集成在一起,这些网络可以在芯片外扩展,从而创建包含成百上千个处理器的大型芯片到芯片集群,并且最小化了用于调度粗粒度数据传输的软件负担。

每个Tensix内核的算力约为3TOPS,包含1个高利用率的数据包处理器、1个可编程的单指令流多数据流(SIMD)、1个密集数学计算模块、5个高效且灵活的单流(single-issue)的精简指令集(RISC)。

这5个RISC内核是相同的,但不一定同时运行相同的代码。它们具有基本的算术和逻辑运算能力,并且可以管理流控制,还会争夺共享计算引擎中更先进的硬件资源,在该硬件资源上执行矩阵、卷积和矢量/ SIMD操作。 此外,每个Tensix内核还具有1MB的本地静态随机存取存储器(SRAM)。

假设一个神经网络层有两个需要相乘的矩阵,该神经网络层的输入被分解成“以太网大小的块”,即子张量,然后将这些张量帧化为一组固定长度的数据包,分布在多个Tensix内核中。

每个数据包都会进入内核的SRAM缓冲区中,触发软件去找到数据包并运行一个硬件解包引擎,硬件解包引擎去除所有的数据包帧、解释其含义、解压缩数据包,在RISC内核的指导下发送到计算引擎。再往下进行,这些数据包被重新打包并存储在SRAM缓冲区中,以准备传输到下一个Tensix内核中。

灵活的并行化和完整的可编程性可实现运行时适应和工作负载平衡,从而有助于节省功耗并缩短运行时间,从而显著节省成本。

三、Grayskull芯片:一颗相当于24颗骁龙865

基于其架构设计理念,Tenstorrent可打造能执行推理和训练任务的高性能芯片,可支持小至小型嵌入式设备、大至大型数据中心的工作负载部署。

Tenstorrent研发的首款推理芯片Grayskull包含120个Tensix内核、120MB本地SRAM和8个通道的LPDDR4,支持高达16GB的外部DRAM和16通道的PCI-E Gen4。

在75W总线供电的PCIe卡上,Grayskull的算力最高可达到368TOPS。预计今年晚些时候,Tenstorrent将推出功耗为300W的训练设备。

相比之下,高通2019年发布的骁龙865芯片算力为15TOPS。也就是说,一颗Grayskull芯片就能完成约24颗骁龙865芯片才能完成的运算量。

在条件执行的情况下,使用BERT-Base的SQuAD 1.1数据集,Grayskull芯片可实现高达23345句/秒的性能,使其性能比当今的领先解决方案高出26倍。

结语:第二代Tensix核心芯片或于秋季发布

许多机构和研究者都在推进AI芯片的设计、研发。AI芯片可以优化许多领域的生产流程,比如,或可用于提升疾病追踪模型、疫苗研发工具的效率,还可推动情感人工智能等新兴领域的发展。

这些研究存在一个共同的问题——如何节约总拥有成本(TCO)。在Bajic看来,许多现有AI芯片方案非常耗电,而通过架构创新,兼顾高性能和低功耗的AI芯片将推动AI在你的智能可穿戴设备上完成运算任务。

在推出Grayskull芯片的同时,Tenstorrent也在推进第二代Tensix核心芯片的研发。第二代Tensix核心芯片被称为Wormhole,核心架构和Grayskull相同,且使用很多以太网链接来进一步扩展系统规模,预计于2020年秋季发布。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19168

    浏览量

    229153
  • 芯片
    +关注

    关注

    454

    文章

    50430

    浏览量

    421865
  • AI
    AI
    +关注

    关注

    87

    文章

    30172

    浏览量

    268432
  • Tenstorrent
    +关注

    关注

    0

    文章

    11

    浏览量

    135
收藏 人收藏

    评论

    相关推荐

    单臂螺旋天线:无线通信中的高效能解决方案

    深圳特信电子|单臂螺旋天线:无线通信中的高效能解决方案
    的头像 发表于 10-31 09:04 153次阅读

    RISC-V拥有巨大市场潜力的原因

    AI技术深度融合,例如Meta基于RISC-V架构推出AI推理加速器,通与谷歌合作推出基于RI
    发表于 09-30 14:20

    COB灯条以其灵活高效能节能的特点走进装修行业

    COB灯条以其高效能、节能特性、灵活的设计以及丰富的色温选择,在装修行业中展现出了广阔的应用前景。
    的头像 发表于 09-05 16:21 189次阅读
    COB灯条以其灵活<b class='flag-5'>高效能</b>节能的特点走进装修行业

    三星电子携手通,打造高效能芯片

    三星电子携手通,共同组建技术先锋队,旨在招揽业界精英,倾力打造专为XR(扩展现实)领域设计的高效能芯片。这一举措标志着三星电子在XR市场迈出了坚实的一步,预示着与苹果等科技巨头的竞争
    的头像 发表于 08-08 15:29 858次阅读

    DS1008JN:精准与高效能的完美结合

    DS1008JN:精准与高效能的完美结合
    的头像 发表于 07-24 14:55 290次阅读

    DCAC电源模块:为新能源汽车充电系统提供高效能源转换

    BOSHIDA DC/AC电源模块:为新能源汽车充电系统提供高效能源转换 DC/AC电源模块是新能源汽车充电系统中至关重要的组件,它能够将直流电转换为交流电,为电动车提供高效能源转换。随着人们对可
    的头像 发表于 06-25 13:17 819次阅读
    DCAC电源模块:为新能源汽车充电系统提供<b class='flag-5'>高效能</b>源转换

    M31宣布推出先进LPDDR内存IP,助力HPC高效能运算应用

    M31宣布推出最新的LPDDR内存IP解决方案,以满足高效能运算(HPC)应用市场日益增长的需求,甚至放眼人工智能(AI)领域,除了算力之外,还有储存、快速撷取、加密和巨量信息分析,因此,AI
    的头像 发表于 06-24 11:24 478次阅读
    M31宣布<b class='flag-5'>推出</b>先进LPDDR内存IP,助力HPC<b class='flag-5'>高效能</b>运算应用

    解决方案丨PPEC车载DCDC转换器:新能源汽车的高效能源动力系统

    。三、核心功能 PPEC车载DC/DC转换器具有多种功率型号、轻量化设计,以及高效能稳定性和全面的保护特性,为新能源汽车车载电源系统提供稳定可靠的高效解决方案。PPEC车载DC/DC转换器核心
    发表于 06-20 11:39

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    2024年3月19日,[英伟达]CEO[黄仁勋]在GTC大会上公布了新一代AI芯片架构BLACKWELL,并推出基于该架构的超级
    发表于 05-13 17:16

    UVLED固化烘箱:如何实现高效能、低能耗的固化过程?

    。 首先,UVLED固化烘箱的核心技术——LED发光技术,是实现高效能固化的关键。LED光源具有发光效率、能耗低的特点,其能量转换效率远高于传统光源。这意味着UVLED固化烘箱在固化过程中,能够更快速、更均匀地照射到材料表面,从而引发光敏材
    的头像 发表于 05-09 14:44 485次阅读
    UVLED固化烘箱:如何实现<b class='flag-5'>高效能</b>、低能耗的固化过程?

    AC/DC电源模块的高效能源管理与效率优化

    BOSHIDA AC/DC电源模块的高效能源管理与效率优化 AC/DC电源模块是一种常见的电源转换装置,用于将交流电转换为直流电。它被广泛应用于各种电子设备中,如计算机、通信设备、工业自动化设备等
    的头像 发表于 05-06 13:31 272次阅读
    AC/DC电源模块的<b class='flag-5'>高效能</b>源管理与效率优化

    交换芯片架构设计

    交换芯片架构设计是网络通信中的关键环节,它决定了交换机的性能、功能和扩展性
    的头像 发表于 03-18 14:12 652次阅读

    苹果M3芯片是ARM架构

    苹果M3芯片采用的是ARM架构。这种架构具有高效能和低功耗的特点,使得M3芯片在提供出色性能的同时,也能保持较低的能耗。
    的头像 发表于 03-08 16:03 1907次阅读

    Tenstorrent将为日本LSTC新型边缘2纳米AI加速器开发芯片

    加拿大AI芯片领域的初创公司Tenstorrent与日本尖端半导体技术中心(LSTC)达成了一项多层次合作协议。根据协议内容,LSTC将采用Tenstorrent的世界级RISC-V
    的头像 发表于 02-28 10:49 636次阅读

    分布式大屏控制系统的可扩展性设计

    分布式大屏控制系统的可扩展性设计是确保系统能够适应不断增长的需求和未来发展的关键因素。以下是可扩展性设计的几个方面: 模块化设计:将系统划分为多个模块,每个模块具有独立的功能和接口。这种设计方式使得
    的头像 发表于 01-29 14:46 538次阅读