用基于SRAM的测试芯片实现加速AI推理-电子发烧友网

瑞萨电子开发了一种新的内存处理器 (PIM) 技术，用于在低功耗边缘设备中加速 AI 推理。用于基于 SRAM 技术的测试芯片实现了 8.8 TOPS/W 的运行卷积神经网络 (CNN) 工作负载，这是最常用于图像识别的算法类型。

瑞萨电子现有一代 AI 推理加速器基于其动态可重构处理器 (DRP) 架构，达到 1 TOPS/W 量级，足以在终端节点实现实时图像识别。该公司表示，新的 PIM 技术在 TOPS/W 方面几乎提高了一个数量级，并且可能成为在端点实施增量学习的基础。

内存处理器是一种越来越流行的人工智能推理工作负载技术，其中涉及将大量输入数据与权重因子相乘。在 PIM 设备中，当读取数据时，在存储器本身中执行乘法累加 (MAC) 操作。

在瑞萨电子设备中，存储权重的存储单元可以通过控制单元的输出开关与输入数据相乘，从而控制输出电流。测量位线中的电流然后有效地将所有输出加在一起。以这种方式在内存中执行 MAC 操作，通过避免不必要的数据传输，消除了内存和处理器之间的瓶颈。

三元SRAM

在接受 EETimes 的独家采访时，瑞萨电子高级首席工程师 Koichi Nose 解释了用于提高精度和降低功耗的新技术。

“传统的内存处理器技术无法为大规模计算提供足够的精度，”Nose 说，并强调了传统上需要解决的变通办法，以规避由工艺变化引起的低可靠性。“二进制数据也不足以表达一些复杂的神经网络……它会导致准确性下降。”

新的 PIM 技术是三元的，这意味着每个单元都具有三种状态：-1、0 或 1。Nose 解释说，这允许表示比二进制单元更复杂的数据。

如果三进制存储单元保持+1或-1，则电流可以流入位线，但如果存储单元存储0，则没有电流流动，这有助于保持低功耗。

“此外，重量数据可以很容易地扩展到任意位数，”Nose 说。“神经网络中的权重数据是多位信息，一个零或一个大的正负值。在二进制单元中表达多位符号信息很困难。所提出的存储器电路可以通过利用三元单元和简单的数字计算块的组合来轻松表达任意符号位操作......因为这可以支持每个用户所需的不同计算精度，用户可以优化精度和精度之间的平衡能量消耗。”

能量消耗

Nose 表示，传统的 PIM 拓扑使用 ADC 将位线电流转换为输出数据值，但尽管 ADC 很有效，但它们耗电大且占用宝贵的芯片面积。

瑞萨电子的 PIM 技术使用标准 SRAM 宏中的 1 位读出放大器作为比较器，与可灵活控制电流的复制单元（相当于存储单元的当前生成部分）结合使用。将复制单元电流与三元单元电流进行比较有效地检测三元单元的电流输出。

零检测器还有助于降低功耗。如果 MAC 运算结果等于 0，则停止比较器的操作以节省能量。

“在 [典型] 神经网络电路中，几乎所有节点都分配为零；只有少量的神经元被激活，大约 1%。所以几乎所有的计算结果都归零，”Nose 说。“激活零检测器电路会关闭比较器并有助于降低功耗。通过将比较器 AD 转换器技术和零检测器技术相结合，可以将功耗降低一个数量级。”

工艺变化

在 SRAM 阵列中，制造工艺的变化经常导致故障。由于这些工艺变化，当将数据写入具有显着不同电气特性的单个单元时，就会出现错误。

“为了避免这个问题，我们使用了神经网络的相同特征——几乎所有节点都分配为零，”他说。“我们可以通过改组数据来避免计算错误，以便将零存储在 [不利] 受影响的单元格中。”

在三进制存储单元中，如果存储零，则位线中没有电流流动，因此求和结果不依赖于单元电流。

如何识别受到不利影响的细胞？

“我们正在开发其他一些错误单元检测方法，但在这个芯片中，我们使用了一种简单的方法，”他说。“我们测量神经网络的输出并检查结果是否正确，以识别[不存储]正确输出值的错误单元。”

测试芯片

Renesas 的 3×3 mm 测试芯片基于 12nm 工艺技术构建，由四个集群组成，每个集群可以同时运行不同的 AI 工艺。在每个集群中，神经网络权重数据存储在 PIM 块中，MAC 运算结果存储在标准 SRAM 块中。

测试芯片包含 4 Mb 的 PIM 计算内存和 1.5 MB 的 SRAM，足以在不使用外部存储器的情况下评估紧凑型 CNN。该芯片实现了8.8 TOPS/W的功率效率。

原型 AI 模块中的测试芯片的简单演示还结合了小型电池、微控制器、相机和其他外围设备，表明只需 5 mW 即可实现用于实时人员检测的推理。

审核编辑黄昊宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

芯片

芯片

+关注

关注
455

文章
50789

浏览量
423464
sram

sram

+关注

关注
6

文章
767

浏览量
114683
AI

AI

+关注

关注
87

文章
30851

浏览量
269008

AI推理CPU当道，Arm驱动高效引擎

AI的训练和推理共同铸就了其无与伦比的处理能力。在AI训练方面，GPU因其出色的并行计算能力赢得了业界的青睐，成为了当前AI大模型最热门的芯片

发表于 11-13 14:34 •2421次阅读

FPGA和ASIC在大模型推理加速中的应用

随着现在AI的快速发展，使用FPGA和ASIC进行推理加速的研究也越来越多，从目前的市场来说，有些公司已经有了专门做推理的ASIC，像Groq的LPU，专门针对大语言模型的

发表于 10-29 14:12 •428次阅读

NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise，为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的

发表于 10-27 10:03 •216次阅读

李开复:中国擅长打造经济实惠的AI推理引擎

10月22日上午，零一万物公司的创始人兼首席执行官李开复在与外媒的交流中透露，其公司旗下的Yi-Lightning（闪电模型）在推理成本上已实现了显著优势，比OpenAI的GPT-4o模型低了31倍。他强调，中国擅长打造经济实惠的AI

发表于 10-22 16:54 •357次阅读

AMD助力HyperAccel开发全新AI推理服务器

提高成本效率。HyperAccel 针对新兴的生成式 AI 应用提供超级加速的芯片 IP/解决方案。HyperAccel 已经打造出一个快速、高效且低成本的推理系统，

发表于 09-18 09:37 •363次阅读

摩尔线程携手东华软件完成AI大模型推理测试与适配

近日，摩尔线程与东华软件云筑AI创新中心宣布，双方已完成大模型推理测试与适配。依托摩尔线程的全功能GPU国产算力，东华软件打造安全可信的基于私有化大模型的“智多型（A.I.Cogniflex）”

发表于 07-31 10:51 •739次阅读

LLM大模型推理加速的关键技术

LLM（大型语言模型）大模型推理加速是当前人工智能领域的一个研究热点，旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型推理加速关键技术的详细探讨，内容将涵盖模型压缩、

发表于 07-24 11:38 •885次阅读

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

发表于 05-27 11:50 •534次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

性能，加速模型的训练和推理过程。 2. 生成式 AI 解决方案与英伟达 Grace CPU、新一代网络芯片等产品一起，面向生成式 AI 共

发表于 05-13 17:16

AI推理，和训练有什么不同？

如果要用一句话概括AI的训练和推理的不同之处，我觉得用“台上一分钟，台下十年功”最为贴切。话说小明已经和心目中的女神交往数年，在邀约女神出门这件事上积累了大量的经验数据，但却依然捉摸不透其中的玄机

发表于 04-29 08:06 •210次阅读

Marvell获AI芯片订单，2026财年将贡献25亿美元营收

根据Marvell透露，已经开始为客户A和B批量生产AI训练及推理加速器，且预期最早于2025年和2026年实现对客户A和C的AI

发表于 04-15 15:38 •568次阅读

开发者手机 AI - 目标识别 demo

Network Runtime 神经网络运行时，作为中间桥梁连通上层AI推理框架和底层加速芯片，实现A

发表于 04-11 16:14

UL Procyon AI 发布图像生成基准测试，基于Stable Diffusion

UL去年发布的首个Windows版Procyon AI推理基准测试，以计算机视觉工作负载评估AI推理性能。新推出的图像生成

发表于 03-25 16:16 •881次阅读

Groq LPU崛起，AI芯片主战场从训练转向推理

人工智能推理的重要性日益凸显，高效运行端侧大模型及AI软件背后的核心技术正是推理。不久的未来，全球芯片制造商的主要市场将全面转向人工智能推理

发表于 02-29 16:46 •1170次阅读

使用NVIDIA Triton推理服务器来加速AI预测

这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。

发表于 02-29 14:04 •580次阅读