英伟达：5nm实验芯片用INT4达到INT8的精度-电子发烧友网

IEEE计算机运算研讨会。

32位与16位格式的混合精度训练，正是当前深度学习的主流。

最新的英伟达核弹GPU H100，刚刚添加上对8位浮点数格式FP8的支持。

英伟达首席科学家Bill Dally现在又表示，他们还有一个“秘密武器”：

在IEEE计算机运算研讨会上，他介绍了一种实验性5nm芯片，可以混合使用8位与4位格式，并且在4位上得到近似8位的精度。

目前这种芯片还在开发中，主要用于深度学习推理所用的INT4和INT8格式，对于如何应用在训练中也在研究了。

相关论文已发表在2022 IEEE Symposium on VLSI Technology上。

新的量化技术

降低数字格式而不造成重大精度损失，要归功于按矢量缩放量化（per-vector scaled quantization，VSQ）的技术。

具体来说，一个INT4数字只能精确表示从-8到7的16个整数。

其他数字都会四舍五入到这16个值上，中间产生的精度损失被称为量化噪声。

传统的量化方法给每个矩阵添加一个缩放因子来减少噪声，VSQ则在这基础之上给每个向量都添加缩放因子，进一步减少噪声。

关键之处在于，缩放因子的值要匹配在神经网络中实际需要表示的数字范围。

英伟达研究人员发现，每64个数字为一组赋予独立调整过的缩放因子可以最小化量化误差。

计算缩放因子的开销可以忽略不计，从INT8降为INT4则让能量效率增加了一倍。

Bill Dally认为，结合上INT4计算、VSQ技术和其他优化方法后，新型芯片可以达到Hopper架构每瓦运算速度的10倍。

还有哪些降低计算量的努力

除了英伟达之外，业界还有更多降低计算量的工作也在这次IEEE研讨会上亮相。

马德里康普顿斯大学的一组研究人员设计出基于Posits格式的处理器核心，与Float浮点数相比准确性提高了多达4个数量级。

Posits与Float相比，增加了一个可变长度的Regime区域，用来表示指数的指数。

对于0附近的较小数字只需要占用两个位，而这类数字正是在神经网络中大量使用的。

适用Posits格式的新硬件基于FPGA开发，研究人员发现可以用芯片的面积和功耗来提高精度，而不用增加计算时间。

ETH Zurich一个团队的研究基于RISC-V，他们把两次混合精度的积和熔加计算（fused multiply-add，FMA）放在一起平行计算。

这样可以防止两次计算之间的精度损失，还可以提高内存利用率。

FMA指的是d = a * b + c这样的操作，一般情况下输入中的a和b会使用较低精度，而c和输出的d使用较高精度。

研究人员模拟了新方法可以使计算时间减少几乎一半，同时输出精度有所提高，特别是对于大矢量的计算。

相应的硬件实现正在开发中。

巴塞罗那超算中心和英特尔团队的研究也和FMA相关，致力于神经网络训练可以完全使用BF16格式完成。

BF16格式已在DALL·E 2等大型网络训练中得到应用，不过还需要与更高精度的FP32结合，并且在两者之间来回转换。

这是因为神经网络训练中只有一部分计算不会因BF16而降低精度。

最新解决办法开发了一个扩展的格式BF16-N，将几个BF16数字组合起来表示一个数，可以在不显著牺牲精度的情况下更有效进行FMA计算

关键之处在于，FMA计算单元的面积只受尾数位影响。

比如FP32有23个尾数位，需要576个单位的面积，而BF16-2只需要192个，减少了2/3。

另外这项工作的论文题目也很有意思，BF16 is All You Need。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

芯片

芯片

+关注

关注
459

文章
51940

浏览量
433923
英伟达

英伟达

+关注

关注
22

文章
3900

浏览量
92924

原文标题：英伟达首席科学家：5nm实验芯片用INT4达到INT8的精度

文章出处：【微信号：ICViews，微信公众号：半导体产业纵横】欢迎添加关注！文章转载请注明出处。

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

英伟达：5nm实验芯片用INT4达到INT8的精度

评论

无刷电机驱动（空气净化器）方案

鸿诚志远RK系列行业主板套件

鸿志龙系列开发板

开源鸿蒙版AI主机盒

贝启BQ3588HM开发板

RA生态工作室

160

下载

合众恒跃

73

下载

FCom富士晶振

79

下载

FCom富士晶振

54

下载

大大通

54

下载

低功耗×低抖动×多封装：FCom富士晶振FCO-PJ系列时钟方案解析

高效能电动工具控制方案：基于STM32G473和STDRIVE101的参考设计

适配1.8V/2.5V/3.3V电压的高稳定晶振方案（含MCU推荐）

Nordic nRF52840 | Dialog DA14695 等可穿戴平台超低功耗振荡器芯片应用方案

基于 NXP NCJ29D5D UWB 定位算法方案

搜索历史

英伟达：5nm实验芯片用INT4达到INT8的精度

评论

硬件原理图学习笔记

TurMass™ vs LoRa：无线通讯模块的革命性突破

RZT2H CR52双核BOOT流程和例程代码分析

干簧继电器在RF信号衰减中的应用与优势

ElfBoard嵌入式教育科普|ADC接口全面解析

深入理解C语言：C语言循环控制

第 21 届（顺德）家电电源与智能控制技术研讨会圆满落幕--其利天下斩获颇丰

来自资深工程师对ELF 2开发板的产品测评

飞凌嵌入式2025嵌入式及边缘AI技术论坛圆满结束

常用运放电路总结记录

运放-运算放大器经典应用电路大全-应用电路大全-20种经典电路

RDK X3新玩法:超沉浸下棋机器人开发日记

芯对话 | 微处理器监控电路革新：CBM70X系列 重构系统可靠性

喜讯！米尔电子与安路科技达成IDH生态战略合作，共筑FPGA创新生态

FOC控制算法详解

芯对话 | 微处理器监控电路革新：CBM70X系列重构系统可靠性