0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

离散化架构WAGE,训练推理合二为一

DPVg_AI_era 来源:未知 作者:胡薇 2018-05-20 11:11 次阅读

图 1 吴双(左侧)和李国齐(右侧)- 被录用文章的两位作者

清华大学类脑计算研究中心博士生吴双的论文被 ICLR2018 收录并在会上做口头报告。迄今为止,这是中国作为第一署名单位里唯一一篇被 ICLR 会议收录的口头报告文章。该报告主要探讨如何实现对全离散化深度神经网络进行训练和推理,便于部署到嵌入式设备中。

ICLR 是深度学习领域的顶会,更被誉为深度学习的“无冕之王”,得到了 google, Facebook, DeepMind, Amazon,IBM 等众多高科技公司的高度关注和参与。ICLR2018 于当地时间 2018 年 4 月 30 日在加拿大温哥华会展中心召开,为期 4 天。本次大会的主席是深度学习领域三巨头中的 Yoshua Bengio(蒙特利尔大学)和 Yann LeCun (纽约大学 & Facebook),本次大会收到一千多篇投稿文章,其中仅有 23 篇被收录为本次会议的口头报告文章。

吴双同学的报告题目为 “Training and Inference with Integers in Deep Neural Networks”。

离散化架构 WAGE,训练推理合二为一

该报告主要探讨如何实现对全离散化深度神经网络进行训练和推理,便于部署到嵌入式设备中。

在深度学习领域,高精度意味着大面积、高功耗,从而导致高成本,这背离了嵌入式设备的需求,因此硬件加速器和神经形态芯片往往采用低精度的硬件实现方式。在低精度的算法研究方面,之前的工作主要集中在对前向推理网络的权重值和激活值的缩减,使之可以部署在硬件加速器和神经形态芯片上;而网络的训练还是借助于高精度浮点实现(GPU)。这种训练和推理的分离模式往往导致需要耗费大量的额外精力,对训练好的浮点网络进行低精度转换,这不仅严重影响了神经网络的应用部署,更限制了在应用端的在线改善。

为应对这种情况,本文提出了一种联合的离散化架构 WAGE,首次实现了将离散化神经网络的反向训练过程和前向推理合二为一。具体来说就是将网络权重、激活值、反向误差、权重梯度用全用低精度整形数表达,在网络训练时去掉难以量化的操作及操作数(比如批归一化等),从而实现整个训练流程全部用整数完成。

在数据集实测中,WAGE 的离散化方法能够有效的提高测试精度。由于该方法能够同时满足深度学习加速器和神经形态芯片的低功耗和反向训练需求,更使之具备高效地在线学习的能力,对未来多场景、多目标的可迁移、可持续学习的人工智能应用将大有裨益。

WAGE框架将训练和推理中的所有层中的权重( weights ,W),激活值( activations ,A),梯度( gradients ,G)和误差( errors ,E)限制为低位整数。首先,对于操作数,应用线性映射和方向保持移位来实现三元权重,用于激活和梯度累加的8位整数。其次,对于操作,批归一化由一个常数因子取代。用于微调的其他技术(如具有动量和L2正则化的SGD优化器)可以简化或放弃,性能的下降很小。考虑到整体双向传播,我们完全简化了累积比较周期的推理,并分别训练到具有对齐操作的低位乘法累加(MAC)周期。

所提出的框架在MNIST,CIFAR10,SVHN,ImageNet数据集上进行评估。相对于只在推理时离散权重和激活的框架,WAGE具有可比的准确性,并且可以进一步减轻过拟合。WAGE为DNN生成纯粹的双向低精度整数数据流,可以将其用于专门硬件的训练和推理。我们在GitHub上发布了代码。

图1

图2:WAGE的量化方法

实现细节

MNIST:采用LeNet-5的一个变体。WAGE中的学习率η在整个100个epochs中保持为1。我们报告了测试集上10次运行的平均准确度。

SVHN&CIFAR10:错误率的评估方式与MNIST相同。

ImageNet:使用AlexNe模型在ILSVRC12数据集上评估WAGE框架。

表1:WAGE及其他方法在多个数据集上的测试或验证错误率(%)

图3:训练曲线

结论和未来工作

这项工作的目标是展示在DNN中应用低位整数训练和推理的潜力。与FP16相比,8-bit整数运算不仅会降低IC设计的能耗和面积成本(约5倍,见Table 5),还会减少训练期间内存访问成本和内存大小要求,这将大大有利于具有现场学习能力的的移动设备。这个工作中有一些没有涉及到的点,未来的算法开发和硬件部署还有待改进或解决。

表5

WAGE使DNN的纯低位整数数据流进行训练和推理得以实现。我们引入一种新的初始化方法和分层常数比例因子来取代批归一化,这是网络量化的一个难点。此外,还探讨了误差计算和梯度累积的位宽要求。实验表明,我们可以量化梯度的相对值,并且在反向传播中丢弃大多数小值及其数量级。虽然为了稳定收敛和最终的精度,权重更新的积累是必不可少的,但仍然可以在训练中进一步减少压缩和内存消耗。WAGE在多个数据集实现了最高精度。通过微调、更有效的映射、批归一化等量化方法,对增量工作有一定的应用前景。总而言之,我们提出了一个没有浮点表示的框架,并展示了在基于整数的轻量级ASIC或具有现场学习能力的FPGA上实现离散训练和推理的潜力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4774

    浏览量

    100898
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4753

    浏览量

    129064

原文标题:ICLR oral:清华提出离散化架构WAGE,神经网络训练推理合二为一

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器学习的第阶段:推理

    我们之前讨论过,训练过程是机器学习的第阶段,而推理则紧随其后,机器学习的第阶段。在训练阶段
    发表于 06-28 16:03 6033次阅读

    步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    性能,加速模型的训练推理过程。 2. 生成式 AI 解决方案 与英伟达 Grace CPU、新代网络芯片等产品起,面向生成式 AI 共同组成完整解决方案,
    发表于 05-13 17:16

    如何把两个电路合二为一

    大家好求助 本人做了两个arduino回路。 word 里面,左边的是控制电机左右转动的。右边是通过滑动变阻器控制电机转速的。 想把两个电路合二为一。 程序上的编写 请给位给予建议
    发表于 08-23 05:55

    模拟技术与数字技术怎样才能合二为一 电子资料

    模拟技术与数字技术怎样才能合二为一,还是数字技术替代模拟技术?作为般应用的话,的确可以区分开模拟和数字系统。但是在尖端领域,你很难区分他们的。比如,高速数字电路板要考虑的敷铜阻抗和信号反射问题。
    发表于 04-21 06:14

    图像预处理和改进神经网络推理的简要介绍

    提升识别准确率,采用改进神经网络,通过Mnist数据集进行训练。整体处理过程分为两步:图像预处理和改进神经网络推理。图像预处理主要根据图像的特征,将数据处理成规范的格式,而改进神经网络推理
    发表于 12-23 08:07

    如何用PyArmNN加速树莓派上的ML推理

    NN推理引擎构建个示例应用程序,将图像分类火或非火。 本指南使用Raspberry Pi 3或4设备。树莓派设备是由Arm CPU驱动的 霓虹灯的架构。Neon是针对Arm处理器
    发表于 08-02 15:40

    Android和iPhone完美融合,鲁大师发布鲁蛋数据线将接口合二为一

    日前,鲁大师智能硬件推出了款鲁蛋数据线,号称真正做到了苹果lightning和安卓Micro接口合二为一
    发表于 12-06 10:52 1382次阅读

    天猫精灵Queen发布 款美妆镜和AI智能音箱合二为一的新产品

    3月4日下午,天猫精灵官方微博宣布,正式推出新品天猫精灵Queen。从这样的命名不难看出,天猫精灵Queen是款面对女性消费者推出的产品,其将女孩子日常接触的美妆镜和AI智能音箱合二为一,在产品的创意上确实是别出心裁。
    发表于 03-05 16:42 1567次阅读

    高通发布Wi-Fi或将5G和Wi-Fi合二为一

    高通发布多款Wi-Fi 6芯片,5G和Wi-Fi将合二为一
    的头像 发表于 08-28 08:59 3673次阅读

    基于离散正交匹配追踪的中继混合预编码算法

    提高大规模多输入多输出(MMo)中继系统的波東成形增益,降低混合预编码架构中移相器与射频链路的硬件成本,提出种基于离散正交匹配追踪的中
    发表于 03-31 14:45 29次下载
    基于<b class='flag-5'>离散</b><b class='flag-5'>化</b>正交匹配追踪的中继混合预编码算法

    汽车的电动与智能正在合二为一 电动车的下波“进化”会在哪?

    汽车的电动与智能正在合二为一,电动的普及需要靠智能来拉动,而智能的最佳载体正是电动
    的头像 发表于 06-13 14:59 1063次阅读

    离散与分布式:改变军事训练和模拟系统

      增强现实和虚拟现实(AR/VR)等进步正在重新定义在日益多样的军事训练场景中对质量和性能的期望。这些改进还表明,随着系统工程师代“培训即服务”做准备,系统设计策略需要改变哲
    的头像 发表于 11-11 15:07 703次阅读

    华为新品发布会:HUAWEI WATCH Buds耳机手表二合一

      HUAWEI WATCH Buds通过极致的架构设计,高集成度设计精益求精:21层立体堆叠I超微型精密转轴设计和小巧便捷的耳机合二为一
    的头像 发表于 12-09 14:25 1055次阅读
    华为新品发布会:HUAWEI WATCH Buds耳机手表<b class='flag-5'>二合一</b>

    深度学习框架区分训练还是推理

    深度学习框架区分训练还是推理吗 深度学习框架是个非常重要的技术,它们能够加速深度学习的开发与部署过程。在深度学习中,我们通常需要进行两个关键的任务,即训练
    的头像 发表于 08-17 16:03 1403次阅读

    提升销量,理想汽车或将零售和交付部合二为一

    据了解,自4月份以来,理想汽车已经启动了2.0版本的矩阵式组织结构升级,对部分部门进行了结构性调整。其中项重要改变就是将零售与交付部门合二为一,进步细化分工,其目的无疑是增加销量。
    的头像 发表于 06-04 14:21 576次阅读