0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习中低精度计算产生高准确度结果的解决方案

zhKF_jqr_AI 2018-03-29 16:16 次阅读

有人认为,用低精度训练机器学习模型会限制训练的精度,事实真的如此吗?本文中,斯坦福大学的DAWN人工智能研究院介绍了一种名为bit recentering的技术,它可以用低精度的计算实现高准确度的解决方案。以下是论智对原文的编译,文末附原论文地址。

低精度计算在机器学习中已经吸引了大量关注。一些公司甚至已经开始研发能够原生支持并加速低精度操作的硬件了,比如微软的脑波计划(Project Brainwave)和谷歌的TPU。虽然使用低精度计算对系统来说有很多好处,但是低精度方法仍然主要用于推理,而非训练。此前,低精度训练算法面临着一个基本困境(fundamental tradeoff):当使用较少的位进行计算时,舍弃误差就会增加,这就限制了训练的准确度。根据传统观点,这种制约限制了研究人员在系统中部署低精度训练算法的能力,但是这种限制能否改变?是否有可能设计一种使用低精度却不会限制准确度的算法呢?

答案是肯定的。在某些情况下我们可以从低精度训练中获得高准确度的解决方案,在这里我们使用了一种新的随机梯度下降方法,称为高准确度低精度(HALP)法。HALP比之前的算法表现更好,因为它减少了两个限制低精度随机梯度下降准确度的噪声源:梯度方差和舍弃误差。

为了减少梯度方差带来的噪音,HALP使用常见的SVRG(stochastic variance-reduced gradient)技术。SVRG能定期使用完全梯度来减少随机梯度下降中使用的梯度样本的方差。

为了降低量化数字带来的噪声,HALP使用了名为“bit centering”的新技术,它背后的原理是,当我们接近最优点时,梯度渐变的幅度变小。也就是说携带的信息变少,于是我们能对其进行压缩。通过动态地重新调整低精度数字,我们可以在算法收敛时降低量化噪声。

将这两种技术结合,HALP能够以和全精度SVRG同样的线性收敛率生成任意准确地解决方案,同时在低精度迭代时使用的是固定位数。这个结果颠覆了有关低精度训练算法的传统观点。

为什么低精度的随机梯度下降有所限制?

首先先交代一下背景:我们想要解决以下这个训练问题:

这是用来训练许多机器学习模型(包括深度神经网络)的经典实证问题:让风险最小化。解决这个问题的标准方法之一是随机梯度下降,它是一种通过运行接近最佳值的迭代算法。

在每次迭代时,it是从{1,..., N}中随机挑选的一个指数,我们虽然想运行这样的算法,但是要保证迭代wt是低精度的。也就是说,我们希望它们使用较少位的定点运算(通常为8位或16位)。但是,当直接对随机梯度下降更新规则而进行这项操作时,我们遇到了问题:问题的解决方案w可能无法再选中的定点表示中显示出来。例如,如果一个8位的定点表示,可以储存{-128,-127,…,127}之间的整数,正确的解决方法是w*=100.5,那么我们与解决方案的距离不可能小于0.5,因为我们不能表示非整数。除此之外,将梯度转换为定点导致的舍弃误差可能会减慢收敛速度,这也影响了低精度SGD的准确性。

Bit Centering

当我们运行随机梯度下降时,在某种意义上,我们世纪正对一堆梯度样本进行平均(或总结)。Bit Centering背后的关键思想是随着梯度渐变逐渐变小,我们可以用同样的位数、以较小的误差对它们求平均值。想要知道为什么,想像一下,你想对[-100, 100]之间的数字求平均值,然后和[-1, 1]的平均值作比较。在前一个集合中,我们需要选择一个定点表示,它可以覆盖整个集合(例如{-128,-127,…,127})。而在第二个集合中,我们选择的定点要覆盖[-1, 1],例如{-128/127,-127/127,..., 126/127,127/127}。这就意味着在固定位数情况下,第二种情况中的相邻可表示数字之间的差值比第一种情况更小,因此舍弃误差也更低。

这个关键的想法让我们得到了启发。为了在[-1, 1]中求出比[-100, 100]中更少误差的平均数,我们需要用一个不同的定点表示,即我们应该不断更新低精度表示:随着梯度渐变得越小,我们应该用位数更小的定点数字,覆盖更小的范围。

但是我们该如何更新表示呢?我们要覆盖的范围到底多大?如果目标是带有参数μ的强凸,那么不管我们何时在某一点w采取完整的梯度渐变是,都可以用以下公式限制最佳位置

这种不等式为最终的解决方案提供了一系列可能的定位,所以无论何时计算完整梯度,我们都可以重新居中并缩放低精度表示以覆盖此范围。下图说明了这一过程。

低精度计算产生高准确度结果的解决方案

HALP

HALP是运行SVRG并在每个时期都使用具有完全梯度的bit centering更新低精度表示的算法。原论文有对这一方法的具体描述,在这里我们只简单做些介绍。首先,我们证明了,对于强凸的Lipschitz光滑函数,只要我们使用的位数b满足

其中κ是该问题的条件数字,那么为了适当设置尺寸和时间长度,HALP将以线性速度收敛到任意准确度的解。更显然的是,0<γ<1,

其中wk+1表示第K次迭代后的值。下表表现了这一变化过程

低精度计算产生高准确度结果的解决方案

图表通过对具有100个特征和1000个样本的合成数据集进行线性回归,来评估HALP。将它与全精度梯度下降、SVRG、低精度的梯度下降和低精度的SVRG进行比较。需要注意的是,尽管只有8位(受到浮点错误的限制),HALP仍能收敛到精度非常高的结果上。在这种情况下,HALP可以比全精度SVRG收敛到更高精度的结果中,因为HALP较少使用浮点运算,因此对浮点的非准确性不敏感。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8377

    浏览量

    132409

原文标题:斯坦福DAWN实验室实现用低精度计算产生高准确度结果

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AFE4404可否用于运动时心率检测?准确度如何?

    AFE4404可否用于运动时心率检测?准确度如何?
    发表于 11-19 08:26

    数字压力表的准确度如何?是否适用于精密测量?

    在工业和科研领域,压力的测量工作至关重要,而数字压力表因其直观的数字显示和高精度的特性,成为了这些领域不可或缺的测量工具。那么,数字压力表的准确度到底如何,它是否能满足精细测量的需求呢?
    的头像 发表于 11-07 13:58 105次阅读
    数字压力表的<b class='flag-5'>准确度</b>如何?是否适用于精密测量?

    TLV320AIC3104内置ADC实现MIC数据采集的准确度,为什么Codec测得的数据比原始信号要大那么多?

    第一个问题:用3104内置ADC 实现MIC数据采集的准确度: 实测结果是:采集的数据与实现信号大了约170mVrms; 测量办法:用示波器测量MIC1RP引脚的信号,用来与转换的数据对比
    发表于 10-14 08:22

    光电轴角编码器 准确度等级5级是多少

    光电轴角编码器的准确度等级是衡量其测量精度的一个重要指标。对于准确度等级为5级的光电轴角编码器,其相关的计量特性通常包括分度误差、测角重复性和零位误差等。 一、分度误差 分度误差是编码器每两个相邻
    的头像 发表于 10-12 09:50 186次阅读

    深度剖析在线长度测量仪:机器视觉引领高精度测量新时代

    系统具备强大的计算能力,可以对原始数据进行预处理、计算和分析,并将计算结果以图形、表格或数值等形式输出给用户。 二、主要特点 高精度:在线长度测量仪通常采用高
    发表于 10-10 16:51

    噪声测量仪器精度应达到几级以上

    精度依次降低。 0型声级计的准确度是±0.4分贝,是实验室标准声级计。 1型声级计的准确度是±0.7分贝,一般在实验室或声学条件可以严格控制的现场使用。 2型声级计的准确度是±1分贝,
    的头像 发表于 10-09 15:09 332次阅读

    模拟集成音叉电平开关解决方案应用说明

    电子发烧友网站提供《模拟集成音叉电平开关解决方案应用说明.pdf》资料免费下载
    发表于 09-11 09:27 0次下载
    <b class='flag-5'>高</b>模拟集成<b class='flag-5'>度</b>音叉电平开关<b class='flag-5'>解决方案</b>应用说明

    影响电源纹波测试准确性的因素

    出相应的解决方案。 测试设备的选择 测试设备的选择是影响电源纹波测试准确性的首要因素。测试设备的性能、精度、稳定性等都会对测试结果产生影响。
    的头像 发表于 08-02 09:42 513次阅读

    影响气密性测试结果的原因分析及解决方案分享

    结果会受到很多因素的影响,本文就来为大家逐一分析这些影响因素,并提供解决方案,以确保测试结果准确性。1.温度变化对测试结果的影响我们都知
    的头像 发表于 05-30 08:30 1648次阅读
    影响气密性测试<b class='flag-5'>结果</b>的原因分析及<b class='flag-5'>解决方案</b>分享

    如何用ADUC845产生准确度的脉冲?

    希望用aduc845产生如下占空比的精准脉冲: 希望200us周期和20us高电平时间非常准确。 现在用Time0 在6MHz产生时,20us脉冲的浮动比较大,有2~3us的变化;200us的周期
    发表于 01-11 08:18

    湿度传感器的哪些特性影响测量准确度

    湿度传感器的哪些特性影响测量准确度? 湿度传感器测量准确度受到许多特性的影响。下面将详细介绍影响湿度传感器测量准确度的一些重要特性。 1. 温度 湿度传感器的测量准确度受环境温度的影响
    的头像 发表于 12-25 14:28 942次阅读

    请问要达到0.05%的测量精度,需要多少位分辨率和准确度的ADC?

    请问要达到0.05%的测量精度,需要多少位分辨率和准确度的ADC。 能不能推荐几款,最好是能有2路同时输入的高精度ADC.
    发表于 12-18 06:54

    AD7785温控方案准确度超标怎么解决?

    测试值误差都满足要求。 2.焊掉差模电容,实测1142.45欧,误差很小 目前比较迷惑的是,恒流源的输出电压超标到底对测试结果有没有影响?此电路C116为何对测试结果有如此大的影响?
    发表于 12-06 08:25

    ADAS3022怎样能提高ADC的测量准确度呢?

    在调试ADAS3022这颗ADC时每次测量会有30+mV的波动,信号源电压波动不到0.1mV,怎样能提高ADC的测量准确度呢?下图为不同次测量的值(信号源1.1V),感觉误差挺大:
    发表于 12-04 07:39