0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

INT8量子化PyTorch x86处理器

jf_pJlTbmA9 来源:jf_pJlTbmA9 作者:jf_pJlTbmA9 2023-08-31 14:27 次阅读

英特尔

概览概览

INT8 量子化是加速在x86 CPU平台上进行深层学习推断的有力技术。 通过将模型的重量和活化的精确度从32位浮点(FP32)降低到8位整数(INT8 ) , INT8 量子化可以显著提高推论速度,降低内存要求,同时又不牺牲准确性。

我们将讨论PyTorrch公司x86 CPU 的INT8 量化的最新进展, 重点是新的x86 量化后端。 我们还将简要审视与 PyTorrch 2. 0 Export (PT2E) 和TrchInducor公司(TrchInducor) 的新的量化路径。

X86 量化后端

PyTorrch目前建议的量化方式是:FX在 PyTorrch 2. 0 之前,x86 CPU 的默认量化后端(a.k.a.a. QEngine)是FBGEMM,它利用FBGEM 性能库实现性能加速。在PyTorch 2.0 版中,引入了名为 X86 的新量化后端,以取代FBGEMM。x86 量化后端提供与FBGEM 原始后端相比,通过利用FBGEM和F英特尔-一ANAPI神经网络图书馆( oneDNN)内核图书馆。

X86 后端的性能收益

为了衡量新的X86后端后端的绩效效益,我们根据69个流行的深深学习模式(见图1-3(以下) 使用第4 Genen Intelé Xeon可缩放处理器。结果显示,与FP32 的推论性能相比,地平面性能加速2.97X,而FBGEMM后端的加速度为1.43X。下图显示,与x86 后端和FBGEMM后端相比,每个模型性能加速度是每模型性能加速度。

wKgZomTv9GyAR5-1AAIeyTAn_cA978.jpg

图1 图1: 使用 x86 后端1 的不小于 2x 的性能促进模型1

wKgZomTv9KKAK1WbAAH1iRmix3A699.jpg

图2 图2: 2x-4x 286 后端1 的 2x-4x 性能助推模型

wKgaomTv9UmACZyeAAJ2SyQSHTY715.jpg

图3 图3: 具有 x86 后端1 的大于 4x 性能助推的模型1

x86 后端的使用

默认值为 2.0 时, x86 平台上的用户将使用 x86 的量化后端, 而使用默认后端时他们的 PyTorrch 程序将保持不变。 或者, 用户可以指定 x86 为明确的量化后端 。
下面是PyTorrch 静态训练后量化的代码片段, 带有 x86 量化后端 。

从 cherch.ao. quantization 导入的点火炬 获取 _ default_ qconfig_ 映射来自 rch. quantization. quantize_ fx 导入准备_ fx, 转换_ fx qconfig_mapping = get_ default_ qconfig_mapping ()

x86 后端技术细节

我们根据我们基准模型的性能数字设计了超速发送规则,以决定是否援引一个DNN 或FBGEMM 性能图书馆来实施演进或矩阵乘法操作。这些规则是操作种类、形状、CPU架构信息等组合。在这里关于更多的设计和技术讨论,请参看以下文件:征求评论意见.

下一个步骤, 带有新的量化路径 PyTorch 2. 0 导出

新的量化路径,即PyTorrch 2. 0 Export (PT2E),虽然还远未最后确定,但还处于早期设计和PoC阶段。新的方法将在未来取代FX量化路径。它以TrchDymona Export 的能力为基础,这是PyTorrch 2.0 发布FX 图形时引入的一个特性。这个图随后被量化并降为不同的后端。TrchIngentor,即新的DL PyTorrch 编译器,在FP32 加速x86 CPU的速度方面已经显示出有希望的结果。我们正积极努力使它成为PT2E 的量化后端之一。我们认为,新的路径将导致INT8 推论性表现的进一步改善,因为不同层次的熔化更加灵活。

结语

PyTorrch 2.0 版中引入的x86 后端显示,在x86 CPU平台上INT8 的推断速度有了显著改善。 与原始的FBGEMM后端相比,它提供了1.43X的加速速度,同时保持了后向兼容性。 这一增强可以使终端用户受益,而其程序只需略微修改或不作任何修改。 此外,目前正在开发一个新的量化路径,即PT2E, 正在开发之中, 并有望在未来提供更多的可能性 。

承认

特别感谢Nikita Sulga、Vasiliy Kuznetsov、Supriya Rao和Jongsoo公园。 我们一起在改善PyToch CPU生态系统的道路上又向前迈出了一步。

配置

1AWS EC2 r 7iz. metal-16xl situ (Intel(R) Xeon(R) Gold 6455B, 32-core/64-thread, Turbo Boft On, 超导, 内存: 8x64GB, 储存: 192GB); OS: Ubuntu 22.04.1 LTS; Kernel: 5.1.50-1028-aws; 批量大小:1; 核心每例: 4; PyTorch 2.0 RC3; 火炬Vision 0.1.0 cpu, Intel于 3/77/2023 进行测试, 5月没有反映所有公开的安全最新情况。


审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19494

    浏览量

    231584
  • 内核
    +关注

    关注

    3

    文章

    1387

    浏览量

    40514
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10932

    浏览量

    213568
  • pytorch
    +关注

    关注

    2

    文章

    808

    浏览量

    13439
收藏 人收藏

    相关推荐

    海光国产x86处理器未来可能会在中芯国际生产

    海光方面对国产X86处理器一直比较低调,没有透露是哪家晶圆厂生产的,不过这个问题也不算复杂,AMD的第一代Zen处理器使用的是格芯的工艺。因此不难猜测。
    的头像 发表于 06-27 16:13 1.3w次阅读

    国产X86处理器与国际CPU有多大差距?有人做了个测试

    国产处理器何时能够达到世界领先水平?这个问题几乎是每一个关心国产半导体的人都在期待的,尤其是国产的X86处理器
    的头像 发表于 02-04 11:35 8133次阅读

    五厂商十月推x86处理器+Windows 8平板

    根据中国台湾媒体的报道,随着Windows 8系统在今年10月的发布,一线PC厂商也将在10月份推出X86处理器+Windows 8系统组合的平板电脑,这其中包括惠普、戴尔、联想、宏碁
    发表于 03-23 09:31 1029次阅读

    政务办公标准配置:兆芯国产X86处理器

    目前,联想开天M6100台式机和昭阳CF03商用笔记本电脑成功入围上海市政采购目录并迈向大规模推广应用,这两款电脑的共同之处在于都采用了具有自主国产芯的兆芯X86通用处理器。那么让人不禁发问,兆芯X86
    发表于 07-27 10:56 2175次阅读

    Intel纪念首颗x86处理器8086 40周年,8086颗8086K免费赠送!

    在本届台北电脑展上,Intel正式发布了i7-8086K处理器,纪念首颗x86处理器8086 40周年。
    发表于 06-08 09:51 1156次阅读

    获Zen架构授权,国产X86处理器即将问世

    国内的处理器厂商在MIPS、ARM及Alpha等架构上搞的还可以,但在桌面市场上,因为Wintel联盟的门槛限制,没有X86处理器是玩不转的。
    发表于 06-12 14:27 1731次阅读

    国产x86处理器已开启生产,或将摆脱对海外的依赖?

    由芯片制造商海光(Hygon)负责制造的中国国产Dhyana(禅定)x86处理器开始启动生产。值得注意的是,这款芯片是根据AMD Zen微架构开发的。AMD将x86的IP授权给中国合作伙伴,Dhyana正是合作的结果。
    发表于 07-09 15:48 1424次阅读

    国产x86处理器发布,该芯片依据AMD Zen微架构开发

    北京时间7月9日上午消息,由芯片制造商海光(Hygon)负责制造的中国国产Dhyana(禅定)x86处理器开始启动生产。
    的头像 发表于 07-13 13:34 4787次阅读

    国产处理器又一大踏步:linux将支持国产x86处理器

    早在2年前,中国天津海光公司和AMD达成了授权协议。海光公司因此获得了x86处理器的授权,AMD也因此获得2.93亿美元授权费。在今年的linux合并的系统更新源码中,我们也发现了这款双方合作的处理器Dhyana。
    发表于 10-01 19:23 1316次阅读

    威盛开发出世界上第一个集成AI协处理器x86处理器 支持AVX-512指令集

    除了Intel、AMD,宝岛台湾的威盛也会造x86处理器的,不知道还有多少人知道?最近,威盛旗下已有24年历史的处理器研发部门CenTaur开发出了世界上第一个集成AI协处理器
    发表于 12-12 13:44 2110次阅读

    全球首款集成AI协处理器x86处理器实照公布 采用LGA触点式封装方式

    2019年11月,在通用x86处理器领域沉寂多年的威盛(VIA)高调归来,旗下已有24年历史的处理器研发部门CenTaur开发出了世界上第一个集成AI协处理器
    的头像 发表于 02-19 15:15 2846次阅读

    苹果M1严重威胁x86处理器,关键因素在于钱

    最近一段时间,随着配备M1处理器的Mac电脑上市,大部分人都被M1的性能给震撼了,此前几乎没有人能想到ARM架构性能也可以正面威胁高端x86处理器了。
    的头像 发表于 11-23 10:46 1916次阅读

    x86处理器如何处理MSI-X中断请求

    x86处理器如何处理MSI-X中断请求PCIe设备发出MSI-X中断请求的方法与发出MSI中断请求的方法类似,都是向Message Addr
    发表于 12-17 18:28 9次下载
    <b class='flag-5'>x86</b><b class='flag-5'>处理器</b>如何<b class='flag-5'>处理</b>MSI-<b class='flag-5'>X</b>中断请求

    AMD Q4季度移动处理器x86处理器份额已超三成

    AMD 2022年第四季度在包括桌面处理器,移动处理器和服务处理器x86处理器整体市场当中的
    发表于 02-13 10:56 394次阅读

    英特尔x86处理器市占率为68.7%,AMD则上升至31.3%

    虽然英特尔依然稳居x86处理器市场龙头宝座,近年来却被AMD抢走部分市占率。Mercury Research数据显示,去年Q4,英特尔在x86处理器市场的市占率为68.7%,AMD则上
    发表于 02-14 10:28 1321次阅读