0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

清华「计图」现在支持国产芯片了!

旺材芯片 来源:凹非寺量子位 作者:明敏 2021-05-20 09:43 次阅读

清华自研的深度学习框架计图(Jittor)在动态图推理速度上又一次完胜PyTorch。

最近,计图团队完成了在寒武纪芯片MLU270上的移植。

这一次跟寒武纪的合作,使Jittor在backbone网络模型中的动态图推理速度较PyTorch平均提升了276.69倍。

从团队公布的实验结果可以看到,在寒武纪芯片上分别用计图(Jittor)和PyTorch进行推理。

计图(Jittor)在16种backbone网络模型中的推理速度都较PyTorch大幅提升,其中包括alexnet、vgg系列、resnet系列。

其中最快的是alexnet,提升速度达到了464.43倍,最慢的resnet50也达到了153倍。

平均提升速度达276.69倍。

660375ea-b47b-11eb-bf61-12bb97331649.jpg

6611aa8e-b47b-11eb-bf61-12bb97331649.jpg

△表1:模型具体数值

与此同时,计图的精度损失也较PyTorch大幅减少。

66332ff6-b47b-11eb-bf61-12bb97331649.jpg

△表2:resnet18的mse误差对比

团队以resnet18网络为例进行对比,baseline是CPU;结果显示:计图的精度损失比PyTorch降低了42.53%。

还是「元算子」的功劳

性能得到如此大的提升,是怎么实现的呢?

要知道,在TensorFlow,PyTorch框架底层,有上千个算子;想要移植新的硬件,就必须将大量的算子复写,这样一来不仅工作量剧增、而且难度也会加大。

Jittor这次还是依靠他们的核心武器——元算子。

根据Jittor官方文档定义,元算子是指神经网络所需的基本算子。

早在设计Jittor的时候,研发团队就定下了一个目标,即用户只需要数行代码,就可定义新的算子和模型。在保证易用的同时,不丧失任何可定制性。

所以在Jittor中,多个元算子之间,可以相互融合成更加复杂的算子,这些复杂算子构成了神经网络计算的多个模块,如卷积层,归一化层等等。

664c0422-b47b-11eb-bf61-12bb97331649.jpg

△使用元算子实现卷积层

这一次将Jittor移植到寒武纪上,也是同样的原理。

研究团队把神经网络所需的基本算子,定义为三类共18个元算子。

让元算子相互融合形成常用算子,这样就能通过优化非常少的元算子,实现对常用算子性能的提升。

66677d4c-b47b-11eb-bf61-12bb97331649.jpg

并且,元算子还是反向传播闭包,所有元算子反向传播后依旧是元算子。

所以在完成三类元算子的移植后,Jittor天然就能支持大部分常用算子的推理和简单训练。

从Jittor元算子到BANG

为了能让用户更为简单地操作,Jittor内置了元算子编译器,可以将用户的Python代码动态编译成寒武纪BANG语言。

BANG语言是专门针对寒武纪产品架构的一种代码语言,它能极大优化寒武纪芯片的通用编程能力,提升用户编程的自由度。

并且它还有全套编译工具链来提高性能。包括CNCC(Cambricon Neuware Compiler Collection )、CNAS(Cambricon Neuware Assembler)、CNLINKER(Cambricon Neuware Linker)。

Jittor内置的元算子编译器可以把元算子自动转化为BANG算子。

采用动态编译的方式,能在运行时获取更多的信息,比如计算图上下文、形状信息等,这些信息都可以进一步提升算子的性能。

并且,Jittor还内置了可以根据硬件设备自动对BANG语言进行优化的优化编译遍(complier pass),从而生成对硬件设备更为适合的底层算子。

用这种方法,仅仅一行Python代码,就能表示BatchNorm算子的核心思想。

元算子编译器再把这行代码自动优化成BANG语言代码。

由于BANG语言的设计更加成熟,提供了类似于CUDA语言的线程调度模式,使得上手和调试都更加简单;也能更好地释放寒武纪芯片的算力。

6678e168-b47b-11eb-bf61-12bb97331649.jpg

清华自研,首个中国高校深度学习开源框架

计图(Jittor)的开发团队,均来自清华大学计算机系图形学实验室,负责人是清华大学计算机系的胡事民教授。

而主要负责开发的,则是来自实验室的博士生们:梁盾、杨国烨、杨国炜、周文洋……

计图(Jittor)与主流的深度学习框架TensorFlow、Pytorch等最大的不同在于,它是一个完全基于动态编译(Just-in-time)、使用元算子和统一计算图的深度学习框架。

它可以不像Pytorch那样依赖tracing机制,让用户的操作更加简单,同时还可以得到更好的学习训练效果。

对于这一次取得的成果,开发者之一梁盾透露未来有可能发表在顶会上,并且会开源给大家。

此前,计图开源的点云模型库,在多种主流模型上训练性能较Pytorch提升一倍以上;并发布了第一个支持金属度、粗糙度的可微渲染库。

最近,他们还开源了一个智能P图神器DeepFaceEditing,可以通过草图自由编辑人脸。

感兴趣的同学可以去试试哦~

GitHub开源:

https://github.com/IGLICT/DeepFaceEditing-Jittor

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10803

    浏览量

    210783
  • 神经网络
    +关注

    关注

    42

    文章

    4733

    浏览量

    100410
  • 寒武纪
    +关注

    关注

    11

    文章

    185

    浏览量

    73844
  • pytorch
    +关注

    关注

    2

    文章

    802

    浏览量

    13111

原文标题:关注 | 清华「计图」现在支持国产芯片了!动态图推理比PyTorch快了270倍

文章出处:【微信号:wc_ysj,微信公众号:旺材芯片】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    清华芯片取得新突破,迈向AI光训练

    电子发烧友网报道(文/吴子鹏)近日,清华大学发布官方消息称,清华大学电子工程系方璐教授课题组、自动化系戴琼海院士课题组另辟蹊径,首创全前向智能光计算训练架构,研制“太极-II”光训
    的头像 发表于 08-13 01:23 3029次阅读

    【「ARM MCU嵌入式开发 | 基于国产GD32F10x芯片」阅读体验】+书籍整体概况

    一、导言 上周收到《ARM MCU嵌入式开发 | 基于国产GD32F10x芯片》书籍,该纸质书籍内容可谓是面面俱到,由“清华大学出版社”出版,印刷第1版时间为2024年6月份,总共464千字
    发表于 08-25 22:48

    国产芯片

    有任何国产芯片替代的问题都可以找我,欢迎咨询,或者需要国产芯片相关资料的都可以提供。
    发表于 07-25 16:34

    目前国产fpga的发展有哪些趋势

    如今国产fpga也是如火如荼,请问现在国产fpga芯片的发展有哪些趋势呢?
    发表于 06-30 08:14

    世界首款!又是清华:类脑互补视觉芯片“天眸芯”

    近日,清华大学在类脑视觉感知芯片领域取得重要突破:清华大学依托精密仪器系的类脑计算研究中心施路平教授团队,提出一种基于视觉原语的互补双通路类脑视觉感知新范式,研制出世界首款类脑互补视觉芯片
    的头像 发表于 06-04 08:36 339次阅读
    世界首款!又是<b class='flag-5'>清华</b>:类脑互补视觉<b class='flag-5'>芯片</b>“天眸芯”

    国产RISC-V芯片性能稳定吗?

    想使用国产的RISC-V架构的芯片做无人机投送快递的方案,可行性高吗?国产的RISC-V MCU稳定么?
    发表于 05-20 15:43

    我国力促芯片国产化进程,预计2027年实现整车芯片完全国产

    国内消息源透露,中国工信部已经设定宏大的目标,计划在明年将芯片国产化率提升至25%,并采用积分方式来驱动国家对国产芯片研发的资金
    的头像 发表于 05-15 11:21 1586次阅读
    我国力促<b class='flag-5'>芯片</b><b class='flag-5'>国产</b>化进程,预计2027年实现整车<b class='flag-5'>芯片</b>完全<b class='flag-5'>国产</b>化

    国产riscv芯片大汇总?

    请问有统计国产的riscv芯片的吗?能汇总一下吗?
    发表于 04-27 11:53

    清华大学研发成功大规模干涉-衍射异构集成芯片——太极

    4月12日公布,清华大学研发出太极芯片,实现每瓦160TOPS的高性能通用智能计算,这是该校电子工程系与自动化系共同攻克的难题。
    的头像 发表于 04-12 15:50 393次阅读

    国产车规芯片发展的怎么样,有用过的来说说吗?

    刚看了一个最能打的国产芯榜单,找到一些国产车规芯片,看看参数介绍感觉还不错,大家有用过的或了解的吗?国产车规芯片发展处于什么水平?用过的说说
    发表于 03-22 10:25

    腾讯携手清华港科大推出生视频模型:Follow-Your-Click,实现在线物体追踪

    月 15 日消息,腾讯与清华大学及香港科技大学联合发布新型生视频模型 “Follow-Your-Click”,已上线 GitHub(代码于四月份公开)并发布相关研究论文(查阅地址:DOI:2403.08268)。
    的头像 发表于 03-15 16:24 575次阅读

    国产高端fpga芯片有哪些

    国产高端FPGA芯片有多种,以下是一些知名的国产FPGA芯片
    的头像 发表于 03-15 14:01 2348次阅读

    国产降压芯片有哪些?

    土化生产,可以节省进口税费、运输成本等,同时,随着生产规模的扩大,生产成本也有可能进一步降低,这些因素共同作用下,国产芯片在价格上可能具有一定的优势。 政策支持:中国政府在政策上大力支持
    的头像 发表于 02-19 09:19 806次阅读

    2024年,请不要再喊国产芯片替代

    2024年,是国产芯片的分水岭,强者愈强,弱者愈弱。从今以后,请不要再讲国产芯片替代,要讲芯片性能和竞争力,
    的头像 发表于 01-25 11:50 758次阅读

    SL3036国产新品 48V/60V电动车里程增程器供电芯片

    随着电动车的普及,里程焦虑成为了很多电动车用户面临的问题。为了解决这个问题,SL3036国产新品应运而生,它是一款48V/60V电动车里程增程器供电芯片。这款芯片的出现,为电动车用户提供
    发表于 01-16 17:23