优化用于深度学习工作负载的张量程序-电子发烧友网

华盛顿大学计算机系博士生陈天奇、以及上海交通大学和复旦大学的研究团队提出一个基于学习的框架，以优化用于深度学习工作负载的张量程序。该研究使用基于机器学习的方法来自动优化张量运算核心并编译AI工作负载，从而可以将最优的性能部署到所有硬件。实验结果表明，该框架能够为低功耗CPU，移动GPU和服务器级GPU提供与最先进手工调优库相媲美的性能。

深度学习在我们的日常生活中已经无处不在。深度学习模型现在可以识别图像，理解自然语言，玩游戏，以及自动化系统决策（例如设备放置和索引）。张量算符（tensor operators），如矩阵乘法和高维卷积，是深度学习模型的基本组成部分。

可扩展的学习系统依赖于手动优化的高性能张量操作库，如cuDNN。这些库针对较窄范围的硬件进行了优化。为了优化张量算符，程序员需要从逻辑上等价的许多实现中进行选择，但由于线程，内存重用， pipelining和其他硬件因素的不同，性能上的差别很大。

支持多种硬件后端需要巨大的工程努力。即使在当前支持的硬件上，深度学习框架和模型的开发也从根本上受到库中优化操作符设置的限制，阻止了诸如操作符熔合（operator fusion）之类的优化，从而产生不受支持的操作符。

针对这个问题，华盛顿大学计算机系博士生陈天奇、以及上海交通大学和复旦大学的研究团队提出一个基于学习的框架，以优化用于深度学习工作负载的张量程序（ tensor programs）。

摘要

我们提出一个基于学习的框架，以优化用于深度学习工作负载的张量程序（ tensor programs）。矩阵乘法和高维卷积等张量算符（ tensor operators）的高效实现是有效的深度学习系统的关键。然而，现有的系统依赖于手工优化的库，如cuDNN，这些库只有很少的服务器级GPU能很好地支持。对硬件有要求的操作库的依赖限制了高级图形优化的适用性，并且在部署到新的硬件目标时会产生巨大的工程成本。我们利用学习来消除这种工程负担。我们学习了领域特定的统计成本模型，以指导在数十亿可能的程序变体上搜索张量算符的实现。我们通过跨工作负载的有效模型迁移来进一步加快搜索速度。

实验结果表明，我们的框架能够为低功耗CPU，移动GPU和服务器级GPU提供与最先进手工调优库相媲美的性能。

学习优化张量程序问题的形式化方法

我们提出以下问题：我们是否可以通过学习来减轻这种工程负担，并自动优化给定硬件平台的张量算符程序？本论文为这个问题提供了肯定的答案。我们建立了统计成本模型来预测给定的低级程序的程序运行时间。这些成本模型指导了对可能程序空间的探索。我们的成本模型使用可迁移的表示形式，可以在不同的工作负载之间进行泛化，以加速搜索。这一工作的贡献如下：

我们提供了学习优化张量程序问题的一种形式化方法，并总结了其关键特征。

我们提出了一个基于机器学习的框架来解决这个新问题。

我们使用迁移学习将优化速度进一步提高2倍至10倍。

我们在这个框架中提供了详细的组件设计选择和实证分析。

在实际的深度学习工作负载的实验结果表明，我们的框架提供的端到端性能改进比现有框架好1.2倍至3.8倍。

图1：该问题的一个例子。对于给定的张量算符规范，有多种可能的低级别程序实现，每种实现都有不同的loop顺序， tiling 大小以及其他选项。每个选项都创建一个具有不同性能的逻辑等效程序。我们的问题是探索程序空间并找到一个优化的程序。

图2：学习优化张量程序框架的概览

学习优化张量程序算法

图3：编码低级别循环AST的可能方法的示例

表1：单batch的ResNet-18推理中所有conv2d操作符的配置。H，W表示高度和宽度，IC表示输入通道，OC表示输出通道，K表示 kernel大小，以及S表示stride大小。

讨论和结论

我们提出了一种基于机器学习的框架来自动优化深度学习系统中张量算符的实现。我们的统计成本模型允许在工作负载之间进行有效的模型共享，并通过模型迁移加速优化过程。这个新方法的优秀实验结果显示了对深度学习部署的好处。

在我们的解决方案框架之外，这个新问题的具体特征使它成为相关领域创新的一个理想测试平台，如神经程序建模、贝叶斯优化、迁移学习和强化学习。

在系统方面，学习优化张量程序可以使更多的融合操作符、数据布局和数据类型跨不同的硬件后端。这些改进对于改进深度学习系统至关重要。我们将开放我们的实验框架，以鼓励在这些方向进行更多的研究。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

深度学习

深度学习

+关注

关注
73

文章
5500

浏览量
121118

原文标题：陈天奇团队新研究：自动优化深度学习工作负载

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

深度学习工作负载中GPU与LPU的主要差异

，一个新的竞争力量——LPU（Language Processing Unit，语言处理单元）已悄然登场，LPU专注于解决自然语言处理（NLP）任务中的顺序性问题，是构建AI应用不可或缺的一环。本文旨在探讨深度学习工作

发表于 12-09 11:01 •257次阅读

<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>工作</b><b class='flag-5'>负载</b>中GPU与LPU的主要差异

RK3568国产处理器 + TensorFlow框架的张量创建实验案例分享

一、实验目的本节视频的目的是了解张量定义、了解张量的表示形式、并学习基于TensorFlow框架的张量创建方法。二、实验原理. 张量定义

发表于 12-03 14:43

NPU在深度学习中的应用

设计的硬件加速器，它在深度学习中的应用日益广泛。 1. NPU的基本概念 NPU是一种专门针对深度学习算法优化的处理器，它与传统的CPU和G

发表于 11-14 15:17 •521次阅读

pcie在深度学习中的应用

深度学习模型通常需要大量的数据和强大的计算能力来训练。传统的CPU计算资源有限，难以满足深度学习的需求。因此，GPU（图形处理单元）和TPU（张量

发表于 11-13 10:39 •380次阅读

深度学习模型的鲁棒性优化

深度学习模型的鲁棒性优化是一个复杂但至关重要的任务，它涉及多个方面的技术和策略。以下是一些关键的优化方法：一、数据预处理与增强数据清洗：去除数据中的噪声和异常值，这是提高模型鲁棒

发表于 11-11 10:25 •227次阅读

GPU深度学习应用案例

能力，可以显著提高图像识别模型的训练速度和准确性。例如，在人脸识别、自动驾驶等领域，GPU被广泛应用于加速深度学习模型的训练和推理过程。二、自然语言处理自然语言处理（NLP）是深度

发表于 10-27 11:13 •383次阅读

FPGA做深度学习能走多远？

的发展前景较为广阔，但也面临一些挑战。以下是一些关于 FPGA 在深度学习中应用前景的观点，仅供参考： • 优势方面： • 高度定制化的计算架构：FPGA 可以根据深度学习算法的特殊需

发表于 09-27 20:53

AI引擎机器学习阵列指南

云端动态工作负载以及超高带宽网络，同时还可提供高级安全性功能。AI 和数据科学家以及软硬件开发者均可充分利用高计算密度的优势来加速提升任何应用的性能。AI 引擎机器学习拥有先进的张量计

发表于 09-18 09:16 •390次阅读

深度学习中的时间序列分类方法

时间序列分类（Time Series Classification, TSC）是机器学习和深度学习领域的重要任务之一，广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个领域。随

发表于 07-09 15:54 •890次阅读

深度学习中的模型权重

在深度学习这一充满无限可能性的领域中，模型权重（Weights）作为其核心组成部分，扮演着至关重要的角色。它们不仅是模型学习的基石，更是模型智能的源泉。本文将从模型权重的定义、作用、优化

发表于 07-04 11:49 •1226次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型，本质上是通过优化算法调整模型参数，

发表于 07-01 16:13 •1238次阅读

深度学习的模型优化与调试方法

深度学习模型在训练过程中，往往会遇到各种问题和挑战，如过拟合、欠拟合、梯度消失或爆炸等。因此，对深度学习模型进行优化与调试是确保其性能优越的

发表于 07-01 11:41 •806次阅读

深度学习编译工具链中的核心——图优化

等，需要调整优化网络中使用的算子或算子组合，这就是深度学习编译工具链中的核心——图优化。图优化是指对深度

发表于 05-16 14:24 •929次阅读

传统计算机视觉对比深度学习

深度学习是一种技术，它使用一种称为梯度反向传播的优化技术来生成“程序”(也称为“神经网络”)，就像上面故事中学者学生编写的那些程序一样。

发表于 03-31 09:48 •444次阅读

目前主流的深度学习算法模型和应用案例

深度学习在科学计算中获得了广泛的普及，其算法被广泛用于解决复杂问题的行业。所有深度学习算法都使用不同类型的神经网络来执行特定任务。

发表于 01-03 10:28 •1929次阅读

搜索历史

优化用于深度学习工作负载的张量程序

评论

深度学习工作负载中GPU与LPU的主要差异

RK3568国产处理器 + TensorFlow框架的张量创建实验案例分享

NPU在深度学习中的应用

pcie在深度学习中的应用

深度学习模型的鲁棒性优化

GPU深度学习应用案例

FPGA做深度学习能走多远？

AI引擎机器学习阵列指南

深度学习中的时间序列分类方法

深度学习中的模型权重

深度学习模型训练过程详解

深度学习的模型优化与调试方法

深度学习编译工具链中的核心——图优化

传统计算机视觉对比深度学习

目前主流的深度学习算法模型和应用案例