最近,麻省理工学院的研究人员发明了一种机器学习工具,该工具可以预测计算机芯片执行来自各种应用程序的代码的运行速度。
为了使代码尽可能快地运行,开发人员和编译器将编程语言转换为机器可读代码的程序,通常使用通过模拟给定芯片体系结构运行代码的性能模型。
编译器使用该信息来自动优化代码,而开发人员使用该信息来解决将运行该代码的微处理器的性能瓶颈。但是,机器代码的性能模型是由相对较少的专家小组手写的,并且未经适当验证。结果,模拟的性能测量通常会偏离实际结果。
研究人员开发了一种新颖的机器学习管道,该管道可自动执行此过程,从而使其变得更轻松、更快、更准确。这项研究成果在国际机器学习大会上发表。
研究人员通过一种特殊的神经网络模型,它以“基本块”(计算指令的基本摘要)形式训练标记的数据,以自动预测其持续时间使用给定的芯片执行以前看不见的基本块。结果表明,这种神经网络模型的性能要比传统的手动调整模型精确得多。
这个基准测试套件涉及多个领域,包括机器学习、编译器、密码学和可用于验证性能模型的图形。研究人员将超过30万已分析的块合并到一个开源数据集中。在评估过程中,这种神经网络模型预测了英特尔芯片运行代码的速度要比英特尔自身构建的性能模型还要好。
最终,开发人员和编译器可以使用该工具来生成代码,这些代码可以在越来越多的多样化“黑匣子”芯片设计上更快、更高效地运行。现代计算机处理器不透明,极其复杂且难以理解。编写对这些处理器执行得尽可能快的计算机代码也极具挑战性,该工具是朝着对这些芯片的性能进行完全建模以提高效率的重要一步。
最近,该团队又提出了一种自动生成编译器优化的新技术。具体来说,它们会自动生成一种算法,该算法将某些代码转换为向量,可用于并行计算。 这种算法优于LLVM编译器中使用的手工矢量化算法。
LLVM是业界常用的编译器,一个自由软件项目,它是一种编译器基础设施,以C++写成,包含一系列模块化的编译器组件和工具链,用来开发编译器前端和后端。它是为了任意一种编程语言而写成的程序,利用虚拟技术创造出编译时期、链接时期、运行时期以及“闲置时期”的最优化。它最早以C/C++为实现对象,而当前它已支持许多种程序语言。
研究人员说,手工设计性能模型可能是“一门妖术”。英特尔提供了超过3000页的详尽文档,描述了其芯片的体系结构。但是目前只有一小部分专家将构建性能模型,以模拟这些架构上代码的执行。
研究人员指出:“英特尔的文档既没有错误,也没有完整,并且英特尔会省略某些事情,因为它是专有的。” “但是,当使用数据时,不需要了解文档。如果有隐藏的内容,可以直接从数据中学习。”
为此,研究人员记录了给定微处理器用于计算基本块指令的平均周期数,基本上是启动,执行和关闭的顺序,而无需人工干预。使过程自动化可以快速分析成千上万个块。
在培训学习中,这种神经网络模型分析了数百万个自动剖析的基本块,以准确了解不同的芯片体系结构将如何执行计算。重要的是,该模型将原始文本作为输入,不需要手动向输入数据添加功能。在测试中,可以将以前看不见的基本块和给定的芯片提供给模型,模型将生成一个数字,指示芯片将以多快的速度执行该代码。
研究人员发现,该模型的准确性降低了错误率,这意味着预测速度与实际速度之间的差异比传统的手工模型降低了50%。此外,他们表明该模型的错误率为10%,而Intel性能预测模型在多个不同领域的各种基本块上的错误率为20%。
该工具现在使人们可以更轻松地快速了解任何新芯片架构的性能速度。例如,特定领域的体系结构,例如Google专门用于神经网络的新型Tensor处理单元,目前正在构建中,但并未得到广泛理解。 如果要在某种新架构上训练模型,只需从该架构收集更多数据,通过探查器运行它,使用该信息来训练模型,从而就有了一个预测性能的模型。
接下来,研究人员将通过这样的神经网络模型研究使人工智能模型可解释的方法。人工智能机器学习在很大程度上是一个黑匣子,因此尚不清楚为什么特定的模型会做出某种预测。这样的模型指示一个处理器要执行一个基本块需要10个周期,从而有可能设法找出其原因。
-
编程语言
+关注
关注
10文章
1928浏览量
34536 -
编译器
+关注
关注
1文章
1615浏览量
49007 -
机器学习
+关注
关注
66文章
8340浏览量
132281
发布评论请先 登录
相关推荐
评论