利用强化学习来探索更优排序算法的AI系统-电子发烧友网

前言

DeepMind 最近在 Nature 发表了一篇论文 AlphaDev[2, 3]，一个利用强化学习来探索更优排序算法的AI系统。

AlphaDev 系统直接从 CPU 汇编指令的层面入手去探索更优的排序算法，因为相对于高级编程语言来说，在汇编指令层级对存储和寄存器的操作可以更加的灵活，所以能发现更多潜在的调优策略。

在 AlphaDev 的论文中，只关注探索短序列排序：

定长序列排序（比如 sort3 算法只能对长度为3的序列进行排序）

变长序列排序（比如 variable sort5 算法可以对长度为1~5的变长序列进行排序）

而对于长序列的排序，可以被分解为短序列的排序。

DeepMind 通过 AlphaDev 发现了比目前人工调优算法更优的定长短序列排序算法 sort3，sort4 和 sort5 ，并且已经将代码提交到了 LLVM 标准 C++ 库[4] 。

简单来说，AlphaDev 将探索更高效排序算法的过程，建模为一个单玩家的汇编游戏（single-player game， AssemblyGame）。

游戏的过程就是玩家从 CPU 汇编指令集合中，选取一系列的指令组合得到一个新的排序算法。不过这个过程是非常有挑战的，玩家需要考虑，汇编指令的组合空间并最终得得到一个正确和高效的算法。

该游戏主要包括以下难点：

汇编游戏的搜索空间和围棋类似（10^700）

只要有一条指令没弄对，可能就会导致整个算法错误

AlphaDev 系统详解

将排序算法表示为 CPU 汇编指令

首先来看一个简单的变长（variable sort2）短排序函数的 C 代码实现，排序结果从小到大：

voidvariable_sort_2(intlength,int*a){
switch(length){
case0:
case1:
return;
case2:
inttmp=a[0];
//a[0]保存两者之间的最小值
a[0]=(a[1]< a[0]) ? a[1] : a[0];
        // a[1] 保存两者之间的最大值
        a[1] = (a[1] < tmp) ? tmp : a[1];
        return;
    }
}

通过 gcc 生成对应的汇编代码，我用的 gcc 版本是 11.3.0，命令 gcc -S -O1 -o sort2.s sort2.c

汇编代码只保留了核心部分，生成的结果和论文中的示例有些许不同但是原理是一致的：

variable_sort_2:  
.LFB0:
; %edi 寄存器保存参数 length 的值
; cmpl 指令对比 %edi 和 常量 2
cmpl$2, %edi 
; 相等就跳转到 .L3 标签处，
        ; 对应 C 代码的 case 2
je.L3
.L1:
; 不等于 2 就直接返回，
        ; 对应 C 代码 case 0 和 1
ret 
.L3:
; 将 a[0] 赋值给寄存器 %edx 
movl(%rsi), %edx
; 将 a[1] 赋值给寄存器 %eax 
movl4(%rsi), %eax
; 对比 %edx 和 %eax
cmpl%edx, %eax
; 将 %edx 赋值给 %ecx
movl%edx, %ecx
; cmov 是条件移动指令根据 cmpl 
; 指令的结果判断是否执行
; 如果 %eax <= %edx 
; 则将 %eax 赋值给 %ecx
cmovle%eax, %ecx
; 此时 %ecx 保存了最小值
; 将 %ecx 赋值给 a[0]
movl%ecx, (%rsi)
; 如果 %eax 小于 %edx
; 则将 %edx 赋值给 %eax
cmovl%edx, %eax
; 此时 %eax 保存了最大值
; 将 %eax 赋值给 a[1]
movl%eax, 4(%rsi)
jmp.L1

一般来说汇编程序所做的事情基本都是，将内存的值复制到寄存器，然后对寄存器的值作修改，再将寄存器的值写回到内存中。

而 AlphaDev 系统只关注 x86 处理器架构所支持的汇编指令集合的一个子集。

每条汇编指令的格式均为：操作码<操作数A, 操作数B> 比如：

mov 移动指令，表示将 A 的值赋值给 B

cmp 比较指令，相当于执行 A - B 操作，但是不会对 A 和 B 做修改，而是根据相减的结果设置特殊的 flag 寄存器，更多内容可以参考[5]

cmovX 条件移动指令，根据 X 和 flag 寄存器的值判断是否执行将 A 赋值给 B 的操作，一般都是出现在 cmp 指令之后。X 可以是 L （是否满足小于条件）， G （是否满足大于条件），LE （是否满足小于或等于条件），GE （是否满足大于等于条件）。

jX 条件跳转指令，根据 X 和 flag 寄存器的值判断是否执行跳转到指定标记位置操作，A 可以是汇编程序代码中的标记位置，如上面所示汇编代码的 .L1 和 .L3。X 可以是 NE （是否不等于），E （是否等于）或者可以填表示无条件跳转。

将探索更优排序算法表示为强化学习问题

AlphaDev 将 CPU 汇编指令层面的算法优化过程转化为一个单玩家的游戏。

游戏每一步的状态定义为 : St = 。

其中， Pt 表示游戏到至今为止所生成的算法，Zt 则表示在给定输入的前提下执行完 Pt 里的指令之后，内存和寄存器的状态。

如上图所示，在时间步 t ，AlphaDev 接受到当前状态 St 和所要执行的动作 at （比如 mov ），也就是往当前生成的算法 Pt 中添加的合法汇编指令。

在添加完指令之后，就是计算奖励分数 rt （包括评估算法的正确性和延迟）。

算法正确性评估

正确性评估就是将 N 组测试序列输入到算法 Pt 中，得到N 组输出，和正确的排序结果最比较来计算奖励分数。

论文中给出了3种正确性评估函数，首先定义 P 为输入序列长度， PCt 为在时间步 t 序列中，位置正确的值的个数，这里我理解应该是和正确的排序结果逐个位置对比，统计相等的个数。

三个函数分别定义如下：

func1 = (P - PCt) / P

func2 = sqrt(func1)

func3 = sqrt(PCt)

论文中提到采用第三个函数效果最好。

延迟评估

延迟分数的计算可以是：

对系统增加代码长度计算惩罚，因为代码的长度一般都是和耗时高度相关

直接计算算法的真实耗时

整个强化学习的游戏在执行有限步骤之后就会被终止。只有生成正确而又低延迟的汇编代码才算赢得游戏。而不管是生成了错误的代码还是正确但低效的实现都视为游戏输了。

AlphaDev 采用的强化学习算法是对 AlphqaZero 算法的扩展，也是采用深度神经网络来引导蒙特卡洛树搜索（MCTS）的规划过程。网络模型的输入是 St ，输出是对动作策略和奖励的预测。

整个游戏过程简单来说就是，用一个固定参数的网络模型，通过给定的当前状态执行一个蒙特卡洛树搜索过程，然后采取下一步动作。然后可以用生成的游戏过程（包含每一步的状态和奖励）去训练和更新网络的参数。

网络模型结构

模型包含两部分：

一个 Transformer 编码器模块，用于建模算法，输入是至今为止生成的汇编指令序列

一个 CPU 状态编码器 MLP 模块，输入当前寄存器和内存的状态

两个网络的输出 embedding 会合并在一起来表示当前的状态。

网络模型整体的结构如下：

Transformer 编码器模块具体图示

如上图所示，把当前生成的汇编代码序列的每一条指令的操作码和操作数都转换为 one-hot 编码序列，然后输入到网络中。

但是具体的 one-hot 编码规则、词表怎么设置、还有对于 CPU 状态编码网络寄存器和内存的状态是怎么表示为网络的输入的等等，这些细节我在论文里没找到。

然后两个网络的输出 embedding 会合并到一起接着输入到几个函数头里计算，分别是预测下一步策略的函数头，预测算法正确性的函数头和预测算法真实延迟的函数头。

网络参数超参设置

论文的补充资料中提供了网络的参数和三个函数头的具体配置。

而对于策略的预测，论文中提到为了简化问题和提高收敛性，而对动作空间做了一些限制，规则如下：

必须按照升序方式读取内存

寄存器按照升序分配

cmp 和 cmovX 指令的操作数不能出现内存地址

对每个内存位置，只能读取和写入一次

每个寄存器在使用之前，必须初始化

不能连续调用 cmp 指令

训练细节

AlphaDev 的训练采用了 TPU v3，每个 TPU 核的 batch size 是 1024 ，总共用了 16 个 TPU 核，总共训练了 100 万次迭代。而在对于玩游戏积累训练数据来说，则是在 TPU v4 上进行，总共用了 512 个 TPU 核。

实验结果表明，最多只需2天模型就能训收敛。

实验结果

生成的算法和人工调优对比

从实验结果表格可以看到，对于短序列排序算法 AlphaDev 生成的代码长度更短，而且平均耗时也更低。

对生成算法延迟的评估方式，比如对于 sort3 则是在 100 台机器上做评估，每台机器随机生成 1000 条 3个数的序列，然后每条序列输入到算法中，对这 1000 次评估取第5百分位数作为最终的评估结果（排除 cache miss 和任务抢占等因素）。

耗时采用的是 CPU_CLK_UNHALTED.CORE 这个计数器结果，其计数值表示在一个特定时间段内，处理器内核的时钟周期数。这个值越高，意味着处理器内核在该时间段内执行了更多的指令。

AlphaDev 发现新的算法

对于定长序列排序，当应用到排序网络算法[6]（sorting network algorithm）的时候 AlphaDev 生成的代码中包含了一些有趣指令序列，相对于原始指令序列可以减少一条汇编指令，论文中称之为：

AlphaDev swap move

AlphaDev copy move

啥是排序网络算法？

排序网络算法（Sorting Network Algorithm）是一种能够对一组输入数据进行排序的并行算法，其具有较好的并行性能适用于多处理器或多核心系统。

该算法的特点是，它将所有的比较和交换操作预先规划好形成一个固定的结构，然后将输入数据按照这个结构进行排序。

排序网络由比较器（comparator）和线（wire）组成，如下图所示：

水平线表示 wire，每条水平线持有一个待排序的值。两条 wire 之间的垂直线段就表示一个比较器，比较器对比两条水平线的值，如果比较器下方的值小于上方的值则交换两条横线的值，否则则不交换。

一个优化过的排序网络可以以最少的比较器，并将这些比较器放置在特定位置上，来实现对任意序列进行排序。

下图是对一个构造好的排序网络，输入真实待排序序列的例子：

可见初始输入是 [2, 3, 1, 4]，这些随机数从左到右按顺序经过这些比较器之后，就得到了排序好的序列 [1, 2, 3, 4]。

AlphaDev swap move

先来看这个排序网络，只看红圈部分的功能就是对给定的输入 [A, B, C] 将其转换为 [min(A,B,C), max(min(A,C),B), max(A,C)]。

然后经过 AlphaDev 优化之后，可以将第一个输出的 min(A,B,C) 改为只计算 min(A,B)，原因是因为前面的 B 和 C横线之间经过比较器之后已经有了前置条件 B <= C。

而通过这个优化就能省去一条汇编指令，下图是红圈部分的伪代码实现：

左边是原始伪代码实现，右边是经过 AlphaDev 优化之后的实现，可以看到少了一条汇编指令 mov S P。

AlphaDev copy move

接下来看对4个元素进行排序的排序网络，是在对 sort8 这个算法优化过程中发现的。该排序网络对于输入序列 [A, B, C, D] 转换为 [min(A, B, C, D), max(B, min(A, C, D), max(C, min(A, D)), max(A, D) ]。

该排序网络是 sort8 的一个子排序网络，而根据比较器的放置位置来看，A 和 D 比较之后后续就不再和其他元素比较了，所以D出来的结果就是四个元素中最大的，所以隐含了一个条件就是 D >= min(A, C)。

因此对第二个输出元素的计算可以从 max(B, min(A, C, D)) 改为 max(B, min(A, C))，就可以节省一条汇编指令。

伪代码如下:

左边是原始伪代码实现，右边是经过 AlphaDev 优化之后的实现，可以看到少了一条汇编指令 mov P T。

总结

这篇文章只是对 AlphaDev 论文中的主要内容作解读，对于更多的内容和细节感兴趣的读者可以查阅原论文和论文的补充资料 [2,3]，DeepMind 也也开源了一份伪代码实现 [7]。
责任编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

建模

建模

+关注

关注
1

文章
314

浏览量
61003
AI

AI

+关注

关注
87

文章
32327

浏览量
271409
排序算法

排序算法

+关注

关注
0

文章
53

浏览量
10125

使用Isaac Gym 来强化学习mycobot 抓取任务

使用Isaac Gym来强化学习mycobot抓取任务

发表于 04-11 14:57 •7657次阅读

使用Isaac Gym <b class='flag-5'>来</b><b class='flag-5'>强化学习</b>mycobot 抓取任务

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1636次阅读

什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b><b class='flag-5'>算法</b>应用分析

深度强化学习实战

内容2:课程一： TensoRFlow入门到熟练：课程二：图像分类：课程三：物体检测：课程四：人脸识别：课程五：算法实现：1、卷积神经网络CNN2、循环神经网络RNN3、强化学习DRL4、对抗性生成

发表于 01-10 13:42

利用强化学习探索多巴胺对学习的作用

当我们使用虚拟的计算机屏幕和随机选择的图像来模拟一个非常相似的测试时，我们发现，我们的“元强化学习智能体”（meta-RL agent）似乎是以类似于Harlow实验中的动物的方式在学习，甚至在被显示以前从未见过的全新图像时也是

发表于 05-16 09:03 •4801次阅读

<b class='flag-5'>利用</b><b class='flag-5'>强化学习</b><b class='flag-5'>探索</b>多巴胺对<b class='flag-5'>学习</b>的作用

什么是强化学习？纯强化学习有意义吗？强化学习有什么的致命缺陷？

强化学习是人工智能基本的子领域之一，在强化学习的框架中，智能体通过与环境互动，来学习采取何种动作能使其在给定环境中的长期奖励最大化，就像在上述的棋盘游戏寓言中，你通过与棋盘的互动

发表于 07-15 10:56 •1.8w次阅读

什么是<b class='flag-5'>强化学习</b>？纯<b class='flag-5'>强化学习</b>有意义吗？<b class='flag-5'>强化学习</b>有什么的致命缺陷？

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之间的交互。

发表于 11-02 16:18 •2.2w次阅读

如何构建强化学习模型来训练无人车算法

本文作者通过简单的方式构建了强化学习模型来训练无人车算法，可以为初学者提供快速入门的经验。

发表于 11-12 14:47 •4966次阅读

对NAS任务中强化学习的效率进行深入思考

在一些情况下，我们会用策略函数（policy，总得分，也就是搭建的网络在测试集上的精度（accuracy），通过强化学习（Reinforcement Learning）这种通用黑盒算法来优化。然而，因为

发表于 01-28 09:54 •5160次阅读

基于PPO强化学习算法的AI应用案例

Viet Nguyen就是其中一个。这位来自德国的程序员表示自己只玩到了第9个关卡。因此，他决定利用强化学习AI算法来帮他完成未通关的遗憾。

发表于 07-29 09:30 •2885次阅读

机器学习中的无模型强化学习算法及研究综述

强化学习（ Reinforcement learning，RL）作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式，通过与环境进行

发表于 04-08 11:41 •11次下载

机器<b class='flag-5'>学习</b>中的无模型<b class='flag-5'>强化学习</b><b class='flag-5'>算法</b>及研究综述

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习

发表于 06-09 09:23 •581次阅读

DeepMind新作AlphaDev----强化学习探索更优排序算法

AlphaDev 系统直接从 CPU 汇编指令的层面入手去探索更优的排序算法，因为相对于高级编程语言来说，在汇编指令层级对存储和寄存器的操作

发表于 06-19 10:49 •630次阅读

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联

发表于 07-19 14:35 •0次下载

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是一个流行的开源机器

发表于 11-05 17:34 •533次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

利用强化学习来探索更优排序算法的AI系统

评论