理解 Q-Learning - 用TensorFlow构建你的第一个游戏AI入门教程

了解 Q-Learning 的一个好方法，就是将 Catch 游戏和下象棋进行比较。

在这两种游戏中，你都会得到一个状态 S。在象棋中，这代表棋盘上棋子的位置。在 Catch 游戏中，这代表水果和篮子的位置。

然后，玩家要采取一个动作，称作 A。在象棋中，玩家要移动一个棋子。而在 Catch 游戏中，这代表着将篮子向左、向右移动，或是保持在当前位置。据此，会得到一些奖励 R 和一个新状态 S'。

Catch 游戏和象棋的一个共同点在于，奖励并不会立即出现在动作之后。

在 Catch 游戏中，只有在水果掉到篮子里或是撞到地板上时你才会获得奖励。而在象棋中，只有在整盘棋赢了或输了之后，才会获得奖励。这也就是说，奖励是稀疏分布的（sparsely distributed）。大多数时候，R 保持为零。

产生的奖励并不总是前一个动作的结果。也许，很早之前采取的某些动作才是获胜的关键。要弄清楚哪个动作对最终的奖励负责，这通常被称为信度分配问题（credit assignment problem）。

由于奖励的延迟性，优秀的象棋选手并不会仅通过最直接可见的奖励来选择他们的落子方式。相反，他们会考虑预期未来奖励（expected future reward），并据此进行选择。例如，他们不仅要考虑下一步是否能够消灭对手的一个棋子。他们也会考虑那些从长远的角度有益的行为。

在 Q-Learning 中，我们根据最高的预期未来奖励选行动。我们使用 Q 函数进行计算。这个数学函数有两个变量：游戏的当前状态和给定的动作。因此，我们可以将其记为 Q（state，action）。在 S 状态下，我们将估计每个可能的动作 A 所带来的的回报。我们假定在采取行动 A 且进入下一个状态 S' 以后，一切都很完美。

对于给定状态 S 和动作 A，预期未来奖励 Q（S，A）被计算为即时奖励 R 加上其后的预期未来奖励 Q（S'，A'）。我们假设下一个动作 A' 是最优的。

由于未来的不确定性，我们用 γ 因子乘以 Q（S'，A'）表示折扣：

Q(S,A) = R + γ * max Q(S'，A')

象棋高手擅长在心里估算未来回报。换句话说，他们的 Q 函数 Q（S，A）非常精确。大多数象棋训练都是围绕着发展更好的 Q 函数进行的。玩家使用棋谱学习，从而了解特定动作如何发生，以及给定的动作有多大可能会导致胜利。但是，机器如何评估一个 Q 函数的好坏呢？这就是神经网络大展身手的地方了。

最终回归

玩游戏的时候，我们会产生很多「经历」，包括以下几个部分：

初始状态，S

采取的动作，A

获得的奖励，R

下一状态，S'

这些经历就是我们的训练数据。我们可以将估算 Q（S，A）的问题定义为回归问题。为了解决这个问题，我们可以使用神经网络。给定一个由 S 和 A 组成的输入向量，神经网络需要能预测 Q（S，A）的值等于目标：R + γ * max Q(S'，A')。

如果我们能很好地预测不同状态 S 和不同行为 A 的 Q（S，A），我们就能很好地逼近 Q 函数。请注意，我们通过与 Q（S，A）相同的神经网络估算 Q（S'，A'）。

训练过程

给定一批经历，其训练过程如下：

1、对于每个可能的动作 A'（向左、向右、不动），使用神经网络预测预期未来奖励 Q（S'，A'）；

2、选择 3 个预期未来奖励中的最大值，作为 max Q（S'，A'）；

3、计算 r + γ * max Q(S'，A')，这就是神经网络的目标值；

4、使用损失函数（loss function）训练神经网络。损失函数可以计算预测值离目标值的距离。此处，我们使用 0.5 * (predicted_Q(S,A)—target)² 作为损失函数。

在游戏过程中，所有的经历都会被存储在回放存储器（replay memory）中。这就像一个存储对的简单缓存。这些经历回放类同样能用于准备训练数据。让我们看看下面的代码：

classExperienceReplay(object):""" During gameplay all the experiences < s, a, r, s’ > are stored in a replay memory. In training, batches of randomly drawn experiences are used to generate the input and target for training. """def__init__(self, max_memory=100, discount=.9):""" Setup max_memory: the maximum number of experiences we want to store memory: a list of experiences discount: the discount factor for future experience In the memory the information whether the game ended at the state is stored seperately in a nested array [... [experience, game_over] [experience, game_over] ...] """self.max_memory = max_memory self.memory = list() self.discount = discountdefremember(self, states, game_over):#Save a state to memoryself.memory.append([states, game_over])#We don't want to store infinite memories, so if we have too many, we just delete the oldest oneiflen(self.memory) > self.max_memory:delself.memory[0]defget_batch(self, model, batch_size=10):#How many experiences do we have?len_memory = len(self.memory)#Calculate the number of actions that can possibly be taken in the gamenum_actions = model.output_shape[-1]#Dimensions of the game fieldenv_dim = self.memory[0][0][0].shape[1]#We want to return an input and target vector with inputs from an observed state...inputs = np.zeros((min(len_memory, batch_size), env_dim))#...and the target r + gamma * max Q(s’,a’)#Note that our target is a matrix, with possible fields not only for the action taken but also#for the other possible actions. The actions not take the same value as the prediction to not affect themtargets = np.zeros((inputs.shape[0], num_actions))#We draw states to learn from randomlyfori, idxinenumerate(np.random.randint(0, len_memory, size=inputs.shape[0])):""" Here we load one transition from memory state_t: initial state s action_t: action taken a reward_t: reward earned r state_tp1: the state that followed s’ """state_t, action_t, reward_t, state_tp1 = self.memory[idx][0]#We also need to know whether the game ended at this stategame_over = self.memory[idx][1]#add the state s to the inputinputs[i:i+1] = state_t# First we fill the target values with the predictions of the model.# They will not be affected by training (since the training loss for them is 0)targets[i] = model.predict(state_t)[0]""" If the game ended, the expected reward Q(s,a) should be the final reward r. Otherwise the target value is r + gamma * max Q(s’,a’) """# Here Q_sa is max_a'Q(s', a')Q_sa = np.max(model.predict(state_tp1)[0])#if the game ended, the reward is the final rewardifgame_over:# if game_over is Truetargets[i, action_t] = reward_telse:# r + gamma * max Q(s’,a’)targets[i, action_t] = reward_t + self.discount * Q_sareturninputs, targets

定义模型

阅读全文

本文导航

第 1 页：用TensorFlow构建你的第一个游戏AI入门教程
第 2 页：理解 Q-Learning
第 3 页：定义模型
第 4 页：Catch 机器人的动作

AI(263626) AI(263626)

TensorFlow如何入门

TensorFlow 入门（四）

2020-05-27 17:40:06

TensorFlow的特点和基本的操作方式

Tensorflow是Google开源的深度学习框架，来自于Google Brain研究项目，在Google第一代分布式机器学习框架DistBelief的基础上发展起来。Tensorflow于

2020-11-23 09:56:04

tensorflow怎么入门

tensorflow入门(五）

2020-05-28 13:05:23

入门教程

51单片机学习入门教程

2013-04-14 14:35:07

入门教程

基础的Proteus入门教程，有需要的可以看一下

2016-11-20 17:36:39

用腾讯优图 AI 视觉模组在树莓派上玩吃火锅体感游戏

能替代日常桌面计算机的多种用途，包括文字处理、电子表格、媒体中心甚至是游戏。并且树莓派还可以播放高至 1080p 的高清视频。神奇的 VisionSeed提到 AI 体感游戏，大家第一时间想到的可能是

2020-07-21 15:43:30

第一个TensorFlow程序（hello world）详解

在任何计算机语言中学习的第一个程序是都是 Hello world，本教程中也将遵守这个惯例，从程序 Hello world 开始。上一节进行 TensorFlow 安装验证的代码如下：下面一

2020-07-22 10:26:51

FPGA入门：第一个工程实例之设计输入

FPGA入门：第一个工程实例之设计输入本文节选自特权同学的图书《FPGA/CPLD边练边学——快速入门Verilog/VHDL》书中代码请访问网盘：http://pan.baidu.com/s

2015-02-28 10:41:14

FPGA入门教程

FPGA入门教程 FPGA 入门教程 1 ．数字电路设计入门 2 ．FPGA 简介 3 ．FPGA 开发流程 4 ．RTL设计 5 ．QuartusⅡ设计实例 6.ModelSim和Testbench

2012-08-11 11:40:44

FPGA学习总结和入门教程（大家可以一个一个来学习！）

`FPGA学习总结和入门教程，我们一起交流FPGA。欢迎交流！`

2013-04-01 09:49:53

Labview小白，求一份入门教程和教材

Labview小白，现在想学习这个，求一份入门教程和教材，非常感谢！

2017-06-10 22:56:04

Servlet入门----创建第一个自己的Servlet小程序

Servlet入门----创建第一个自己的Servlet小程序使用开发工具创建第一步：打开Myeclipse或者Eclipse，新建一个Web project，然后新建一个类Demo01.java

2018-01-31 13:48:56

[转帖]最经典的JAVA基础入门教程

最经典的JAVA基础入门教程 从零开始直到深入的研究，讲解很细，思路非常清晰！基础就附带了把所有基础知识融合进去的一个模拟银行项目，绝对是学习Java的好教程，包括入门教程PDF

2010-06-04 10:42:53

labview入门教程，每日一练

入门教程，每日一练第一期简单温度波形图程序设计我也是初学者，可以一起学习讨论

2018-09-05 14:26:37

labview入门教程，每日一练3

入门教程，每日一练第三期用三种方法实现公式Y=AX[sup]2[/sup]+BX+C的计算我也是初学者，可以一起学习讨论

2018-09-05 23:15:06

【EASY EAI Nano开源套件试用体验】运行开发板的第一个程序

(easy-eai.com)，给我的第一印象是，这个网站非常简洁明了，对其产品的介绍也非常简洁、到位。2、经过简单的阅读网站的内容，可以说是通俗易懂，从零基础进行了详细介绍，对于想入门嵌入式开发的小伙伴来说，这个网站

2022-09-24 09:49:09

【KV260视觉入门套件试用体验】Vitis AI 构建开发环境，并使用inspector检查模型

Optimizer 等，以支持不同层次的开发需求。提供多种示例设计和教程，展示如何在赛灵思硬件平台上实现各种 AI 应用场景。 Visits AI 怎么用？第一步：在ubuntu环境下，执行如下命令： git

2023-10-14 15:34:26

【Thunderboard Sense试用体验】第一个uart例程

正式搭建环境，完成第一个项目。声明一下，我用的代码是官方的例程，本想发自己的例程，但是那么久没发帖子了，加上刚搞明白怎样搭环境，所以，先发官方的例程，好给大家个指导。当然要把板子插上，出现如下提示，说明板子

2017-05-27 12:18:53

不知不觉22年，你还能想得起你的第一个网名吗？

`不知不觉22年，你还能想得起你的第一个网名吗？中国互联网已经22岁了！你的第一个网名是什么？你还记得起来吗？中国互联网已经22岁了，是不是很意外？时间都去哪了？22年间，互联网的社交工具也发生

2016-04-22 13:54:11

不知不觉22年，你还能想得起你的第一个网名吗？

`中国互联网已经22岁了！你的第一个网名是什么？你还记得起来吗？中国互联网已经22岁了，是不是很意外？时间都去哪了？22年间，互联网的社交工具也发生了巨大的变化，从聊天室到QQ，从MSN到微博，弹指

2016-04-21 11:19:58

世界上第一个计算机程序是干嘛用的？

是否好奇过世界上第一个计算机程序是干嘛用的？世界上第一个程序是1842年写的，恰好在第一个能被称为计算机（你看到它不会认为它是计算机）的真正机器。这段代码的作者是 Ada Augusta，被封

2014-12-03 14:53:46

使用 TensorFlow, 你必须明白 TensorFlow

CPU 或 GPU). 一般你不需要显式指定使用 CPU 还是 GPU, TensorFlow 能自动检测. 如果检测到 GPU, TensorFlow 会尽可能地利用找到的第一个 GPU 来执行操作

2018-03-30 20:03:30

使用Vivado VHDL无法运行第一个bitfile

嗨，我刚刚购买了我的第一个FPGA开发板，一个Nexys4 DDR，我无法运行第一个bitfile。我正在做Vivado VHDL教程。仿真工作，我可以生成一个位文件，但是当我对电路板进行编程

2020-03-27 06:54:34

关于 TensorFlow

Tensorflow 有一个合理的c++使用界面，也有一个易用的python使用界面来构建和执行你的graphs。你可以直接写python/c++程序，也可以用交互式的ipython界面来用Tensorflow

2018-03-30 19:57:24

关于入门教程中的六路互补PWM

大家尝试过入门教程中的互补PWM的例程吗？我试了之后示波器连PWM波都没有检测到，不知道为什么。求出一个可以产生可调占空比和死区时间的互补PWM历程。

2018-07-23 00:39:13

分享一个机器学习Demo，很受用

TensorFlow入门：第一个机器学习Demo

2019-02-12 10:13:51

初学Arduino 有什么好的入门教程？

初学Arduino有什么好的入门教程推荐下哈

2020-06-12 05:55:51

制作你的第一个电路来学习焊接

描述制作你的第一个电路来学习焊接

2022-08-22 07:58:45

哪位大侠有labview的入门教程啊？

哪位大侠有labview的入门教程啊？，有的话发我邮箱啊，谢谢。shengshm1989@163.com

2012-03-11 23:13:26

如何入门51单片机？如何利用51单片机点亮第一个led小灯？

如何入门51单片机？如何利用51单片机点亮第一个led小灯？

2021-10-20 07:28:09

如何使用STM32CUBEMX点亮你的第一个LED？

如何使用STM32CUBEMX点亮你的第一个LED？

2021-10-11 09:35:21

如何在STM32MP1上构建和执行第一个C++ 代码？

谁能帮助我在 STM32MP1 上构建和执行第一个 C++ 代码？

2022-12-05 07:29:59

如何建立第一个C项目？

51单片机C语言学习杂记建立您的第一个C项目

2021-03-02 07:33:51

如何点亮第一个LED灯？

如何点亮第一个LED灯？

2022-01-20 06:58:38

干货 | TensorFlow的55个经典案例

TensorFlow 提供了简化的接口的库。里面有很多示例和预构建的运算和层。使用教程：TFLearn 快速入门。通过一个具体的机器学习任务学习 TFLearn 基础。开发和训练一个深度神经网络分类器

2018-10-09 11:28:37

快速构建并迭代你的第一个系统

进行中转。• 更多…虽然我在反垃圾邮件领域已经有了一定的经验，却依然难以保证每次都能顺利在上面的方向中进行抉择。如果你在此领域并不是一个专家，难度会变得更大。如果在一开始就试图设计和构建出完美的系统会

2018-12-18 09:11:38

怎样用CubeMX创建第一个project

如何去安装CubeMX？怎样用CubeMX创建第一个project？

2021-09-28 06:15:37

我也发一个 Labview 官网入门教程

本帖最后由郑子鑫… 于 2015-3-6 11:16 编辑 Labview 官网入门教程

2015-03-06 11:15:10

我的第一个labview程序：计算器

2017年入门labview的第一个程式，从此激发了我的兴趣但也只是当作兴趣，偶尔学学现在想把它作为自己的职业，不知前路如何，且边走边说吧！

2019-12-28 18:45:57

本章的目的是让你了解和运行 TensorFlow!

]为了进一步激发你的学习欲望, 我们想让你先看一下 TensorFlow 是如何解决一个经典的机器学习问题的. 在神经网络领域, 最为经典的问题莫过于 MNIST 手写数字分类问题. 我们准备了两篇

2018-03-30 19:58:25

求 labview实用入门教程

`本人因病掉课，现在已经跟不上进度，求 labview实用入门教程，多例题，讲解清晰，谢！！！！！！`

2012-02-09 05:22:31

求51单片机入门教程

求51单片机入门教程

2012-05-19 19:22:06

求ARM入门教程

谁那里有较全的ARM入门教程，麻烦发一份到我的邮箱去，gd_binliao@163.com万分感激

2013-01-24 21:24:09

求NI labview 入门教程

求NI labview 入门教程

2013-03-25 20:52:53

求multisim 12.0入门教程（中文版）

2016-07-16 14:05:04

求助我的第一个程序

第一个程序，出现了这样的问题，不会做了，怎么办，我是用ardublock写的程序

2017-02-28 16:50:51

求助，用CubeMX配置占空比30%的PWM输出第一个波形不准确是为什么

我用的是G0的芯片配置，通过抓波发现第一个波形永远与我配置的占空比不准确，但是除了第一个周期不准确外，后面的都没问题。

2023-08-07 07:26:12

求助，用CubeMX配置占空比30%的PWM输出第一个波形不准确是为什么？

我用的是G0的芯片配置，通过抓波发现第一个波形永远与我配置的占空比不准确，但是除了第一个周期不准确外，后面的都没问题。

2024-03-18 07:55:05

求大神分享51单片机的基础入门教程

求大神分享51单片机的基础入门教程

2021-09-18 07:14:51

点亮人生中的第一个流水灯

上期回顾：上篇文章我写了单片机入门（二）：点亮奇数位/偶数位LED灯**单片机入门（4）：点亮人生中的第一个流水灯一、需求分析做一个简单的项目，我们也要对其进行分析，看看如何得到咱们想要的结果。1

2022-01-19 07:59:40

请问谁有Altiumm Desgner的入门教程吗？

求一套Altiumm Desgner的入门教程

2019-09-20 04:35:59

谁有入门教程分享一下啊

求入门教程！！！

2018-10-26 08:42:03

零基础小白入门AI，你需要知道这些！

不好，我该怎样去学AI呢？这些消息都在反应一个问题：零基础的小白童鞋，该如何入门AI？其实讯飞开放平台之前也零散地回答过这些问题，今天晚上我们就来系统地说下这个问题，希望能帮助到更多的小伙伴。认识AI

2018-06-08 11:04:34

POWERPCB入门教程

POWERPCB入门教程非常详细的介绍了其对应功能，是份不错的资料

2006-03-12 01:24:00

《uVision2入门教程》

2006-03-21 20:19:47

单片机入门教程

单片机入门教程

2006-03-21 20:27:05

425

2130

单片机入门教程第一课单片机概述

单片机入门教程第一课单片机概述 1、何谓单片机　　一台能够工作的计算机要有这样几个部份构成：CPU（进行运算、控制）、RAM（数据存

2010-01-07 16:54:13

1264

单片机入门教程第19课-定时、中断实验一

单片机入门教程第19课-定时、中断实验一　1、利用定时器实现灯的闪烁在学单片机时我们第一个例子就是灯的闪烁，那是用延时程序做的

2010-01-07 15:50:49

994

Mentor EN入门教程

本内容详细介绍了Mentor EN入门教程，本内容是PPT格式，欢迎大家学习

2011-05-10 15:11:40

硬件工程师入门教程

硬件工程师入门教程硬件工程师入门教程硬件工程师入门教程硬件工程师入门教程硬件工程师入门教程

2016-01-05 15:53:18

240

123

4884

tensorflow的构建流程

本文主要阐述了tensorflow的构建流程。

2020-12-04 15:01:14

1707

113

已全部加载完成

搜索历史

理解 Q-Learning - 用TensorFlow构建你的第一个游戏AI入门教程

最终回归

训练过程

定义模型

本文导航

评论