DRL入门之DQN

成玉

解释
DRL: Deep Reinforcement Learning 深度增强学习
DQN: Deep Q-Network


  • 增强学习

增强学习的任务就是找到一个最优的策略Policy从而使Reward最好。
**
在AI领域,一般用Agent表示具备行为能力的物体,例如人、机器人、无人车,增强学习考虑的就是Agent与Environment之间交互的任务。比如玩flybird游戏,我们只看到屏幕,这就是环境,然后我们输出动作(点击操作)来控制bird的运动。

不管是什么样的任务,都包含了一系列的动作Action,观察Observation还有反馈值Reward。所谓的Reward就是Agent执行了动作与环境进行交互后,环境会发生变化,变化的好与坏就用Reward来表示。

任务的目标就是要能获取尽可能多的Reward。没有目标,控制也就无从谈起,因此,获取Reward就是一个量化的标准,Reward越多,就表示执行得越好。每个时间片,Agent都是根据当前的观察来确定下一步的动作。观察Observation的集合就作为Agent的所处的状态State,因此,状态State动作Action存在映射关系,也就是一个state可以对应一个action,或者对应不同动作的概率(常常用概率来表示,概率最高的就是最值得执行的动作)。状态与动作的关系其实就是输入与输出的关系,而状态State到动作Action的过程就称之为一个策略Policy,一般用表示,也就是需要找到以下关系:

或者

其中a是action,s是state。第一种是一一对应的表示,第二种是概率的表示。

  • 马尔科夫决策过程

MDP(Markov Decision Process)
**
MDP基于这样一种假设: 未来只取决于当前 用数学的话来描述就是:
一个状态是Markov当且仅当

P为概率,简单的说就是下一个状态仅取决于当前的状态和当前的动作。

一个基本的MDP可以用(S,A,P)来表示,S表示状态,A表示动作,P表示状态转移概率,也就是根据当前的状态转移到的概率。如果我们知道了转移概率P,也就是称为我们获得了模型Model,有了模型,未来就可以求解,那么获取最优的动作也就有可能,这种通过模型来获取最优动作的方法也就称为Model-based的方法。但是现实情况下,很多问题是很难得到准确的模型的,因此就有Model-free的方法来寻找最优的动作。

  • 价值函数

既然一个状态对应一个动作,或者动作的概率,而有了动作,下一个状态也就确定了。这就意味着每个状态可以用一个确定的值来进行描述。可以由此判断一个状态是好的状态还是不好的状态。比如,向左边走就是悬崖,悬崖肯定不是好的状态,再走一步可能就挂了,而向右走就是黄金,那么右边的状态就是好的状态。
那么状态的好坏其实等价于对未来回报的期望。

因此,引入回报Return来表示某个时刻t的状态将具备的回报:

上面R是Reward反馈,λ是discount factor折扣因子,一般小于1,就是说一般当下的反馈是比较重要的,时间越久,影响越小。

那么实际上除非整个过程结束,否则显然我们无法获取所有的reward来计算出每个状态的Return,因此,再引入一个概念价值函数Value Function,用value function 来表示一个状态未来的潜在价值。还是上面的例子,这里就变成是向左看感觉左边是悬崖那么左边的状态的估值就低。

从定义上看,value function就是回报的期望:


引出价值函数,对于获取最优的策略Policy这个目标,我们就会有两种方法:

  • 直接优化策略或者使得回报更高
  • 通过估计value function来间接获得优化的策略。道理很简单,既然我知道每一种状态的优劣,那么我就知道我应该怎么选择了,而这种选择就是我们想要的策略。

DQN就是基于value function的算法。

  • 动作价值函数

Action-Value function

前面我们引出了价值函数,考虑到每个状态之后都有多种动作可以选择,每个动作之下的状态又多不一样,我们更关心在某个状态下的不同动作的价值。显然。如果知道了每个动作的价值,那么就可以选择价值最大的一个动作去执行了。这就是Action-Value function。那么同样的道理,也是使用reward来表示,只是这里的reward和之前的reward不一样,这里是执行完动作action之后得到的reward,之前state对应的reward则是多种动作对应的reward的期望值。显然,动作之后的reward更容易理解。

那么,有了上面的定义,动作价值函数就为如下表示:

这里要说明的是动作价值函数的定义,加了,也就是说是在策略下的动作价值。因为对于每一个动作而已,都需要由策略根据当前的状态生成,因此必须有策略的支撑。而前面的价值函数则不一定依赖于策略。当然,如果定义则表示在策略下的价值。

  • 最优价值函数

能计算动作价值函数是不够的,因为我们需要的是最优策略,现在求解最优策略等价于求解最优的value function,找到了最优的value function,自然而然策略也就是找到。(当然,这只是求解最优策略的一种方法,也就是value-based approach,由于DQN就是value-based,因此这里只讲这部分,以后我们会看到还有policy-based和model-based方法。一个就是直接计算策略函数,一个是估计模型,也就是计算出状态转移函数,从而整个MDP过程得解)。

这里以动作价值函数来分析。
首先是最优动作价值函数和一般的动作价值函数的关系:

也就是最优的动作价值函数就是所有策略下的动作价值函数的最大值。通过这样的定义就可以使最优的动作价值的唯一性,从而可以求解整个MDP。

那么套用上一节得到的value function,可以得到

因为最优的Q值必然为最大值,所以,等式右侧的Q值必然为使a′取最大的Q值。

  • Q-Learning

Q Learning提出了一种更新Q值的办法:

image.png

  •  探索与利用

在上面的算法中,我们可以看到需要使用某一个policy来生成动作,也就是说这个policy不是优化的那个policy,所以Q-Learning算法叫做Off-policy的算法。另一方面,因为Q-Learning完全不考虑model模型也就是环境的具体情况,只考虑看到的环境及reward,因此是model-free的方法。 
回到policy的问题,那么要选择怎样的policy来生成action呢?有两种做法:
- 随机的生成一个动作
- 根据当前的Q值计算出一个最优的动作,这个policy称之为greedy policy贪婪策略。也就是

使用随机的动作就是exploration,也就是探索未知的动作会产生的效果,有利于更新Q值,获得更好的policy。而使用greedy policy也就是target policy则是exploitation,利用policy,这个相对来说就不好更新出更好的Q值,但可以得到更好的测试效果用于判断算法是否有效。

将两者结合起来就是所谓的策略,一般是一个很小的值,作为选取随机动作的概率值。可以更改的值从而得到不同的exploration和exploitation的比例。
这里需要说明的一点是使用策略是一种极其简单粗暴的方法,对于一些复杂的任务采用这种方法来探索未知空间是不可取的。因此,最近有越来越多的方法来改进这种探索机制。

  • 价值函数近似

什么是价值函数近似呢?说起来很简单,就是用一个函数来表示Q(s,a)。即

f可以是任意类型的函数,比如线性函数:
 其中是函数f的参数。
大家看到了没有,通过函数表示,我们就可以无所谓s到底是多大的维度,反正最后都通过矩阵运算降维输出为单值的Q。
这就是价值函数近似的基本思路。
如果我们就用来统一表示函数f的参数,那么就有

为什么叫近似,因为我们并不知道Q值的实际分布情况,本质上就是用一个函数来近似Q值的分布,所以,也可以说是

  • 与神经网络结合

我们用一个深度神经网络来表示这个函数f

以DQN为例,输入是经过处理的4个连续的84x84图像,然后经过两个卷积层,两个全连接层,最后输出包含每一个动作Q值的向量。
对于这个网络的结构,针对不同的问题可以有不同的设置。如果大家熟悉Tensorflow,那么肯定知道创建一个网络是多么简单的一件事。这里我们就不具体介绍了。我们将在之后的DQN tensorflow实战篇进行讲解。
总之,用神经网络来表示Q值非常简单,Q值也就是变成用Q网络(Q-Network)来表示。

  • DQN算法

我们知道,神经网络的训练是一个最优化问题,最优化一个损失函数loss function,也就是标签和网络输出的偏差,目标是让损失函数最小化。为此,我们需要有样本,巨量的有标签数据,然后通过反向传播使用梯度下降的方法来更新神经网络的参数。
所以,要训练Q网络,我们要能够为Q网络提供有标签的样本。
所以,问题变成:

如何为Q网络提供有标签的样本? 答案就是利用Q-Learning算法。
大家回想一下Q-Learning算法,Q值的更新依靠什么?依靠的是利用Reward和Q计算出来的目标Q值:

因此,我们把目标Q值作为标签不就完了?我们的目标不就是让Q值趋近于目标Q值吗?
因此,Q网络训练的损失函数就是
上面公式是即下一个状态和动作。这里用了David Silver的表示方式,看起来比较清晰。
既然确定了损失函数,也就是cost,确定了获取样本的方式。那么DQN的整个算法也就成型了。