强化学习之基本概念

首页摘要:

目前开始学习强化学习方面的内容,整体学习大纲为:基本概念、动态规划(基于模型的方法)、蒙特卡洛方法(不基于模型)、时间差分法(结合动态规划以及蒙特卡洛模拟的优点)。特别推荐的是一个博客,写得非常通俗易懂,mark一下:https://www.cnblogs.com/pinard/,本篇文章介绍强化学习的基本概念及基础方程。

强化学习是什么

机器学习可以大致分为有监督学习、无监督学习以及强化学习,有监督学习经常用语分类及预测任务,无监督学习则适用于特征降维或者聚类任务,而强化学习擅长决策任务。严格来说它们之间的分类并不明显,是一种互相依存的关系。

用下围棋的例子来引出强化学习吧。当前时刻 $t$ 棋盘($environment$) 棋子的分布为状态 $S_{t}$ ,假设以持白子的棋手是主角,那么其下子的位置则是一个动作($action$) $A_{t}$,完成这个动作会有一个回报($reward$) $r_{t+1}$,这个过程称之为一个策略( $policy$ ) $\pi(A_{t}|S_{t})$ 。在执行完策略之后,棋盘上的棋子分布发生了改变,这个时候状态为$S_{t+1}=s’$ ,这个过程一直持续到这局对弈结束,一局称之为一个 $episode$ 。

总结起来强化学习就是一个智能体和环境不断交互,针对当前环境的状态按照一定的策略来执行特定的动作,来获得尽可能大的回报的过程,而在这个交互过程中,这个智能体又不断学习进化,所采取的动作越来越合理。

强化学习基本概念

其实在上一节的介绍中,对很多概念进行了简化,为了推出完整的强化学习数学模型,需要对上述概念进行补充,下面用四个步骤来推导强化学习的基本方程,这些方程是整个强化学习算法的基石。

  1. 策略 $\pi(a|s)$ 是一个状态 $S_{t}=s$ 时执行动作 $A_{t}=a$ 的概率分布,可以理解成是一个具有 $softmax$ 层多输出的神经网络,每个动作的概率之和为1。具体而言:

  2. 当智能体在状态 $S_{t}=s$ 时执行策略 $\pi(a|s)$ 时,需要先进行评估此策略价值,评估可以用状态价值函数$v_{\pi}(s)$ 来l定量表示,这个价值函数一般是一个期望函数。此外,为了让智能体具有长远的目光,往往会考虑到未来可能的回报,但是又不能让未来的回报过于影响当前的决策,因此需要对未来的回报打个折扣。因此状态价值函数 $v_{\pi}(s)$ 可以写成:

    其中 $\gamma$ 为回报衰减因子,执行策略 $\pi(a|s)$ 也可评估其期望的回报,定义为动作价值函数 $q(s|a)$ :

  3. 为了定义环境的概率转化模型,在状态 $s$ 下执行动作 $a$ 转到状态 $s’$ 的概率为 $P_{ss’}^{a}​$ ,那么状态价值函数的期望可以进一步显式表示为:

    动作价值函数也可从上式推出:

  4. 综上所述,状态价值函数 $v_{\pi}(s)$ 和动作价值函数 $q_{\pi}(s,a)$ 在策略 $\pi$ 下的表达式可以写成:

强化学习求解基本思路

最后两个公式也被称之为贝尔曼方程,可见其表达式存在递归的形式(同一状态存在若干时刻),直观上来讲非常符合动态规划的思路,这也是求解这两个公式最先出现的方法,并基于此产生了大量的衍生算法。因此下一篇文章我将重点介绍动态规划求解强化学习贝尔曼方程的方法。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×