首页摘要:
基于策略梯度的方法主要存在的问题是需要完整序列以及难以收敛的问题,能否引入基于值函数近似的方法来处理是我们所关心的因此Actor-Critic的方法被提出来解决这个问题,其中Actor是策略网络,而Critic是评论网络,也就是说Critic作用类似于Deep Q-learning中的Q网络,用来评估$q$值。本篇文章将简要介绍Actor-Critic方法的过程以及其改进形式——深度确定性策略梯度(DDPG)。
首页摘要:
基于策略梯度的方法主要存在的问题是需要完整序列以及难以收敛的问题,能否引入基于值函数近似的方法来处理是我们所关心的因此Actor-Critic的方法被提出来解决这个问题,其中Actor是策略网络,而Critic是评论网络,也就是说Critic作用类似于Deep Q-learning中的Q网络,用来评估$q$值。本篇文章将简要介绍Actor-Critic方法的过程以及其改进形式——深度确定性策略梯度(DDPG)。
首页摘要:
基于值函数近似的方法,例如Deep Q-learning,存在无法处理连续动作的缺点。因此,策略梯度方法被提出来解决这个问题。本文主要从策略梯度的推导、策略梯度算法框架两个方面来进行介绍。
首页摘要:
2019年3月学习完强化学习基础之后,迟迟未能进一步了解深度强化学习方面的内容。虽然2020年开局就是如此严重的疫情,但对我而言,它也给了自我学习的时间。深度强化学习系列文章会从基于值函数近似的方法、基于策略梯度的方法、两者相结合的方法三个方面来进行介绍。本文介绍基于值函数近似的方法,包括Deep Q-learning及其各种改进体。
首页摘要:
时序差分法和蒙特卡洛法都是不用基于模型的方法,但是蒙特卡洛需要完整的序列才能使用,而时序差分法正是用来克服这个不足的。时序差分法的在线(on-policy)版是SARSA算法、离线(off-policy)版是Q-learning算法,不同的策略改进方式产生了这个差别。
首页摘要:
动态规划是基于模型的方法,一旦模型的状态转移概率 $P_{ss’}^{a}$ 无法获得时就无法求解。这个时候不基于模型的方法——蒙特卡洛法——可以利用采样来近似求得每个状态的价值期望,这种方法整体也可以分为策略评估(在特定的策略下每个状态价值的评估)和策略改进(确定每个状态价值后对策略进行提升)两部分。
首页摘要:
目前开始学习强化学习方面的内容,整体学习大纲为:基本概念、动态规划(基于模型的方法)、蒙特卡洛方法(不基于模型)、时间差分法(结合动态规划以及蒙特卡洛模拟的优点)。特别推荐的是一个博客,写得非常通俗易懂,mark一下:https://www.cnblogs.com/pinard/,本篇文章介绍强化学习的基本概念及基础方程。
Update your browser to view this website correctly. Update my browser now