深度强化学习之基于融合值函数近似和策略梯度的方法

首页摘要:

基于策略梯度的方法主要存在的问题是需要完整序列以及难以收敛的问题,能否引入基于值函数近似的方法来处理是我们所关心的因此Actor-Critic的方法被提出来解决这个问题,其中Actor是策略网络,而Critic是评论网络,也就是说Critic作用类似于Deep Q-learning中的Q网络,用来评估$q$值。本篇文章将简要介绍Actor-Critic方法的过程以及其改进形式——深度确定性策略梯度(DDPG)。

深度强化学习之基于策略梯度的方法

首页摘要:

基于值函数近似的方法,例如Deep Q-learning,存在无法处理连续动作的缺点。因此,策略梯度方法被提出来解决这个问题。本文主要从策略梯度的推导、策略梯度算法框架两个方面来进行介绍。

深度强化学习之基于值函数近似的方法

首页摘要:

2019年3月学习完强化学习基础之后,迟迟未能进一步了解深度强化学习方面的内容。虽然2020年开局就是如此严重的疫情,但对我而言,它也给了自我学习的时间。深度强化学习系列文章会从基于值函数近似的方法、基于策略梯度的方法、两者相结合的方法三个方面来进行介绍。本文介绍基于值函数近似的方法,包括Deep Q-learning及其各种改进体。

强化学习之时序差分法

首页摘要:

时序差分法和蒙特卡洛法都是不用基于模型的方法,但是蒙特卡洛需要完整的序列才能使用,而时序差分法正是用来克服这个不足的。时序差分法的在线(on-policy)版是SARSA算法、离线(off-policy)版是Q-learning算法,不同的策略改进方式产生了这个差别。

强化学习之蒙特卡洛法

首页摘要:

动态规划是基于模型的方法,一旦模型的状态转移概率 $P_{ss’}^{a}$ 无法获得时就无法求解。这个时候不基于模型的方法——蒙特卡洛法——可以利用采样来近似求得每个状态的价值期望,这种方法整体也可以分为策略评估(在特定的策略下每个状态价值的评估)和策略改进(确定每个状态价值后对策略进行提升)两部分。

强化学习之动态规划

首页摘要:

动态规划算法主要包括策略评估、策略改进,其中策略评估是为了确定某个策略下对应的各个状态值函数或者是状态动作值函数,而策略改进则是根据确定的状态值函数或者状态动作函数找到最优策略。

强化学习之基本概念

首页摘要:

目前开始学习强化学习方面的内容,整体学习大纲为:基本概念、动态规划(基于模型的方法)、蒙特卡洛方法(不基于模型)、时间差分法(结合动态规划以及蒙特卡洛模拟的优点)。特别推荐的是一个博客,写得非常通俗易懂,mark一下:https://www.cnblogs.com/pinard/,本篇文章介绍强化学习的基本概念及基础方程。

重要性采样理解

首页摘要:

以前一直不能理解为什么特定分布可以通过均匀分布来进行采样,今天突然就想通了。俗语说得好,文章本天成,“妙手”偶得之。

信息熵的理解

首页摘要:

记录对信息熵的理解

生成对抗神经网络简介

首页摘要:

最近投了一篇《基于改进CGAN的电力系统暂态稳定样本数据增强方法》,趁着和微软俱乐部小伙伴交流的机会简单做了一份PPT,记录学习心得。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×