首页摘要:
待补充。
首页摘要:
时序差分法和蒙特卡洛法都是不用基于模型的方法,但是蒙特卡洛需要完整的序列才能使用,而时序差分法正是用来克服这个不足的。时序差分法的在线(on-policy)版是SARSA算法、离线(off-policy)版是Q-learning算法,不同的策略改进方式产生了这个差别。
首页摘要:
动态规划是基于模型的方法,一旦模型的状态转移概率 $P_{ss’}^{a}$ 无法获得时就无法求解。这个时候不基于模型的方法——蒙特卡洛法——可以利用采样来近似求得每个状态的价值期望,这种方法整体也可以分为策略评估(在特定的策略下每个状态价值的评估)和策略改进(确定每个状态价值后对策略进行提升)两部分。
首页摘要:
目前开始学习强化学习方面的内容,整体学习大纲为:基本概念、动态规划(基于模型的方法)、蒙特卡洛方法(不基于模型)、时间差分法(结合动态规划以及蒙特卡洛模拟的优点)。特别推荐的是一个博客,写得非常通俗易懂,mark一下:https://www.cnblogs.com/pinard/,本篇文章介绍强化学习的基本概念及基础方程。
首页摘要:
HEXO本身是不支持显示公式的,但是安装mathJax插件即可对浏览器进行公式渲染,也就是说安装了mathJax就可以像Latex一样显示美观的数学公式。折腾了两个小时,本博客于2019年3月25日支持数学公式显示了!
首页摘要:
总算把主要的工作完成了,虽然做不到三日深省吾身,争取有空就多思考、多总结。以前看论文没有形成好习惯,所有论文都下在一个文件夹,未能及时归纳整理。现在开始下决心改掉这个习惯,做到对研究方向的精彩论文精读、研究领域的一般论文及非研究领域的论文略读,及时总结归纳。
首页摘要:
在《Spatial-temporal Adaptive Transient Stability Assessment for Power System under Missing Data》论文撰写过程中发现很多问题,趁着现在刚写完总结一下写这篇论文时编程遇到的问题以及相应的解决方法。
Update your browser to view this website correctly. Update my browser now