Bayesian RL and PGMRL

时间 2019-11-06

标签 bayesian pgmrl 繁體版

原文原文链接

简介：算法

PGMRL: PGMRL就是把RL问题建模成一个几率图模型，以下图所示：框架

而后经过variational inference的方法进行学习：ide

PGMRL给RL问题的表示给了一个范例，对解决不少RL新问题提供了一种思路和工具。工具

Bayesian RL: 主要是对RL的reward function, transation function引入uncertainty, 引入prior和更新posterior来建模，从而更好地进行探索。post

思考：为何PGMRL推导过程当中没有Beyesian RL的exploration-exploitation trade-off的问题。学习

简单的PGMRL建模的reward和transation是肯定的，没有超参数的。在某种程度下，好比问题是凸的状况下，是不须要进行exploration的。而Beyesian RL的问题设定是假设这些东西是一种几率分布，而不是肯定性的。而BeyesionRL对这种不肯定性的处理恰巧克服了RL问题不是凸的状况local optimal的减弱。spa

thinking: what things does the Beyesian RL not consider?blog

Beyesian RL关注的点主要仍是在uncertainty上，对policy学习过程的建模能力较弱，更适合用来处理RL中的uncertainty的问题，好比对sparse reward的问题处理能力较弱。ip

relationship between PGMRL and Bayesian RL:数学

我以为Bayesian RL应该归为PGMRL中的一部分，PGMRL更具备总体性，对问题描述更全面，而Bayesian RL更像是处理某一特殊问题的方式。Bayesian RL须要在经过数据更新后验，而后也是model学习和policy学习相互交替的过程，可是因为没有很好的描述，咱们不清楚这里面那些东西是missing variables，并且表面上看上去彷佛reward和transation是missing的，但在PGMRL框架下，咱们能够很清晰的看到其实optimal policy才是missing variable(PGMRL中把optimal policy转换成了variable)。这种迭代学习的过程，和EM算法的迭代相似，就是一边作inference一边作learning。这里inference就是对opitmal policy的学习过程，learning就是对MDP参数学习的过程。而在对optimal policy学习的时候，是这一种变分推断的过程，而这个变分推断过程又结合了MCMC采样的东西，MCMC采样有个冷启动的过程，因此前期不能只根据policy的最优结果来进行采样，须要加一些扰动。各类inference技术的结合加上简化造成了目前的基于deep learning的RL policy学习方法。

对于无先验的东西，我以为仍是用maximum entropy和variational infercence的方式去处理，简单的Bayesian RL中若是使用简单的共轭先验，对问题的处理局限性也较大，不具备普适性。因此，对于无先验的东西，直接采用maximum entropy更具备普适性。