简介:算法
PGMRL: PGMRL就是把RL问题建模成一个几率图模型,以下图所示:框架
而后经过variational inference的方法进行学习:ide
PGMRL给RL问题的表示给了一个范例,对解决不少RL新问题提供了一种思路和工具。工具
Bayesian RL: 主要是对RL的reward function, transation function引入uncertainty, 引入prior和更新posterior来建模,从而更好地进行探索。post
思考:为何PGMRL推导过程当中没有Beyesian RL的exploration-exploitation trade-off的问题。学习
简单的PGMRL建模的reward和transation是肯定的,没有超参数的。在某种程度下,好比问题是凸的状况下,是不须要进行exploration的。而Beyesian RL的问题设定是假设这些东西是一种几率分布,而不是肯定性的。而BeyesionRL对这种不肯定性的处理恰巧克服了RL问题不是凸的状况local optimal的减弱。spa
thinking: what things does the Beyesian RL not consider?blog
Beyesian RL关注的点主要仍是在uncertainty上,对policy学习过程的建模能力较弱,更适合用来处理RL中的uncertainty的问题,好比对sparse reward的问题处理能力较弱。ip
relationship between PGMRL and Bayesian RL:数学
我以为Bayesian RL应该归为PGMRL中的一部分,PGMRL更具备总体性,对问题描述更全面,而Bayesian RL更像是处理某一特殊问题的方式。Bayesian RL须要在经过数据更新后验,而后也是model学习和policy学习相互交替的过程,可是因为没有很好的描述,咱们不清楚这里面那些东西是missing variables,并且表面上看上去彷佛reward和transation是missing的,但在PGMRL框架下,咱们能够很清晰的看到其实optimal policy才是missing variable(PGMRL中把optimal policy转换成了variable)。这种迭代学习的过程,和EM算法的迭代相似,就是一边作inference一边作learning。这里inference就是对opitmal policy的学习过程,learning就是对MDP参数学习的过程。而在对optimal policy学习的时候,是这一种变分推断的过程,而这个变分推断过程又结合了MCMC采样的东西,MCMC采样有个冷启动的过程,因此前期不能只根据policy的最优结果来进行采样,须要加一些扰动。各类inference技术的结合加上简化造成了目前的基于deep learning的RL policy学习方法。
对于无先验的东西,我以为仍是用maximum entropy和variational infercence的方式去处理,简单的Bayesian RL中若是使用简单的共轭先验,对问题的处理局限性也较大,不具备普适性。因此,对于无先验的东西,直接采用maximum entropy更具备普适性。