强化学习算法Policy Gradient

1 算法的优缺点

 1.1 优势

  在DQN算法中,神经网络输出的是动做的q值,这对于一个agent拥有少数的离散的动做仍是能够的。可是若是某个agent的动做是连续的,这无疑对DQN算法是一个巨大的挑战,为了解决这个问题,前辈们将基于值的方法改为了基于策略的方法,即输出动做的几率。算法

 1.2 缺点

  策略梯度算法应用将来损失的return做为更新迭代的依据,即在一个回合事后,在这一回合中,若执行的某一动做的动做价值R大,则会加在下一回合选择这一动做的几率,反之,若执行的某一动做的动做价值R小,则会在下一回合选择这一动做的几率减少。所以,要想用return作为预测动做几率的神经网络更新的依据,就必须先拥有一个决策链,才能将return计算出来,所以每个更新是在一个回合结束后才能更新一个。更新的速率比较慢网络

2 算法的流程

 2.1 算法的总体逻辑

  2.2 算法的更新逻辑

相关文章
相关标签/搜索