在DQN算法中,神经网络输出的是动做的q值,这对于一个agent拥有少数的离散的动做仍是能够的。可是若是某个agent的动做是连续的,这无疑对DQN算法是一个巨大的挑战,为了解决这个问题,前辈们将基于值的方法改为了基于策略的方法,即输出动做的几率。算法
策略梯度算法应用将来损失的return做为更新迭代的依据,即在一个回合事后,在这一回合中,若执行的某一动做的动做价值R大,则会加在下一回合选择这一动做的几率,反之,若执行的某一动做的动做价值R小,则会在下一回合选择这一动做的几率减少。所以,要想用return作为预测动做几率的神经网络更新的依据,就必须先拥有一个决策链,才能将return计算出来,所以每个更新是在一个回合结束后才能更新一个。更新的速率比较慢网络