强化学习算法Policy Gradient

时间 2019-12-08

标签强化学习算法 policy gradient 繁體版

原文原文链接

1 算法的优缺点

　1.1　优势

　　在DQN算法中，神经网络输出的是动做的q值，这对于一个agent拥有少数的离散的动做仍是能够的。可是若是某个agent的动做是连续的，这无疑对DQN算法是一个巨大的挑战，为了解决这个问题，前辈们将基于值的方法改为了基于策略的方法，即输出动做的几率。算法

　1.2　缺点

　　策略梯度算法应用将来损失的return做为更新迭代的依据，即在一个回合事后，在这一回合中，若执行的某一动做的动做价值R大，则会加在下一回合选择这一动做的几率，反之，若执行的某一动做的动做价值R小，则会在下一回合选择这一动做的几率减少。所以，要想用return作为预测动做几率的神经网络更新的依据，就必须先拥有一个决策链，才能将return计算出来，所以每个更新是在一个回合结束后才能更新一个。更新的速率比较慢网络

强化学习算法Policy Gradient

1 算法的优缺点

1.1　优势

1.2　缺点

2 算法的流程

2.1 算法的总体逻辑

2.2　算法的更新逻辑

强化学习算法Policy Gradient

1 算法的优缺点

1.1 优势

1.2 缺点

2 算法的流程

2.1 算法的总体逻辑

2.2 算法的更新逻辑

　1.1　优势

　1.2　缺点

　2.1 算法的总体逻辑

　2.2　算法的更新逻辑