Reinforcement Learning - An Introduction强化学习读书笔记 Ch8.4-Ch8.11

时间 2021-01-13

标签强化学习入门强化学习繁體版

原文原文链接

8.4 优先遍历模拟转移中，均匀采样通常不是最好的，如果模拟转移和价值函数更新集中在某些特定的二元组中，能更加高效地进行学习。在进行价值更新的时候，可以从使得价值法身变化的任何状态进行反向计算，同时更新前导状态的价值，称为反向聚焦。而在进行反向推演传播的时候，价值改变更大的状态的前导状态也更可能改变很大，且不同的前导状态应该被赋予不同的权值，从而引发优先级遍历的思想，维护一个优先队列，其按照价

>>阅读原文<<