Reinforcement Learning - An Introduction强化学习读书笔记 Ch8.4-Ch8.11

8.4 优先遍历 模拟转移中,均匀采样通常不是最好的,如果模拟转移和价值函数更新集中在某些特定的二元组中,能更加高效地进行学习。在进行价值更新的时候,可以从使得价值法身变化的任何状态进行反向计算,同时更新前导状态的价值,称为反向聚焦。 而在进行反向推演传播的时候,价值改变更大的状态的前导状态也更可能改变很大,且不同的前导状态应该被赋予不同的权值,从而引发优先级遍历的思想,维护一个优先队列,其按照价
相关文章
相关标签/搜索