机器学习（三十六）——Integrating Learning and Planning（2）

时间 2021-01-02

原文原文链接

Integrating Learning and Planning（续） Table Lookup Model 查表模型适用于MDP的P，R都为已知的情况。我们通过visit得到各状态行为的转移概率和奖励，把这些数据存入表中，使用时直接检索。状态转移概率和奖励计算方法如下： P ^ s , s ′ a = 1 N ( s , a ) ∑ t = 1 T 1 ( S t , A t , S t +