机器学习(三十六)——Integrating Learning and Planning(2)

Integrating Learning and Planning(续) Table Lookup Model 查表模型适用于MDP的P,R都为已知的情况。我们通过visit得到各状态行为的转移概率和奖励,把这些数据存入表中,使用时直接检索。状态转移概率和奖励计算方法如下: P ^ s , s ′ a = 1 N ( s , a ) ∑ t = 1 T 1 ( S t , A t , S t +
相关文章
相关标签/搜索