对Tabular方法的总结

sample model比distribution model模型更容易获得 对于人工智能问题,value function, backing up value updates, and GPI是非常有用的组织规范。 上图说到了两个维度,第三个维度是on-policy与off-policy方法。
相关文章
相关标签/搜索