《reinforcement learning:an introduction》第六章《Temporal-Difference Learning》总结

由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。 对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。 因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。 注意:本章考虑model-free的prediction和control,仍然有两种方法,policy iteration和val
相关文章
相关标签/搜索