Chapter 5 Monte Carlo Methods

不像以前章节,这里不假设有complete knowledge of the environment。    不需要完美的model,只要有experiences就行,用episodes表示,一个episode就是一个完整的从开始到结束的state、action、reward序列。蒙特卡洛方法的特点就是要使用整个序列,举例来说就是必须在一个episode结束后得到了整个序列才能使用蒙特卡洛方法。
相关文章
相关标签/搜索