8 Planning and Learning with Tabular Methods

【上一节 [7 Multi-step Bootstrapping] (https://blog.csdn.net/coffee_cream/article/details/81053960)】html 本节建立了一种统一的方法视图,其中既包括须要一个环境模型)的方法(如动态编程、启发式搜索等,也包括一些不依赖于模型的方法(如蒙特卡洛、temporal-difference等),这里将前者视为是一种
相关文章
相关标签/搜索