Q-Learning基本思想

文章目录 Q-learning Value-Fuction 计算 V π ( s ) V^\pi(s) Vπ(s)的2种方式: 1、Monte-Carlo (MC) based approach : 2、Temporal-difference (TD) approach MC v.s. TD : Q-function: Q-Learning使用技巧: 技巧1:使用Target network 技巧
相关文章
相关标签/搜索