【RL从入门到放弃】【二】

1、Q_learning 探索者游戏,从开始位置左右移动到终点位置,结束的时候奖励值为1,其余时刻奖励值为0 q_table/值函数矩阵 states + actions choose action Left或者right,how to choose action? 行动策略(action policy)是ε-greedy策略,引入的一个参数是epsilon greedy, Left:0   ri
相关文章
相关标签/搜索