Deep Q-learning

推自己的github,边学边写,有RL,DL的一些小实验,训练机器走迷宫之类的小游戏,有兴趣可以玩玩 传送门 Q-learning作为典型的value-based algorithm,训练出来的是critic(并不直接采取行为,评价现在的行为有多好),因此提出了state value function的概念,方便对每个状态进行评估 Policy-based是不断的增加reward高的行为发生的概率
相关文章
相关标签/搜索