RL之PG：基于TF利用策略梯度算法玩Cartpole游戏实现智能得高分

时间 2020-12-23

原文原文链接

RL之PG：基于TF利用策略梯度算法玩Cartpole游戏实现智能得高分输出结果视频观看地址：强化学习—基于TF利用策略梯度算法玩Cartpole游戏实现智能得高分设计思路测试过程 Episode: 1 ~ 5 Average reward: 15.000000. Episode: 6 ~ 10 Average reward: 18.000000. Episode: 11 ~ 15