李宏毅教授A3C课程笔记总结

A3C (Asynchronous Advantage Actor-Critic) 远优于DQN   Alpha go用到了model-based的方法   On-policy:学习的agent和与环境互动的agent是同一个 Off-policy:学习的agent和与环境互动的agent是不同的 注意学习的agent和交互的agent之间的差别不能太大   Actor:是一个神经网络,输入是观察
相关文章
相关标签/搜索