李宏毅教授A3C课程笔记总结

时间 2021-01-21

原文原文链接

A3C (Asynchronous Advantage Actor-Critic) 远优于DQN Alpha go用到了model-based的方法 On-policy：学习的agent和与环境互动的agent是同一个 Off-policy：学习的agent和与环境互动的agent是不同的注意学习的agent和交互的agent之间的差别不能太大 Actor：是一个神经网络，输入是观察