人工智能学习笔记9

时间 2020-12-23

原文原文链接

Agent：智能体策略网络（Policy Network）：直接预测在某个环境状态下应该采取的Action。适合Action种类非常多或者有连续取值的Action的环境。（学习的不是某个action对应的期望价值Q，而是直接学习在当前环境应该采取的策略，可以直接产生最终的策略）价值/估值网络（Value Network）：预测某个环境状态下所有A

>>阅读原文<<