Lee Hung-yi强化学习 | (1) Policy Gradient

Lee Hung-yi强化学习专栏系列博客主要转载自CSDN博主 qqqeeevvv,原专栏地址 课程视频 课件 1. 回顾 在强化学习中,主要有三个部件(components):actor、environment、reward function。其中env和reward function是事先就定好的,你不能控制。唯一能调整的是actor的policy,使actor能获得最大的reward。 p
相关文章
相关标签/搜索