强化学习(Policy Gradient,Actor Critic)

强化学习是通过奖惩的反馈来不断学习的,在Q-Learning,Sarsa和DQN中,都是学习到了价值函数或对价值函数的近似,然后根据价值来选择策略(如选择最大价值的动作),所以这一类也被称为Value Based Model。但是这种处理方式有几处瓶颈: 处理连续动作效果差。对于高维度或连续状态空间,使用Value Based通过得到价值函数再制定策略,需要比较所有action的价值大小,此时选出
相关文章
相关标签/搜索