Q-learning和Sarsa

Q-learning Q-learning是基于 T D ( 0 ) TD(0) TD(0)的无模型强化学习算法。其采用的价值函数为动作价值函数Q(s,a)。 主要价值函数迭代公式为: Q π ( s t , a t ) = Q π ( s t , a t ) + α ( r t + 1 + γ m a x a Q ( s t + 1 , a t + 1 ) − Q ( s t , a ) ) Q
相关文章
相关标签/搜索