强化学习 入门(二)

强化学习 入门(二) 一、Q-learning:Q-table 公式 : 更新规则:相当于以前有个old的值,现在又发现了个new的值,该用哪一个呢? 只用新的,相当于彻底放弃已有经验。 只用老的,相当于不更新。 各取一半,相当于取个平均。 那就老规矩,加个权重,引入了权重 α ,得到了更新公式。 Qlatest=(1−α)Qold+αQnew=Qold+α(Qnew−Qold) Q[s,a]=Q
相关文章
相关标签/搜索