【莫烦强化学习】笔记之Q-Learning(一)

Q-learning简介 行动准则:好的行为能够获得奖励,不好的行为会获得惩罚。 假设你有两个选择:写作业和看电视。你选择连续看电视,被爸妈发现打屁股。你吸取了惨痛的教训,第二次持续认真的写作业。 Q表 Q-learning有一个Q表,如图所示: 表中是每一个状态(s1,s2,……)以及所对应的所有动作(a1,a2,……)的“Q值”,Q值可以表示当前状态下选择对应动作的回报。 Q表的作用是什么呢?
相关文章
相关标签/搜索