强化学习(一) —— Q-learning

Q-learning算法中有两个重要术语:状态(state)和行为(action)   引入 我们做事情都会有一个自己的行为准则,比如小时候爸妈常说不写完作业就不准看电视 所以我们在写作业的这种状态下,好的行为准则就是继续写作业,直到写完它,我们就可以继续得到奖励 而如果没有写完作业就去跑去看电视,被爸妈发现后,后果很严重 Q-learning和我们这种情况类似,也是一个决策过程 假设我们现在处于
相关文章
相关标签/搜索