强化学习(一) —— Q-learning

时间 2021-01-01

标签强化学习 Q-learning 繁體版

原文原文链接

Q-learning算法中有两个重要术语：状态(state)和行为(action) 引入我们做事情都会有一个自己的行为准则，比如小时候爸妈常说不写完作业就不准看电视所以我们在写作业的这种状态下，好的行为准则就是继续写作业，直到写完它，我们就可以继续得到奖励而如果没有写完作业就去跑去看电视，被爸妈发现后，后果很严重 Q-learning和我们这种情况类似，也是一个决策过程假设我们现在处于

>>阅读原文<<