CNN笔记（CS231N）——强化学习（Reinforcement Learning）

时间 2021-01-08

原文原文链接

强化学习我们之前讲了监督学习跟无监督学习，这一讲我们采用一种全新的思路来解决问题叫做强化学习。强化学习的目标是让代理学会采取动作来最大化奖励函数下面是强化学习的一些例子我们怎么样对这个问题进行建模呢？我们可以把这个问题看做一个马尔科夫链目标函数是从头到尾的奖励加权相加对于π是固定的，那么怎么解决随机性的问题呢？方案就是采用数学期望来平均这些随机性由于我们可以定义价值函数，来代表特定状态

>>阅读原文<<