CNN笔记(CS231N)——强化学习(Reinforcement Learning)

强化学习 我们之前讲了监督学习跟无监督学习,这一讲我们采用一种全新的思路来解决问题叫做强化学习。强化学习的目标是让代理学会采取动作来最大化奖励函数 下面是强化学习的一些例子 我们怎么样对这个问题进行建模呢?我们可以把这个问题看做一个马尔科夫链 目标函数是从头到尾的奖励加权相加 对于π是固定的,那么怎么解决随机性的问题呢?方案就是采用数学期望来平均这些随机性 由于我们可以定义价值函数,来代表特定状态
相关文章
相关标签/搜索