强化学习(问题集)

什么是强化学习 强化学习是一种从行动中学习的计算方法。强化学习循环输出state,action和reward的序列,agent的目的是最大化预计累计奖励(expected cumulative reward) 为何 Agent 的目标是最大化预期的累积奖励 实际上,强化学习是基于奖励假设的想法。全部目标均可以经过预期累积奖励的最大化来描述。 gamma的折扣率 它必须介于0和1之间。越大,折扣越小
相关文章
相关标签/搜索