UCBerkeley 深度强化学习-强化学习简介Lec4

时间 2021-01-09

标签深度学习人工智能强化学习概率论繁體版

原文原文链接

课程内容简介强化学习算法几种强化学习方法的比较简介 Part ♡1 MDPS POMDPS（部分可观测） Part ♡2 其中θ是策π略的参数，强化学习为了使得在当前状态st和当前选择的行为at的情况下的条件概率最大，则需要使得策略π最大，那么需要找到使得π最大的θ。有限时间情况下无限时间情况下所以，在无限和有限的情况下的参数优化方式： Part ♡3 强化学习关系期望！奖励函数r

>>阅读原文<<