UCBerkeley 深度强化学习-强化学习简介Lec4

课程内容 简介 强化学习算法 几种强化学习方法的比较 简介 Part ♡1 MDPS POMDPS(部分可观测) Part ♡2 其中θ是策π略的参数,强化学习为了使得在当前状态st和当前选择的行为at的情况下的条件概率最大,则需要使得策略π最大,那么需要找到使得π最大的θ。 有限时间情况下 无限时间情况下 所以,在无限和有限的情况下的参数优化方式: Part ♡3 强化学习关系期望! 奖励函数r
相关文章
相关标签/搜索