MDP总结

MDP总结 强化学习建模 强化学习问题可以下图来表示: 上面右图中的大脑代表执行强化学习算法的个体(Agent、或称为代理)。个体通过强化学习算法计算出一个适合当前状态的动作 A t A_t At​。地球代表强化学习问题中涉及的环境,它有自己的状态模型。个体在状态 S t = s S_t=s St​=s下选择动作后,环境状态从 S t = s S_t=s St​=s转移至 S t + 1 = s
相关文章
相关标签/搜索