强化学习的基础总结

MDP简介 MDP是用于正式描述强化学习模型中的环境(environment)。app 这里的环境是彻底可观测的。机器学习 几乎全部的RL问题均可以被定义为MDP模型。函数 马尔可夫性学习 如前面文章所说,马尔可夫性就是:给定如今,未来与过去无关。atom 数学语言描述就是:spa P[St+1|St]=P[St+1|S1,S2,...,St]P[St+1|St]=P[St+1|S1,S2,...
相关文章
相关标签/搜索