深入浅出强化学习原理入门(一)——马尔科夫决策过程

马尔科夫决策过程 文章目录 马尔科夫决策过程 理论讲解 马尔科夫性 马尔科夫过程 马尔科夫决策过程 状态值函数 状态-行为值函数 question 1 强化学习基本框架 智能体与环境不断交互从而产生很多的数据,强化学习算法利用产生的数据修改自身的动作策略。 强化学习与深度学习的区别: 深度学习如图像识别和语音识别,解决的是感知的问题。 强化学习解决的是决策的问题。 马尔科夫决策过程(MDP)是一个
相关文章
相关标签/搜索