深入浅出强化学习原理入门（一）——马尔科夫决策过程

时间 2021-01-01

原文原文链接

马尔科夫决策过程文章目录马尔科夫决策过程理论讲解马尔科夫性马尔科夫过程马尔科夫决策过程状态值函数状态-行为值函数 question 1 强化学习基本框架智能体与环境不断交互从而产生很多的数据，强化学习算法利用产生的数据修改自身的动作策略。强化学习与深度学习的区别：深度学习如图像识别和语音识别，解决的是感知的问题。强化学习解决的是决策的问题。马尔科夫决策过程（MDP）是一个

>>阅读原文<<