强化学习（1）：马尔科夫决策过程

时间 2020-12-29

原文原文链接

强化学习（1）：马尔科夫决策过程强化学习的基本原理：智能体在完成某项任务时，首先通过动作A与周围环境进行交互，在动作A和环境的作用下，智能体会产生新的状态，同时环境会给出一个立即回报。如此循环下去，智能体与环境不断交互从而产生很多数据。强化学习算法利用产生的数据修改自身的动作策略，再与环境进行交互，产生新的数据。并利用新的数据进一步改善自身的行为，经过数次迭代学习后，智能体最终学到完成相应任务的

>>阅读原文<<