强化学习(1):马尔科夫决策过程

强化学习(1):马尔科夫决策过程 强化学习的基本原理:智能体在完成某项任务时,首先通过动作A与周围环境进行交互,在动作A和环境的作用下,智能体会产生新的状态,同时环境会给出一个立即回报。如此循环下去,智能体与环境不断交互从而产生很多数据。强化学习算法利用产生的数据修改自身的动作策略,再与环境进行交互,产生新的数据。并利用新的数据进一步改善自身的行为,经过数次迭代学习后,智能体最终学到完成相应任务的
相关文章
相关标签/搜索