强化学习(reinforcement learning)原理

时间 2019-12-06

标签强化学习 reinforcement learning 原理繁體版

原文原文链接

一、简介强化学习的任务对应一个四元组： web E=<X,A,P,R> E =< X , A , P , R > X：当前状态 A：可采起的动做整体集合 P：各个转移状态的几率值 R：奖赏函数总体的过程是，对于当前状态X，从动做集合A中选择一个动做，做用在X上，使得X按照几率转移函数P转移到另一种状态，而后环境根据奖赏函数R对动做进行反馈。强化学习在某种意义上可看做具备延迟标记信息的监督学习

>>阅读原文<<