强化学习(reinforcement learning)原理

一、简介 强化学习的任务对应一个四元组: web E=<X,A,P,R> E =< X , A , P , R > X:当前状态 A:可采起的动做整体集合 P:各个转移状态的几率值 R:奖赏函数 总体的过程是,对于当前状态X,从动做集合A中选择一个动做,做用在X上,使得X按照几率转移函数P转移到另一种状态,而后环境根据奖赏函数R对动做进行反馈。 强化学习在某种意义上可看做具备延迟标记信息的监督学习
相关文章
相关标签/搜索