强化学习之马尔科夫决策过程 5

马尔科夫决策过程在离散马尔科夫的基础上,引入奖励和动作。马尔科夫性表示t+1的状态只与t时刻有关。在马尔科夫决策过程中,agent已知一系列状态,动作和折扣率,但是一步的环境动态特性和rewards是不知道的。 次图描述了马尔科夫决策过程。图中唯一个自动充电吸尘器,他有2个状态high电量和low电量,有3个动作wait,search,recharge。蓝色的数字代表采取该行动的概率,黄色代表收获
相关文章
相关标签/搜索