强化学习之马尔科夫决策过程 5

时间 2020-12-29

原文原文链接

马尔科夫决策过程在离散马尔科夫的基础上，引入奖励和动作。马尔科夫性表示t+1的状态只与t时刻有关。在马尔科夫决策过程中，agent已知一系列状态，动作和折扣率，但是一步的环境动态特性和rewards是不知道的。次图描述了马尔科夫决策过程。图中唯一个自动充电吸尘器，他有2个状态high电量和low电量，有3个动作wait，search，recharge。蓝色的数字代表采取该行动的概率，黄色代表收获