强化学习之策略policy 6

时间 2021-01-07

原文原文链接

在决定性策咯中，从一组环境状态到一组潜在动作的映射（把映射这个数学概念想象成加工厂），输入的是状态而输出的是动作，如果agent想要遵循策略，只需要构建工厂或者指定映射。在随机性策略中，映射接收环境状态s和动作a，返回智能体在状态s下采取动作A的可能性。在上一次的吸尘器的马尔科夫图中可以表示为