强化学习之策略policy 6

在决定性策咯中,从一组环境状态到一组潜在动作的映射(把映射这个数学概念想象成加工厂),输入的是状态而输出的是动作,如果agent想要遵循策略,只需要构建工厂或者指定映射。 在随机性策略中,映射接收环境状态s和动作a,返回智能体在状态s下采取动作A的可能性。 在上一次的吸尘器的马尔科夫图中可以表示为
相关文章
相关标签/搜索