强化学习-马尔科夫及Q-learning及python代码实现

马尔科夫决策过程 马尔科夫决策过程由5个元素构成: S:表示状态集(states) A:表示一组动作(actions) P:表示状态转移概率.a表示在当前sES状态下,经过aEA作用后,会转移到的其他状态的概率分布情况 R:奖励函数(reward function)表示agent采取某个动作后的即时奖励46.2 y:折扣系数意味着当下的reward比未来反馈的reward更重要 1.智能体初始状态
相关文章
相关标签/搜索