强化学习-马尔科夫及Q-learning及python代码实现

马尔科夫决策过程 马尔科夫决策过程由5个元素构成:python S:表示状态集(states) A:表示一组动做(actions) P:表示状态转移几率.a表示在当前sES状态下,通过aEA做用后,会转移到的其余状态的几率分布状况 R:奖励函数(reward function)表示agent采起某个动做后的即时奖励46.2 y:折扣系数意味着当下的reward比将来反馈的reward更重要 1.智
相关文章
相关标签/搜索