强化学习-马尔科夫及Q-learning及python代码实现

时间 2021-01-01

原文原文链接

马尔科夫决策过程马尔科夫决策过程由5个元素构成： S：表示状态集（states） A：表示一组动作（actions） P：表示状态转移概率.a表示在当前sES状态下，经过aEA作用后，会转移到的其他状态的概率分布情况 R：奖励函数（reward function）表示agent采取某个动作后的即时奖励46.2 y：折扣系数意味着当下的reward比未来反馈的reward更重要 1.智能体初始状态