强化学习-马尔科夫及Q-learning及python代码实现

时间 2020-05-23

标签强化学习 learning python 代码实现栏目 Python 繁體版

原文原文链接

马尔科夫决策过程马尔科夫决策过程由5个元素构成：python S：表示状态集（states） A：表示一组动做（actions） P：表示状态转移几率.a表示在当前sES状态下，通过aEA做用后，会转移到的其余状态的几率分布状况 R：奖励函数（reward function）表示agent采起某个动做后的即时奖励46.2 y：折扣系数意味着当下的reward比将来反馈的reward更重要 1.智

>>阅读原文<<