区分Model-free和Model-based方法

强化学习方法分为Model-free和Model-based方法,那么这两种方法的区别在哪:算法 首先咱们定义强化学习中的马尔可夫决策过程MDP,用四元组表示<S,A,R,T><S,A,R,T>:函数 SS:环境的状态空间 AA:agent可选择的动做空间 R(s,a)R(s,a):奖励函数,返回的值表示在ss状态下执行aa动做的奖励 T(s′|s,a)T(s′|s,a): 状态转移几率函数,表示
相关文章
相关标签/搜索