马尔可夫决策

1、离散状态的马尔科夫决策

1. 奖励因子r

在马尔科夫决策中,有个奖励因子r,在计算总指望价值的时候,奖励因子r的次方数会逐步增长。对于这个的解释能够理解为:今天的一元钱在明天通常都会贬值。因此当某个状态s较晚到达时,要控制奖励因子使得得到的价值减小。算法

2. Bellman方程

\[ V^{\pi} = R(s) + \gamma \sum_{s^{'}\epsilon S } P_{s\pi(s)}(s^{'})V^\pi (s^{'}) \]函数

假设有n个状态,则能够列出n个Bellman方程,且共含有n个未知量,那么就能够经过解这个线性方程组获得每一个状态下对应的价值函数的值;学习

3. 值迭代

4. 政策迭代

5. 对比

假如状态有n个,政策迭代在计算时,须要计算含有n个方程和n个变量的方程组,当n≤1000时,政策迭代比较适用,当n>1000时,值迭代效率会更高。spa

由于在政策迭代中,须要求解Bellman方程,当状态数变多时,就须要求解同等数量的方程,这是一个至关大的计算负荷,所以此时使用值迭代会更好。blog

6. 转移几率和奖励因子的获取

在实际状况中,对于MDP的五元组,转移几率经常是未知的。咱们能够经过统计在每一个状态下打到某个状态的转移次数来获得近似的转移几率。此外,有时状态s1没法转移到状态s2,为了不出现0除的状况,能够用 1 / |S|替代其几率。class

if R is unknown, we can also pick our estimate of the expected immediate reward R(s) in state s to be the average reward observed in state s.效率

7. MDP求解全过程

2、连续状态的马尔可夫决策

对于连续型的状态,能够设定必定量的区间,使其离散化,将连续型的MDP变成离散型的MDP来解决。可是离散化一般而言表现都不是很好,数据分布的多样性被消除了,所以就没法学习到更深层次的数据的潜在信息。离散化还可能致使出现维数灾难。变量

一、拟合值迭代算法

二、近似政策迭代算法

相关文章
相关标签/搜索