斯坦福吴恩达《机器学习》--Fitted value iteration

时间 2021-01-16

标签增强学习吴恩达斯坦福繁體版

原文原文链接

Fitted value iteration是为了近似连续状态的MDP的价值函数。适用于n维连续状态空间和离散动作空间的MDP。其核心思想是通过机器学习算法将价值函数近似为状态的线性或非线性函数。算法流程如下图所示： 1.随机的在状态空间中选取m个采样； 2.将参数设定为0； 3.对于采样中的每一个状态，计算最佳动作y，通过监督学习将V(s)学习为状态s的函数，重复直至

>>阅读原文<<