AI学习笔记——基于策略的强化学习

时间 2019-12-06

标签学习笔记基于策略强化繁體版

原文原文链接

1. 基于价值的强化学习回顾前几篇文章都是在讲经过训练值函数的近似函数，而后经过好比Ɛ-greedy探索方法得到最佳策略，这种方法叫作基于价值的强化学习。然而基于价值的强化学习有没法收敛，没法得到随机策略，以及可能遇到状态重名的问题。算法没法收敛的问题在上篇文章的“3.收敛性”中提到了，就不赘述。关于随机策略，能够举一个“石头剪子布”这样简单的例子。最好的策略就是随机出招，然而基于价值的强化学

>>阅读原文<<