强化学习算法的总结

强化学习算法依据马尔科夫的决策过程主要分为两大类,分别是基于模型的强化学习算法(动态规划法等)和无模型的强化学习算法(蒙特卡洛算法等)。这些强化学习算法的核心思想是学习者通过自身的不断学习最终使得整个学习过程中获得的奖惩值达到最大(既通过行为选择,最终获得最优策略)。 行为选择的方主要有两种方法: (1)贪婪算法:即通过选择某一行为使得获得的行为值函数达到做大,如果最大的值不唯一,则从中进行随机选
相关文章
相关标签/搜索