《深入浅出强化学习》读书笔记

《强化学习》 基于动态规划的强化学习 强化学习的目标是找到最优策略使得该策略下的累计回报期望最大。所谓策略指状态到动作的映射π。 最常用的概率分布也就是最常用的随机策略。如贪婪策略、ε-greedy策略、高斯策略、玻尔兹曼策略等。 最优策略的目标是找到一个决策序列u0→u1→u2→…→uT,广义上强化学习可以归结为序贯决策问题,即找到一个决策序列,使得目标函数最优。 问题一:给定一个策略π,如何计
相关文章
相关标签/搜索