《深入浅出强化学习》读书笔记

时间 2020-12-25

原文原文链接

《强化学习》基于动态规划的强化学习强化学习的目标是找到最优策略使得该策略下的累计回报期望最大。所谓策略指状态到动作的映射π。最常用的概率分布也就是最常用的随机策略。如贪婪策略、ε-greedy策略、高斯策略、玻尔兹曼策略等。最优策略的目标是找到一个决策序列u0→u1→u2→…→uT，广义上强化学习可以归结为序贯决策问题，即找到一个决策序列，使得目标函数最优。问题一：给定一个策略π，如何计

>>阅读原文<<