【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

时间 2021-01-10

标签深度学习强化学习算法繁體版

原文原文链接

一、学习内容 4.基于策略梯度求解RL 4.1随机策略与策略梯度先来复习一下之前讲的value-based和policy-based的RL方法： Policy-based的方法可直接输出动作的概率，比较适用于随机性策略具体来说就是在网络里面使用常见的softmax函数为了方便大家理解，这里举个Pong游戏的例子：策略是一个episode完了才能评估的，目的是为了让总的Reward尽可能大：

>>阅读原文<<