【/强化学习7日打卡营-世界冠军带你从零实践/课程摘要和调参心得-No.4】基于策略梯度求解RL

一、学习内容 4.基于策略梯度求解RL 4.1随机策略与策略梯度 先来复习一下之前讲的value-based和policy-based的RL方法: Policy-based的方法可直接输出动作的概率,比较适用于随机性策略 具体来说就是在网络里面使用常见的softmax函数 为了方便大家理解,这里举个Pong游戏的例子: 策略是一个episode完了才能评估的,目的是为了让总的Reward尽可能大:
相关文章
相关标签/搜索