强化学习7日打卡营-Policy Gradient/DDPG

时间 2020-12-28

原文原文链接

基于策略梯度方法求解RL value-based vs policy-based Value-based 是基于价值的，属于一种确定性策略在计算时优化Q的值然后把Q网络调到最优以后用间接方式输出action，属于确定性的策略。 policy-based 是基于策略的，属于一种随机策略 policy-based使用神经网络拟合直接输出动作1概率，适用于随机性比较大的环境。 Softmax函数把多