强化学习7日打卡营-Policy Gradient/DDPG

基于策略梯度方法求解RL value-based vs policy-based Value-based 是基于价值的,属于一种确定性策略 在计算时优化Q的值然后把Q网络调到最优以后用间接方式输出action,属于确定性的策略。 policy-based 是基于策略的,属于一种随机策略 policy-based使用神经网络拟合直接输出动作1概率,适用于随机性比较大的环境。 Softmax函数 把多
相关文章
相关标签/搜索