RL学习笔记

RL model-free model-based Q-learning Q-learning Sarsa Sarsa Policy Gradients Policy Gradients **model-based 多建了一个学习到的虚拟环境,通过想象判断不同动作的结果。**eg.AlphaGo policy-based value-based 输出下一步采取各种行动的概率(每种动作都有可能被选中
相关文章
相关标签/搜索