强化学习(Dyna-Q,Dyna2)

基于模型的强化学习(Model Based RL) Value Based --Policy Based --Model Based Value Based学习价值来指导策略,Policy Based直接学习策略以收获最大价值,还有将两者融合的AC。但是在学习价值或策略都十分困难的时候(如某千变万化的围棋),学习模型可能更好,即睁开眼睛看世界,尝试理解所处的环境,通过完成对环境的基本理解来指导强化
相关文章
相关标签/搜索