RL算法介绍及比较

主要介绍的算法有:Q Learning、Sarsa、Sarsa(lamda)、TD、Policy Gradient、AC、A3C、DQN、DoubleDQN、DuelingDQN、DDPG、MCTS、UCT (1)Q Learning:建立Q值表,根据当前state预测Q值,用查表的方式选择action。是value-based方法。 (2)Sarsa:与QL不同的是先根据当前state选acti
相关文章
相关标签/搜索