从SARSA算法到Q-learning with ϵ-greedy Exploration算法

这篇博文是Model-Free Control的一部分,事实上SARSA和Q-learning with ϵ-greedy Exploration都是不依赖模型的控制的一部分,如果你想要全面的了解它们,建议阅读原文。 SARSA Algorithm SARSA代表state,action,reward,next state,action taken in next state,算法在每次采样到该五
相关文章
相关标签/搜索