强化学习的历史和学习博客网址

强化学习推荐学习网站:莫凡博客https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/   1.强化学习的历史发展 1956年Bellman提出了动态规划方法。 1977年Werbos提出只适应动态规划算法。 1988年sutton提出时间差分算法。 1992年Watkins 提出Q-learni
相关文章
相关标签/搜索