强化学习算法

时间 2020-12-30

原文原文链接

1.关于强化学习算法的比较深度强化学习进展: 从Alpha Go到Alpha Go Zero 深度强化学习进展_从AlphaGo到AlphaGo_Zero_唐振韬.caj 1.1离散与连续 1.1.1离散和连续是针对问题的，不是针对算法的。连续有可能是温度，距离等。行动必须随着状态的变化而平滑变化，不能出现跳跃的情形。 1.1.2连续怎么解决离散化：连续空间分解为有限的离散空间，通过表格形式