强化学习中无处不在的贝尔曼最优性方程,背后的数学原理知多少?

在星际争霸(AlphaStar)和围棋(AlphaGO)游戏中,强化学习已取得了举世瞩目的成功。而这些成功背后的核心则是用于求解马尔可夫决策过程(MDP)的贝尔曼最优性方程(Bellman Optimality Equation)。 可以说,贝尔曼方程在强化学习(RL)中无处不在,了解此方程的数学基础对于理解 RL 算法的工作原理必不可少。它是由美国应用数学家理查德·贝尔曼(Richard Bel
相关文章
相关标签/搜索