强化学习中无处不在的贝尔曼最优性方程，背后的数学原理知多少？

时间 2021-01-06

原文原文链接

在星际争霸（AlphaStar）和围棋（AlphaGO）游戏中，强化学习已取得了举世瞩目的成功。而这些成功背后的核心则是用于求解马尔可夫决策过程（MDP）的贝尔曼最优性方程（Bellman Optimality Equation）。可以说，贝尔曼方程在强化学习（RL）中无处不在，了解此方程的数学基础对于理解 RL 算法的工作原理必不可少。它是由美国应用数学家理查德·贝尔曼（Richard Bel

>>阅读原文<<