强化学习算法伪代码

基础公式 来源 累计回报: 在t时刻状态下选择行为所获得累计回报,其中每个R都是个随机变量。 状态价值函数: 状态s下的累计回报是多维随机变量,服从pi分布,因此使用期望累计回报表示该状态的价值。 其贝尔曼方程为: 状态-行为价值函数: 状态行为价值函数相比状态价值函数其区别在于行为已经选定。 其贝尔曼方程为: 状态价值与状态-行为价值联系: 状态-行为价值只是状态价值确定一个行为后的分支。 状态
相关文章
相关标签/搜索