强化学习——On-policy

目录 三个基本概念——哪些是可变的 Actor的决策——神经网络分类器 一次game——trajectory发生的概率 trajectory的reward和reward的期望 action的梯度 n次游戏,每次游戏t次行为,所有行为发生的概率乘以它的效果。 参数更新 n次游戏的收集结果只用一次,之后使用更新后的action 实现的时候类似于一个分类器 让reward细化到每个action 的两个简
相关文章
相关标签/搜索