强化学习——On-policy

时间 2021-01-13

原文原文链接

目录三个基本概念——哪些是可变的 Actor的决策——神经网络分类器一次game——trajectory发生的概率 trajectory的reward和reward的期望 action的梯度 n次游戏，每次游戏t次行为，所有行为发生的概率乘以它的效果。参数更新 n次游戏的收集结果只用一次，之后使用更新后的action 实现的时候类似于一个分类器让reward细化到每个action 的两个简