《强化学习》基本概念和交叉熵方法

时间 2021-01-15

原文原文链接

基本概念监督学习与强化学习监督学习强化学习通过学习近似参考答案通过试验和错误来学习最优策略需要正确答案代理的动作需要反馈模型不影响输入数据代理可以影响自己的观察 MDP形式定义 RL的目标最大化累积奖赏的期望 CEM交叉熵方法算法步骤初始化策略重复抽样N个sessions 选取elite sessions:选择前M个最好的session(奖励最大的) 更新策略使得eli