《强化学习》 基本概念和交叉熵方法

基本概念 监督学习与强化学习 监督学习 强化学习 通过学习近似参考答案 通过试验和错误来学习最优策略 需要正确答案 代理的动作需要反馈 模型不影响输入数据 代理可以影响自己的观察 MDP形式定义 RL的目标 最大化累积奖赏的期望 CEM交叉熵方法 算法步骤 初始化策略 重复 抽样N个sessions 选取elite sessions:选择前M个最好的session(奖励最大的) 更新策略使得eli
相关文章
相关标签/搜索