深刻浅出强化学习(4)-IRL

what: 逆向强化学习的提出者Ng是这么想的:专家在完成某项任务时,其决策每每是最优的或接近最优的,那么能够这样假设,当全部的策略所产生的累积回报指望都不比专家策略所产生的累积回报指望大时,强化学习所对应的回报函数就是根据示例学到的回报函数。 定义为从专家示例中学到回报函数。 分类: 基于最大边际的逆向强化学习 基于最大熵的方法 具体讲解: 1) 在行为克隆中,人的示例轨迹被记录下来,下次执行时
相关文章
相关标签/搜索