强化学习离轨策略：从失败中获得成功经验 - 以追女孩为例 | 采样率的数学意义

时间 2021-05-23

标签 Reinforcement Learning 人工智能强化学习 off-policy off policy 数学栏目职业生涯繁體版

原文原文链接

简介：我一个朋友小拍，姐妹众多，稳如老狗。姐妹们常疑惑：小拍同学会吃会玩会聊天，上知美妆，下知韩综，中晓穿搭，做事靠谱，为人颇有原则，竟然没追成过一个女孩？要我说，这其实没什么可大惊小怪的，我刚认识小拍那阵子，他还是个钢铁小直男呢。用强化学习的角度看，小拍在这几年做了很好的离轨策略（off-policy）学习，即从自己和别人“追女生”这个过程中学习经验，无论结果成败，都能有效地学到东西。本

>>阅读原文<<