JavaShuo
栏目
标签
off policy
off policy
全部
强化学习离轨策略:从失败中获得成功经验 - 以追女孩为例 | 采样率的数学意义
2021-05-23
Reinforcement Learning
人工智能
强化学习
off-policy
off policy
数学
职业生涯
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。