Reinforcement Learning, Fast and Slow

Reinforcement Learning, Fast and Slow 摘要: 深度强化学习已经取得很大成就,但是最大的缺陷在于样本数据的有效性低。主要有两种方法来解决这个问题: Episode Deep RL Meta RL 深度强化学习样本数据的有效性低的原因 梯度下降。需要对参数进行迭代更新直到收敛。学习率不能太大否则无法收敛,学习率太小则收敛速度慢。 弱偏置假设。机器学习模型都是要设定
相关文章
相关标签/搜索