Playing atari with deep reinforcement learning

Introduction 传统RL手动提取选择特征,DL(CNN)可以根据raw sensory的数据抽象出一些high-level特征,DRL的困难: DL训练使用大量的labeled数据,而RL数据量小,且reward和action之间的delay DL样本间独立,RL样本间相关 RL样本的分布随着学习改变,DL中设定的固定的分布 本文针对2,3困难的方法: experience replay
相关文章
相关标签/搜索