用于分层强化学习的随机神经网络

论文链接:https://openreview.net/pdf?id=B1oK8aoxe 1. 引言 近期,深度强化学习取得了许多令人印象深刻的结果,但这些深度强化学习算法一般都是采用单纯探索策略,如 ε-贪婪算法或统一的高斯探索噪声,这些方法在奖励稀疏的任务中表现不佳。要想解决这些问题,可采用两种策略: 1. 设计动作的层次结构,这需要专业知识以及细致的手动工程。 2. 使用与领域无关的内在奖励
相关文章
相关标签/搜索