用于分层强化学习的随机神经网络

时间 2020-12-24

原文原文链接

论文链接：https://openreview.net/pdf?id=B1oK8aoxe 1. 引言近期，深度强化学习取得了许多令人印象深刻的结果，但这些深度强化学习算法一般都是采用单纯探索策略，如 ε-贪婪算法或统一的高斯探索噪声，这些方法在奖励稀疏的任务中表现不佳。要想解决这些问题，可采用两种策略： 1. 设计动作的层次结构，这需要专业知识以及细致的手动工程。 2. 使用与领域无关的内在奖励