Trust Region Policy Optimization 论文阅读与理解

本文主要讨论两个目标:1. 如何让目标函数(total reward)在policy更新时是持续递增的。2. 如何让policy在更新后的“行为”与更新前相似,而不是“参数”相近,因为参数相近的两个模型行为上可能有很大差别。第二个目标也是为了保证更新时的稳定性,因为参数上的“一小步”走错了可能导致整个模型崩溃。为此需要在行为上在与旧的policy行为有一定相似程度的情况下进行更新。这个一定的相似程
相关文章
相关标签/搜索