Trust Region Policy Optimization 论文阅读与理解

时间 2021-01-12

原文原文链接

本文主要讨论两个目标：1. 如何让目标函数（total reward）在policy更新时是持续递增的。2. 如何让policy在更新后的“行为”与更新前相似，而不是“参数”相近，因为参数相近的两个模型行为上可能有很大差别。第二个目标也是为了保证更新时的稳定性，因为参数上的“一小步”走错了可能导致整个模型崩溃。为此需要在行为上在与旧的policy行为有一定相似程度的情况下进行更新。这个一定的相似程

>>阅读原文<<