Deterministic Policy Gradient (DPG) 的读后感和几个问题

1. Policy Gradient (PG)方法的优点:  相对于一般的 Value Based 方法(如估计Q(s,a)值), PG更加适合运用在连续的或者较大的Action Space(实际的机器人控制等等),因为随着 Action Space的增大,Q(s,a)的规模也会相对增大,对具体的实现造成很大的困难(如DQN的输出与Action的个数有关)。而对PG来说这种问题的影响就小多了。 2
相关文章
相关标签/搜索