2017 Fall CS294 Lecture 7: Value Function Methods

回忆 Aπ(st,at) A π ( s t , a t ) 的含义,如果使用下述的 π′(at|st) π ′ ( a t | s t ) 来取代 at∼π(at|st) a t ∼ π ( a t | s t ) ,那么由于 π′ π ′ 是取了max的,那么至少不会比 π π 要差。那么算法的流程就如右小角的那个图一样,不断的用 π′ π ′ 来更新 π π ,然后用 π π 生成sampl
相关文章
相关标签/搜索