【强化学习公式理解】

时间 2021-01-20

标签强化学习 #David Silver 繁體版

原文原文链接

看了视频后，发现对RL的理解浮于表面，很多问题想不明白，所以停下来整理下公式，加深对理论的理解程度再继续推进。第三章 Return 在一次实验中，时间步t之后的奖励记做 Rt+1, Rt+2, Rt+3, . . ., 片段奖励Gt:= Rt+1+ Rt+2+ Rt+3+· · ·+ RT, 式子(3.1)：这个地方最后一个状态是否一定是终结状态呢？这个我现在也不知道，但是当面向具体的问题时，

>>阅读原文<<