【强化学习公式理解】

看了视频后,发现对RL的理解浮于表面,很多问题想不明白,所以停下来整理下公式,加深对理论的理解程度再继续推进。 第三章 Return 在一次实验中,时间步t之后的奖励记做 Rt+1, Rt+2, Rt+3, . . ., 片段奖励Gt:= Rt+1+ Rt+2+ Rt+3+· · ·+ RT, 式子(3.1): 这个地方最后一个状态是否一定是终结状态呢?这个我现在也不知道,但是当面向具体的问题时,
相关文章
相关标签/搜索