强化学习简单示例——SARSA算法

【注】我也是刚刚接触强化学习的内容,对这部分理解不是很透彻,代码写的可能也会有不对或不完善的地方,还请各位批评指正。这个问题是个做业,这是我本身编的代码,老师提供的答案出来后再更。ios 【问题描述】 图中S为起点,G为终点,每次能前、后、左、右、左前、左后、右前、右后移动。当到达第4-9列的某一列时,会在某一状态的基础上向上被吹一格。如某一时刻到达了第4行第4列,则会被吹到第3行第4列。在第4行
相关文章
相关标签/搜索