Reinforcement Learning - An Introduction强化学习读书笔记 Ch3.4-Ch3.8

3.4 分幕式和持续性任务的统一表示法 强化学习可以分成分幕式任务(交互可以被分解成单独的幕序列),和持续性任务。 分幕式任务在数学上更容易表示,因为在每一幕中,每个动作只影响到之后收到的有限个的收益。 为了简化表示,在分幕式任务中不区分幕,且用统一的表示方法来表示分幕式和持续性两种学习方法的收益函数: 在分幕式任务中收益定义为有限项的总和,在持续性任务中收益定义为无限项的总和,而在分幕式任务中,
相关文章
相关标签/搜索