【RL】1.概论与基础

因为个人原因,没能抽出时间将笔记电子化。计划过几日实现电子化。 课程内容 问题 强化学习的基本结构是什么? 答:agent与env交互,env生成state,agent观测state为observation,决定action。见课程内容的图1。 强化学习相对于监督学习为什么训练会更加困难?(强化学习的特征) 答:[^1] 强化学习处理的多是序列数据,其很难像监督学习的样本一样满足IID(独立同分布
相关文章
相关标签/搜索