强化学习笔记

强化学习是关于序列决策的一种工具。 基础:监督学习和强化学习之间的区别在于,监督学习是提供指导性的反馈(loss)来解决问题,而强化学习是提供评估性反馈(该决策好不好,目标的达成程度)解决问题。 应用场景中:一个控制温度的系统,指导性反馈没卵用,那么基于不同场地、时间来告诉系统该如何温度?采用评估性反馈,我们可以获得特定时间特定地点在历史中的电量,温度,或者过热过冷的机器数等反馈数据 强化学习的前
相关文章
相关标签/搜索