斯坦福吴恩达《机器学习》--增强学习

时间 2020-12-23

标签机器学习增强学习吴恩达斯坦福繁體版

原文原文链接

增强学习和控制在监督学习中，算法试图模仿训练机的labels y,训练集中的每一个输入x都有一个确定的对应的y，但是对于很多需要连续作决定的问题和控制问题，给算法提供一个明确的标签是很难的。例如我们有一个四足机器人，并且试图让他行走，开始的时候我们并不知道采取怎样的操作使他行走，也不知道怎么给算法提供一个标签来模仿。在增强学习中，我们会给算法提供一个奖励函数来反应做的好还是不好。例如对

>>阅读原文<<