斯坦福吴恩达《机器学习》--增强学习

增强学习和控制   在监督学习中,算法试图模仿训练机的labels y,训练集中的每一个输入x都有一个确定的对应的y,但是对于很多需要连续作决定的问题和控制问题,给算法提供一个明确的标签是很难的。例如我们有一个四足机器人,并且试图让他行走,开始的时候我们并不知道采取怎样的操作使他行走,也不知道怎么给算法提供一个标签来模仿。   在增强学习中,我们会给算法提供一个奖励函数来反应做的好还是不好。例如对
相关文章
相关标签/搜索