强化学习(Q-Learning,Sarsa)

Reinforcement Learning 监督学习–>非监督学习–>强化学习。html 监督学习:拥有“标签”可监督算法不断调整模型,获得输入与输出的映射函数。 非监督学习:无“标签”,经过分析数据自己进行建模,发掘底层信息和隐藏结构。 在线学习:接受新数据,更新参数。web 可是1.标签须要花大量的代价进行收集,在有些状况如子任务的组合数特别巨大寻找监督项是不切实际的。2.如何更好的理解数据
相关文章
相关标签/搜索