百度强化学习七日打卡营-学习笔记

时间 2020-12-29

标签强化学习繁體版

原文原文链接

百度强化学习七日打卡营-学习笔记 1、强化学习的作用强化学习区分于监督学习和无监督学习，强化学习问题本身无法给出确切的答案，因此无法像监督学习一样，直接给出答案。其求解方法需要不断的与环境交互，以求解答案。 2、强化学习算法（1）on-policy和off-policy策略对比（1.1）q-learning 是off-policy策略，更新参数和与环境交互的策略是使用的不同的策略。（1.2

>>阅读原文<<