加强学习 | Q-Learning

时间 2020-01-13

标签加强学习 learning 繁體版

原文原文链接

“价值不是由一次成功决定的，而是在长期的进取中体现”web 上文【加强学习 | 多臂赌博机模型进阶】介绍了描述能力更强的多臂赌博机模型，即经过多台机器的方式对环境变量建模，选择动做策略时考虑时序累积奖赏的影响。虽然多臂赌博机模型中引入了价值的概念，但方法在建模过程当中本质上是以策略为优化目标，所以又常被归为基于策略的加强学习方法。网络此外，加强学习方法还有基于价值以及基于模型两类主要方法。本文介

>>阅读原文<<