加强学习 | Q-Learning

“价值不是由一次成功决定的,而是在长期的进取中体现”web 上文【加强学习 | 多臂赌博机模型进阶】介绍了描述能力更强的多臂赌博机模型,即经过多台机器的方式对环境变量建模,选择动做策略时考虑时序累积奖赏的影响。虽然多臂赌博机模型中引入了价值的概念,但方法在建模过程当中本质上是以策略为优化目标,所以又常被归为基于策略的加强学习方法。网络 此外,加强学习方法还有基于价值以及基于模型两类主要方法。本文介
相关文章
相关标签/搜索