强化学习之探索与利用(二)

常用的探索方法 衰减的 ϵ \epsilon ϵ-贪婪探索 不确定行为优先探索 乐观初始估计 可信区间上限 概率匹配 基于信息价值的探索 衰减的 ϵ \epsilon ϵ-贪婪探索 衰减的 ϵ \epsilon ϵ-贪婪探索是在 ϵ \epsilon ϵ-贪婪探索上的改进,其核心思想是随着时间的推移,采用随机行为的概率 ϵ \epsilon ϵ越来越小。理论上随时间改变的 ϵ \epsilon ϵ
相关文章
相关标签/搜索