UCB公式的理解

时间 2021-01-02

标签强化学习 UCB 繁體版

原文原文链接

UCB公式的理解在解决探索与利用平衡问题时，UCB1 策略是一个很有效的方法，而探索与利用平衡问题中最经典的一个问题就是多臂赌博机问题（Multi-Armed Bandit）。图来自[1] 问题假设：按下摇臂后的回报取值为 1 或 0，每个摇臂获得回报的概率服从不同的分布，但事先并不知道问题目标：按照某种策略来按压摇臂以获得最大的累计回报（咦，这不就是强化学习的目标嘛）在这个问题中，探索与

>>阅读原文<<

1. UCB公式的理解
2. sparseTM的公式理解
3. UCB算法
4. 多项式分布的理解几率公式的理解
5. 贝叶斯公式理解
6. KinectFusion公式推导、理解
7. AUC公式原理详解
8. LSTM公式及理解
9. UCB CS162: Get sarted, create a docker container for UCB CS162 online course
10. 全概公式和贝叶斯公式的理解
更多相关文章...
• ARP报文格式详解 - TCP/IP教程
• UDP报文格式详解 - TCP/IP教程
• 常用的分布式事务解决方案
• Docker 清理命令