本文继续讲一个强化学习的算法,叫作Thompson抽样算法。这个算法的数学理论基础要用到的是贝叶斯推断(Bayesian Inference)。咱们先谈谈这个算法的基本原理。python
咱们依然使用以前的多臂老虎机的问题。如图所示,横轴表明奖励,越往右边表示奖励越多。三条竖线表明三个不一样的老虎机它们的平均奖励。算法
在算法开始前,咱们是什么都不知道的,所以须要获得一些基础数据。图中有四个蓝色的数据,表示按下蓝色老虎机获得的奖励,根据这几个获得的奖励,能够获得一个数学分布。一样绿色的老虎机也能获得一个分布,黄色同理。app
这三个分布预测的是这三个机器给咱们带来奖励实际上可能的数学指望的几率分布。接下来基于这三个随机分布,咱们获得几个随机抽样,选择得到最大抽样值的机器按下去。但因为是随机的,虽然黄色的实际指望是最高的,但咱们依然可能会选出一个绿色大于黄色数据结果。dom
按下去后咱们会获得一个新的观察到的奖励值,获得新的奖励值后就要调整绿色机器的分布。函数
显然这个绿色的分布变得更高更窄了,后面的步骤和这里实际上是同样的,也是依然选择奖励值最高的机器按下去,经过获得的结果继续调整分布。学习
当这个游戏进行到不少步骤以后,这些分布都会变得很是窄,尤为是黄色的基本会和实际指望吻合.spa
这时因为咱们一直选择奖励值最高的机器,所以按下黄色的几率会比较高,致使黄色的会愈来愈窄,而蓝色的不多玩到,所以相对要宽一点。code
咱们使用Thompson抽样算法和ucb算法都处理了多臂老虎机问题,那么如今来比较下两个算法。来看看这两个算法的基本原理图。游戏
首先这个UCB算法,它是一个肯定性算法,当咱们获得相同的奖励时,咱们做出的决策时肯定,所以咱们每一轮的总收益和总收益都是肯定的。每一轮中做出的决策只和置信区间的上界有关,而这个上界只和这个机器全部的观察值有关。因此说当全部机器的观察值相同时,咱们永远会作相同的决策。对于Thompson算法,它是个随机性算法,它的某一步或者某几步是在一个随机函数控制下,跟运气是有关系的。它依赖于一些随机事件,就像咱们上面选择点的时候,虽然黄色的实际指望大于绿色,但咱们仍是可能会选出绿色大于黄色的数据点。所以说它是个随机性的算法。事件
那么对于UCB,它还有个特色,就是须要实时更新上界,这个在以前的文章描述UCB算法原理的时候能够看出来。对于Thompson抽样算法,它是容许延迟更新甚至批量更新的,好比咱们往网上投放一批广告,这里是容许它获得的结果是有延迟的。最后一点,在近些年的实际应用和研究中发现,Thompson抽样算法相对于置信区间算法,它是有更好的实际应用效果的。
首先看看Thompson抽样算法的计算逻辑:
代码这里就直接贴出来了:
import matplotlib.pyplot as plt import pandas as pd import random # import the dataset dataset = pd.read_csv('Ads_CTR_Optimisation.csv') # Implementing Thompson Sampling N = 10000 d = 10 ads_selected = [] numbers_of_rewards_1 = [0] * d numbers_of_rewards_0 = [0] * d total_reward = 0 for n in range(0, N): ad = 0 max_random = 0 for i in range(0, d): random_beta = random.betavariate(numbers_of_rewards_1[i] + 1, numbers_of_rewards_0[i] + 1) if random_beta > max_random: max_random = random_beta ad = i ads_selected.append(ad) reward = dataset.values[n, ad] if reward == 1: numbers_of_rewards_1[ad] = numbers_of_rewards_1[ad] + 1 else: numbers_of_rewards_0[ad] = numbers_of_rewards_0[ad] + 1 total_reward = total_reward + reward # Visualising the results plt.hist(ads_selected) plt.title('Histogram of ads selections') plt.xlabel('Ads') plt.ylabel('Number of times each ad was selected') plt.show()
最终获得总奖励数相对于以前的置信区间算法要高不少,并且获得的图像很明显能看到最佳的广告是ad5,所以Thompson抽样算法的实际效果的确要优于置信区间算法。
以上,就是强化学习中的Thompson抽样算法的基础知识。