咱们平时比较多会遇到的一种情景是从一堆的数据中随机选择一个, 大多数咱们使用random
就够了, 可是假如咱们要选取的这堆数据分别有本身的权重, 也就是他们被选择的几率是不同的, 在这种状况下, 就须要使用加权随机
来处理这些数据python
下面是一种简单的方案, 传入权重的列表(weights
), 而后会返回随机结果的索引值(index), 好比咱们传入[2, 3, 5]
, 那么就会随机的返回0(几率0.2), 1(几率0.3), 2(几率0.5)算法
简单的思路就是把全部的权重加和, 而后随机一个数, 看看落在哪一个区间数组
import random def weighted_choice(weights): totals = [] running_total = 0 for w in weights: running_total += w totals.append(running_total) rnd = random.random() * running_total for i, total in enumerate(totals): if rnd < total: return i
上面这个方法看起来很是简单, 已经能够完成咱们所要的加权随机, 然是最后的这个for
循环貌似有些啰嗦, Python
有个内置方法bisect
能够帮咱们加速这一步app
import random import bisect def weighted_choice(weights): totals = [] running_total = 0 for w in weights: running_total += w totals.append(running_total) rnd = random.random() * running_total return bisect.bisect_right(totals, rnd)
bisect
方法能够帮咱们查找rnd
在totals
里面应该插入的位置, 两个方法看起来差很少, 可是第二个会更快一些, 取决于weights
这个数组的长度, 若是长度大于1000, 大约会快30%左右dom
其实在这个方法里面totals
这个数组并非必要的, 咱们调整下策略, 就能够判断出weights
中的位置spa
def weighted_choice(weights): rnd = random.random() * sum(weights) for i, w in enumerate(weights): rnd -= w if rnd < 0: return i
这个方法比第二种方法居然快了一倍, 固然, 从算法角度角度, 复杂度是同样的, 只不过咱们把赋值临时变量的功夫省下来了, 其实若是传进来的weights
是已经按照从大到小排序好的话, 速度会更快, 由于rnd递减的速度最快(先减去最大的数)code
若是咱们使用同一个权重数组weights
, 可是要屡次获得随机结果, 屡次的调用weighted_choice
方法, totals
变量仍是有必要的, 提早计算好它, 每次获取随机数的消耗会变得小不少排序
class WeightedRandomGenerator(object): def __init__(self, weights): self.totals = [] running_total = 0 for w in weights: running_total += w self.totals.append(running_total) def next(self): rnd = random.random() * self.totals[-1] return bisect.bisect_right(self.totals, rnd) def __call__(self): return self.next()
在调用次数超过1000次的时候, WeightedRandomGenerator
的速度是weighted_choice
的100倍索引
因此咱们在对同一组权重列表进行屡次计算的时候选择方法4, 若是少于100次, 则使用方法3it
在python3.2
以后, 提供了一个itertools.accumulate
方法, 能够快速的给weights
求累积和
>>>> from itertools import accumulate >>>> data = [2, 3, 5, 10] >>>> list(accumulate(data)) [2, 5, 10, 20]