12/5/2017 3:39:22 PMpython
Misra-Gries算法是频繁项挖掘中一个著名的算法。频繁项就是那些在数据流中出现频率最高的数据项。频繁项挖掘,这个看似简单的任务倒是不少复杂算法的基础,同时也有着普遍的应用。算法
对于频繁项挖掘而言,一个简单的想法是,为全部的数据项分配计数器,当一个数据项到达,咱们即增长相应计数器的值。但当数据流的规模较大时,出于内存的限制,咱们每每不可能为每一个数据项分配计数器。而Misra-Gries算法则是以一种清奇的思路解决了这个问题,实现了在内存受限的状况下,以较小的错误率统计数据流中的频繁项。数组
Misra-Gries算法在1982年由华威大学的Misra和Gries提出。spa
咱们首先对频繁项进行形式化的定义。code
给定一系列数据项,频繁项挖掘的目的只是简单地找到那些出现最频繁的数据项。一般咱们定义这个问题为找到那些出现频率超过具体阈值的数据项。orm
定义1. 给定一个数据流\(S\),它包含\(n\)个数据项\(t\_1,\cdots,t\_n\),那么一个数据项\(i\)的频数为\(f\_i=|\\{j|t\_j=i\\}|\)。而集合\(\\{i|f\_i>\phi n\\}\)中的元素,咱们称为\(\phi-\)频繁项。blog
例子. 对于数据流\(S=(a,b,a,c,c,a,b,d)\),有\(f\_a=3,f\_b=2,f\_c=2,f\_d=1\)。若是设\(\phi=0.2\),那么频繁项有\(a,b\)和\(c\)。内存
即便\(\phi\)的值很大,解决这个问题的算法也至少要花费\(O(n)\)的空间。在这种状况下,一个错误率为\(\epsilon\)的近似算法被提出。这就是咱们的Misra-Gries算法。它的具体步骤以下:get
首先创建一个大小为\(k\)的数组\(T\)。it
对于数据流中依次到达的项\(i\)进行以下处理:若是项\(i\)在数组\(T\)中,则其对应的计数器\(c_i++\);若是项\(i\)不在数组\(T\)中,且数组\(T\)中的元素个数小于\(k-1\),则将项\(i\)加入数组\(T\),并为其分配计数器\(c_i=1\);其余状况,将数组\(T\)中全部元素的计数器减1,此时若是数组\(T\)中存在元素的计数器值为0,则从数组\(T\)移除这个元素。
当完成对数据流的扫描后,数据\(T\)中保存的\(k’(k’≤k-1)\)个元素便是数据流中的频繁项。
下面使用python3进行实现,其中数组\(T\)和计数器\(c_i\)使用字典实现。
def misra_gries(S,k): for i in S: if i in c: c[i]+=1 elif len(c)<k-1: c[i]=1 else: for j in list(c): c[j]-=1 if c[j]==0: c.pop(j) print (c) return list(c)
假设\(k=3,S=[1,2,1,4,2,1,5,2]\),那么程序的输出结果以下
{1: 1} {1: 1, 2: 1} {1: 2, 2: 1} {1: 1} {1: 1, 2: 1} {1: 2, 2: 1} {1: 1} {1: 1, 2: 1} [1, 2] [Finished in 0.2s]
上面说到了这个算法是一个近似算法,这代表算法输出的结果并不必定是频繁项。Misra-Gries算法的错误率为\(\epsilon\)。
定义2. 给定一个包含\(n\)个数据项的数据流\(S\),上述的\(\epsilon-\)近似算法返回一个集合\(F\)。对于全部知足\(i\in F\)数据项\(i\),都有\(f\_i>(\phi-\epsilon)n\);而且不存在\(i \notin F\)的数据项\(i\),使得\(f\_i>\phi n\)。
上面的定义代表,Misra-Gries算法输出的数据项并不必定是频繁项,可是频繁项必定在输出结果之中。后一句即是问题的关键了,它代表Misra-Gries算法能够确保找到数据流中的频繁项。下面咱们对这一点进行简要的证实。
定理1. 计数器减一的操做最多执行了\(n/k\)轮。
证实:当数组\(T\)中元素的个数等于\(k-1\)时,才会出现计数器减一的操做。此时,计数器值共减小\(k-1\),包括被舍弃的新数据项,计数器值之和共比实际到达的数据项的个数少\(k\)。因为最后的计数器值之和是大于\(0\)的,且数据流中数据项的个数为\(n\),因此计数器减一的操做最多执行了\(n/k\)轮。
定理2. 当\(k=\left\lceil\frac{1}{\phi}\right\rceil\),全部的\(\phi-\)频繁项都会被Misra-Gries算法检测出。
证实:由定理1可知,计数器减一的操做最多执行了\(n/k\)轮。所以,算法结束时,数据项\(i\)计数器的值\(c_i\),知足\(c_i\leq f_i\leq c_i+n/k\)。对于全部不在数组\(T\)中的数据项\(i\),有\(c_i=0\),因而\(f_i\leq n/k\leq \phi n\)。故全部知足\(f_j>\phi n\)的数据项\(j\),即全部的\(\phi-\)频繁项都会被Misra-Gries算法检测出。
[1] Cormode G. Misra-Gries Summaries[M]. Springer US, 2014.
http://dimacs.rutgers.edu/~graham/pubs/papers/encalgs-mg.pdf。