这是一个彻底没有意义的数据挖掘

时间 2019-11-21

标签这是一个彻底没有意义数据挖掘繁體版

原文原文链接

综述：

本文主要介绍数据挖掘算法中apriori的实现，其中导入的是从中国天气网中获得的天气数据。下面从得到天气数据开始说明算法的实现。老师常常跟我说，要站在读者的角度写文章，你看一下个人论文```````今天我也试着从读者的角度写这篇文章。

一、获取天气数据

天气数据的来源是从中国天气网，一开始是想经过爬虫的形似，把整个页面request下来而后进行结构化获得数据。幸亏没有这样作，由于中国天气网上面有一个api能够得到里面的天气数据，具体的获取方法能够自行百度。

使用这个接口前，须要知道待查询城市在天气网中的id，例如北京的id是101010100，而后调用接口访问 http://m.weather.com.cn/data/%s.html，把%s替换成为城市的id，获得 http://m.weather.com.cn/data/101010100.html，把连接在浏览器打开，能够看到获得的json数据。

里面的数据只有一部分是咱们须要的，因此先整理成为xml的格式，至于为何是xml，其实json更好，这随便啦！

实现的代码：getWeather.py

url = "http://m.weather.com.cn/data/%s.html"
path = "./conf/codeAPI.txt"

def main():
    for li in open(path, "r"):
        for l in re.findall(r'[\d]+', li):
            try:
                stream=urllib2.urlopen(url%l.strip())
                weatherAnalysis.xmlBuilder(stream.read())
            except Exception, e:
                continue

首先经过urllib2从天气网的web接口获取信息，codeAPI.txt保存的是一些城市的id，把得到的数据流传到weatherAnalysis.py中解析

root = etree.Element("weatherinfos")
data_xml = "data/weatherinfo%s.xml"
splitor='~'
subffixlow='L'
subffixhigh='H'
def xmlBuilder(f):
    js = json.loads(f)
    root.append(jsonAnalyser(js["weatherinfo"]))
    out= open(data_xml%datetime.datetime.now().strftime("%Y-%m-%d-%Hh"), "w")
    out.write(etree.tostring(root, pretty_print=True, encoding='utf-8'))


def jsonAnalyser(js):
    element = etree.Element("weatherinfo", city=js["city"], city_en=js["city_en"]\
        , date=js["date"], week=js["week"])

    for x in range(1,6):
        d=datetime.datetime.now()+datetime.timedelta(hours=4*(x-1))
        time_range= etree.Element("time_range")
        element.append(time_range)
        etree.SubElement(time_range, "time").text=d.strftime("%H")
        tempC=js["temp"+str(x)].split(splitor)
        etree.SubElement(time_range, "tempCL").text=tempC[0]+subffixlow
        etree.SubElement(time_range, "tempCH").text=tempC[1]+subffixhigh
        tempC=js["tempF"+str(x)].split(splitor)
        etree.SubElement(time_range, "tempFL").text=tempC[0]+subffixlow
        etree.SubElement(time_range, "tempFH").text=tempC[1]+subffixhigh
        etree.SubElement(time_range, "weather").text=js["weather"+str(x)]
        etree.SubElement(time_range, "wind").text=js["wind"+str(x)]
    return element

解析后的某个城市的数据：

<weatherinfo city="北京" city_en="beijing" date="" week="星期日">
    <time_range>
      <time>22</time>
      <tempCL>16℃L</tempCL>
      <tempCH>30℃H</tempCH>
      <tempFL>60.8℉L</tempFL>
      <tempFH>86℉H</tempFH>
      <weather>晴</weather>
      <wind>微风</wind>
    </time_range>
    <time_range>
      <time>02</time>
      <tempCL>17℃L</tempCL>
      <tempCH>29℃H</tempCH>
      <tempFL>62.6℉L</tempFL>
      <tempFH>84.2℉H</tempFH>
      <weather>多云</weather>
      <wind>微风</wind>
    </time_range>
    <time_range>
      <time>06</time>
      <tempCL>17℃L</tempCL>
      <tempCH>25℃H</tempCH>
      <tempFL>62.6℉L</tempFL>
      <tempFH>77℉H</tempFH>
      <weather>多云转小雨</weather>
      <wind>微风</wind>
    </time_range>
    <time_range>
      <time>10</time>
      <tempCL>15℃L</tempCL>
      <tempCH>26℃H</tempCH>
      <tempFL>59℉L</tempFL>
      <tempFH>78.8℉H</tempFH>
      <weather>小雨转阴</weather>
      <wind>微风转北风3-4级</wind>
    </time_range>
    <time_range>
      <time>14</time>
      <tempCL>15℃L</tempCL>
      <tempCH>30℃H</tempCH>
      <tempFL>59℉L</tempFL>
      <tempFH>86℉H</tempFH>
      <weather>晴</weather>
      <wind>微风</wind>
    </time_range>
  </weatherinfo>

python操做json数据是很方便的，首先新建一个json对象，而后本节点有什么数据直接能够经过json['xxx名称']的形似得到。

2.apriori的理论及实现

理论部分：

Apriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系，也被称为购物蓝分析 (Market Basket analysis)，由于“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。关于这个算法有一个很是有名的故事："尿布和啤酒"。故事是这样的：美国的妇女们常常会嘱咐她们的丈夫下班后为孩子买尿布，而丈夫在买完尿布后又要顺手买回本身爱喝的啤酒，所以啤酒和尿布在一块儿被购买的机会不少。这个举措使尿布和啤酒的销量双双增长，并一直为众商家所津津乐道。 html

概念解析：

支持度（Support）：定义为 supp(X) = occur(X) / count(D) = P(X)。

置信度（Confidence/Strength）：定义为 conf(X->Y) = supp(X ∪ Y) / supp(X) = P(Y|X)。

老师常常跟我说，知识不在于你懂多少，而是在于别人能理解你知识的多少，因此你看一下个人论文`````我尽可能详细的说出我对这个算法的理解，下面只是我我的的观点。

假设如今一个数据集

I1：

N1: LBN, Brooklyn, 11204

N2: MBE, WEB, 11204

I1中有两个子项N1，N2

第一步，把I1中全部的子项取出来，在把这些N1{LBN, Brooklyn, 11204}，N2{MBE, WEB, 11204}子项中的元素所有取出来获得一个集合M1,M1中包括元素以外还须要包含元素的频率{LBN：1/2, Brooklyn：1/2, 11204：2/2, MBE：1/2, WEB：1/2}。

第二步，判断这些元素有哪个符合最小support的要求，把符合的取出来组合成为一个集合P。

第三步，获得一个M2集合。M2里面每一个元素都是由两个元素组成的，最简单的方法就是把M1的笛卡尔积去掉重复的部（忘记了具体的描述，离散数学老师死得早），获得

M2{

[LBN, Broollyn]: 1/2, [LBN, 11204]: 1/2, [LBN, MBN]: 0/2, [LBN, WEB]: 0/2,

[Brooklyn, 11204]: 1/2, [Brooklyn, MBN]: 0/2, [Brooklyn, WEB]: 0/2,

[11204, MBN]: 1/2, [11204, WEB]: 1/2,

[MBE, WEB]: 1/2

}

判断哪些元素符合最小support要求，把符合要求的组成一个集合P

第四步，回到第二步，第三步。可是第三步就不是生成M2，而是生成M3,也就是说生成多少阶i的Mi集合，直到生成的P集合是一个空集。

第五部：计算置信度，把P做为总集（分母），P中每一个元素做为子集（分子），计算每一个子集占这个总集的几率，只要子集包括在总集的的某个子集中就算一个，一个子集[Brooklyn, WEB]含义是由Brooklyn能够推出WEB,总集中首先必定会有这个子集自己，因此结果老是大于等于1的，而后若是总集中有一个[Brooklyn, WEB, 11204],这个也算是一个。若是只有这两个那么s=2，假设P中子集的数量是p=10，那么几率就是2/10，换句话说就是计算这个推测占整个推测集合的几率。若是设置的置信度小于0.2，那[Brooklyn, WEB]这个结果也是可信的（不过从上面的[Brooklyn, WEB]: 0/2 看来，这个结果连进入P集合的机会都没有 - -），若是置信度比较高，那么这个结果则是不可信的。

到此基本完成，只要把大于置信度的集合记录下来就能够了。

实现的具体代码：

def returnItemsWithMinSupport(itemSet, transactionList, minSupport, freqSet):
    #把数据中大于最小支持度的项组成itemSet返回



def joinSet(itemSet,length):
    #这个功能就是所谓的对一个集合笛卡尔积去掉重复的部分


def getItemSetTransactionList(data_iterator):
    #把数据转换成为Set和list<Set>的形式


def runApriori(data_iter, minSupport, minConfidence):
    """
    run the apriori algorithm. data_iter is a record iterator
    Return both: 
     - items (tuple, support)
     - rules ((pretuple, posttuple), confidence)
    """
    itemSet, transactionList = getItemSetTransactionList(xmlAnalysis.parseWeatherXML(data_iter))

    freqSet        = defaultdict(int)
    largeSet        = dict()                # Global dictionary which stores (key=n-itemSets,value=support) which satisfy minSupport
    assocRules         = dict()                # Dictionary which stores Association Rules

    oneCSet        = returnItemsWithMinSupport(itemSet, transactionList, minSupport, freqSet)

    currentLSet    = oneCSet
    k = 2
    while(currentLSet != set([])):
        largeSet[k-1]     = currentLSet
        currentLSet     = joinSet(currentLSet,k)
        currentCSet     = returnItemsWithMinSupport(currentLSet, transactionList, minSupport, freqSet)
        currentLSet     = currentCSet
        k = k + 1

    toRetItems=[]
    for key,value in largeSet.items():
        toRetItems.extend([(tuple(item), getSupport(item)) 
                           for item in value])

    toRetRules=[]
    for key,value in largeSet.items()[1:]:
        for item in value:
            _subsets = map(frozenset,[x for x in subsets(item)])
            for element in _subsets:
                remain = item.difference(element)
                if len(remain)>0:
                    confidence = getSupport(item)/getSupport(element)
                    if confidence >= minConfidence:
                        toRetRules.append(((tuple(element),tuple(remain)), 
                                           confidence))
    return toRetItems, toRetRules

3.导入数据运行

导入今天晚上的天气状况：

由于把置信度调到很低只要有0.2，因此获得不少结果

晴 ==> 22h , 0.301

22h ==> 晴 , 0.378

02h ==> 晴 , 0.273

晴 ==> 02h , 0.217

14h ==> 晴 , 0.411

晴 ==> 14h , 0.328

2二、0二、14点晴天的几率仍是挺大的，不过一点价值都没有- -。要想获得一些比较有意义的数据还须要把天气的xml数据进行合适的量化，例如：气温这个部分，在同一个地点出现如出一辙的气温的几率不高，除非在某个特定的时间点和地段。所以能够把气温分段，例如以3度为单位，2一、2二、23都归结在21这个数字上，来提升21度时候的几率。这些量化的规则要按照挖掘的须要本身制定，里面须要的统计学的知识还真很多的。

若是把间隔调成5，按照5度一个区间这样子来统计获得的结果：

------------------ RULES:

小雨 ==> 20℃H , 0.639

30℃H ==> 晴 , 0.859

北风小于3级 ==> 20℃H , 0.714

晴转多云 ==> 25℃H , 0.668

10h ==> 20℃H , 0.630

置信度调成0.6 ，感受此次结果有点科学

done

源码尚未整理好，稍后补上