（原创）大数据时代：基于微软案例数据库数据挖掘知识点总结（Microsoft 聚类分析算法）

时间 2019-11-17

标签原创数据时代基于微软案例数据库数据挖掘知识总结 microsoft 分析算法栏目 Microsoft 繁體版

原文原文链接

本篇文章主要是继续上一篇Microsoft决策树分析算法后，采用另一种分析算法对目标顾客群体的挖掘，一样的利用微软案例数据进行简要总结。html

应用场景介绍算法

经过上一篇中咱们采用Microsoft决策树分析算法对已经发生购买行为的订单中的客户属性进行了分析，能够获得几点重要的信息，这里作个总结：数据库

一、对于影响购买自行车行为最重要的因素为：家中是否有小汽车，其次是年龄，再次是地域大数据

二、经过折叠树对于比较想买自行车的顾客群体特征主要是：家里没有车、年龄在45岁一下、不在北美地区、家里也没有孩子（大米国里面的屌丝层次）、spa

一样还有就是家里有一辆车、年龄在37到53之间、通勤距离小于10Miles，家里孩子少于4个，而后年收入在58000$以上（大米国的高富帅了）3d

其实决策树算法最主要的应用场景就是分析影响某种行为的因素排序，经过这种算法咱们能够知道某些特定群体他们都会有几个比较重要的属性，好比家里有没有车、年龄等，可是咱们想要分析这部分特定群体其特有属性就无法作到，而要分析这种特定群体所共同含有的共同属性就须要今天咱们的Microsoft聚类分析算法出场了，简单点讲就是：物以类分、人以群分，经过聚类分析算法咱们要找到那些将要买自行车的顾客群里都有哪些属性，好比当咱们晚上进入广场会看到，广场大妈一群、儿童扎在一群、打篮球的一群、还有一群情侣在广场边幽暗的树林里等等，而他们这些团队之间是有差异的，若果要去卖儿童玩具...那种群体是你最想靠近的天然而然了。htm

技术准备blog

（1）一样咱们利用微软提供的案例数据仓库（AdventureWorksDW2008R2)，两张事实表，一张已有的历史购买自行车记录的历史，另一张就是咱们将要挖掘的收集过来可能发生购买自行车的人员信息表，能够参考上一篇文章排序

（2）VS、SQL Server、 Analysis Services没啥可介绍的，安装数据库的时候全选就能够了。图片

下面咱们进入主题，一样咱们继续利用上次的解决方案，依次步骤以下：

（1）打开解决方案，进入到“挖掘模型”模板

经过上面能够看到已经存在一种决策树算法了，咱们来添加另一种算法。

二、右键单击“结构”列，选择“新建挖掘模型”，输入名称便可

点击肯定，这样咱们新创建的聚类分析就会增长在挖掘模型中，这里咱们使用的主键和决策树同样，一样的预测行为也是同样的，输入列也是，能够更改。

下一步，部署处理该挖掘模型。

结果分析

一样这里面咱们采用“挖掘模型查看器”进行查看，这里挖掘模型咱们选择“Clustering”，这里面会提供四个选项卡，下面咱们依次介绍，直接晒图：

一样这里面咱们选择要发生购买自行车的群里，颜色最深的为最可能购买自行车的群里，图中箭头咱们已经显示出来了，一样咱们也能够找到最不可能买自行车的一群人，也就是“分类四”，他们之间线条的强弱表示关联关系强弱，固然这里为了好记咱们能够给他们改更名，直接选择类，右键重命名。

如上图，下面咱们要作的就是要分析这些群体有啥特征了，固然咱们最关心的为：最想买自行车的一群人、不想买自行车的也能够分析，至于不明真相的群体、路人群体甲、乙...这些个都是些打酱油的了，咱们就不分析了。

咱们打开“分类剖面图”看看：

哈...这几类群体的特征已经展现出来了，若是玩数据久了，会对图表有一种直观敏锐，对数据也要保持一种特定的嗅觉。

咱们从新整理一下这个“分类剖面图”的列的顺序，根据咱们关注的强弱横向依次展开，如图：

图中第一列为属性，好比年龄、小汽车的数量、家里孩子数量等，第二列为各个属性的图例，这里面是根据属性的值类型进行的图例展现，通常分为两种，好比年龄在库中存储的值类型一般分布在1-100之间，故图例采起分段取样，造成一个从小到大的柱状体，中间含有有一个棱形图，棱形图的大小表明属性中群体的密集度，好比上图的顾客集中在29岁到48岁之间：

固然若是该属性值不为离散的属性值的话，就采起不一样颜色的原型图表表示，专业术语叫作：直方图，面板中有一个地方能够设置直方图条数，也就是该属性值所取得的最多属性值个数。好比：家里孩子的总数，通常分为0个、1个、2个、3个、其余...

纳尼！...上面这个图例中没有3个孩子的，这里面的图例也是经过数据采样获得，只取量比较多的做为展现，上图说明家里有3个孩子的比较少。

下面咱们分析一下最想购买自行车的群体特征：

首先从图中能够看到年龄集中在40来岁，平均为43.65岁

我汗....最小年龄为29岁.平均年龄43.65岁..最大年龄81.79岁..估计微软案例数据库中的数据也不必定可靠，抑或者米国的人群特征就这样三十岁如下的人都不喜欢骑自行车反而80多岁的人还买自行车，或者这个店就不卖给三十岁如下的顾客，固然有可能年轻人没有买的，大部分是老人给孩子买的，这个就不分析了..反正数据是这么说的，有图有真相！

家里没有小汽车的或者只有一辆小汽车的购买的几率大部分集中在0.3以上...而大于一辆小汽车的家庭购买自行车的几率就不多...家里四辆车的几率则少到了0.003...接近不会买的几率了...

家里有一个孩子的几率最高0.483...家里没有孩子的根本不会买自行车...我去...基本验证了我上面的推测，看来大部分人是买自行车给子女骑的，没有孩子就不买了，上图中的没有子女的购买自信车的几率为0.000，还有一个属性能够研究下，那就是是否有房子，看图：

嗯...想买车的群体家里大部分都有房子，也就说有固定住所，他们买自行车的几率高达0.854...而没有房子的则少到可怜...为0.146。

别的属性也能够经过该属性面板进行分析，能够分析出咱们想要的那部分群体的属性特征，有针对性的作到定向营销。

以上只是经过分类的剖面图进行了局部分析，VS还提供了另一个专门列举属性特征的面板：分类特征。

咱们点击开这个面板看看：

经过上面的图表展现，已经将咱们想要了解的这部分群体，赤裸裸的展示出来了，嗯，来瞅瞅..法国职业：技术人员、英国职业：熟练的手工、都有房子、地区：北美地区、年龄范围：41-48岁之间、年收入：35459.9-57244.9之间、家里都有一个孩子等等.....固然别的群体也能够分析，这里就不展现了。

一样咱们也能够针对某一个属性，有针对性的对两组群体进行比较，这里就应用到另外一个面板：“分类对比”，我忽然想到能够针对“性别”这个属性，把IT行业和非IT行业进行对比，估计结果应该毛骨悚然...呵呵...题外话，下面看图：

尼玛...上图的图片我看了下..发现有一个属性值特别有趣，年收入在10000-29950之间的基本是不打算买自行车了，然而年收入到了29950-1700000,想买自行车的几率就高不少了，上图中能够看到。嗯...自行车也是车...想要买车仍是得有钱才行。

准确性验证

最后咱们来验证一下今天这个聚类分析算法的准确性如何，和上篇文章中的决策树算法有何差距，咱们点击进入数据挖掘准确性图表：

上图中咱们能够看到，今天此次用的聚类分析算法，分数为0.72，比上一篇的决策树算法0.87，仍是略有差距的，固然不能仅以分数来评比两种算法的好坏，不一样的挖掘需求须要不一样的挖掘模型，一样不一样的挖掘模型就须要不一样的挖掘分析算法。

不过经过上图有几点须要特别注意的，数据分析算法的准确性是要取决于基础数据的多少，也就是说数据量越大，你所分析的数据结果将越准确，一样这也是将来大数据的概念的造成，没有数据任何牛逼的算法也没有招，而当数据达到必定量级别以后，任务个别的不许确也将被大数据的事实所掩盖，这就是大数据时代的意义所在。

固然凡事都得拿数听说话，不能凭空乱想，上图中的理想模型也就是红色的那条就验证了我刚才的说法，当数据整体达到50%之后，咱们的数据挖掘结果就是100分，100分啥含义？彻底正确！也就是说你下一步想干啥是咱们彻底能推测出来的，固然在数据量少的时候，咱们就无能为力了，咱们所利用的任何数据挖掘算法理论上讲将无限的接近这条红线（理想模型），将永远没法超越，而这接近的过程就是咱们大数据时代的推进。

固然还有一条最烂的随机预测模型它永远的以50%的几率神通常存在着...由于对于买自行车这件事只有两种结果，一个是买，另外一个就是不买，它所预测准确的几率永远就是一半一半...50%.....。

对大数据有兴趣的不要忘记你的“推荐”哦。

晒一句数据挖掘的力量：小样，我就知道你会这么作！