转载:http://www.cnblogs.com/zhijianliutang/p/4016309.htmlhtml
前言web
本篇文章主要是继续前几篇Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法,算法介绍后,通过这几种算法综合挖掘和分析以后,对一份摆在公司面前的人员信息列表进行推测,挖掘出这些人员信息中可能购买自行车的群体,把他们交个营销部,剩下的事就是他们无情的对这群团体骚扰、推荐、营销....结果你懂的!算法
本篇也是数据挖掘各层次间最高的产物,推测未知的事物。数据库
鉴于各类算法应用场景不一样,还有用法区别...后期我会整理出文章目录,供对大数据兴趣的同窗查阅。服务器
应用场景介绍函数
经过前几篇文章对挖掘算法的介绍,其实应用的场景大部分是围绕着已经购买自行车这部分群体的特征、行为分析,对他们的特性进行分类挖掘,对于咱们想要知道那些人会买自行车特征进行推测,但全部这些的这些都是基于已经发生的事实,而没有对将来未发生的事情进行操做,这也是本篇文章将要介绍的应用场景,经过对过去发生的事实进行分析后,来推测将要发生的事情。汗....有点八卦算命的味道。工具
固然可能感受本系列对于这个行为预测有点单一,后续的文章中咱们将继续开演:布局
一、根据往年历史产品营销状况,推测下一月、下一季度、下一年的营销业绩....,推测服务器下一个发生事故的时间点,推测一个产品的生命周期,固然这是基于时间规律推测,有兴趣的能够推测物价、房价、GDP....甚至下期彩票大数据
二、根据以往产品销售序列记录,推测那些产品捆绑销售比较好,典型的应用场景就是超市货物摆放、电子商务网站菜单安排、站台的摆放、还有某些网站上比较恶习的相关推荐、某些聊天工具下面的产品推荐等等网站
三、根据以往产品投放广告扥营销手段所带来的效益,推测收益比较高的投放方式等
四、根据网站中用户点击的web流走向,推测用户兴趣所向,典型的应用场景就是:相关新闻推荐、相关图片介绍,用此来指导网站的合理布局
有兴趣的同窗能够继续关注个人博客。下面我们开始本篇内容
技术准备
(1)一样咱们利用微软提供的案例数据仓库(AdventureWorksDW2008R2),两张事实表,一张已有的历史购买自行车记录的历史,另一张就是咱们将要挖掘的收集过来可能发生购买自行车的人员信息表,能够参考上一篇文章,不废话。
(2)VS200八、SQL Server、 Analysis Services没啥可介绍的,安装数据库的时候全选就能够了。
下面进入主题,一样咱们继续利用上次的解决方案,依次步骤以下:
(1)打开解决方案,进入到“数据源视图”模板,首先我们先重点来分析将要预测的这部分人员有啥信息
右键选择预测数据,我记得第一篇文章介绍过这种用法,咱们来看这部分元数据,这里咱们采用随机取样的方式来查看数据
点击肯定,咱们直接经过图表查看信息,这种方式更直接一点,来看看图;
能够看到,这张表里面包含的信息仍是挺多的,其中有几个属性还能能知足我们前几篇中决策树分析算法中看到的几个重要属性,好比:年龄、地址、年收入、家里小汽车数量、家里孩子的数量、是否有房子....等等吧,这些都是咱们要利用的。
固然也能够经过透视表、透视图进行更详细的分析,这里咱就不展开了。
二、单击“挖掘结构”,咱们已经创建好的数据挖掘模型,而后进入最后一个神秘的面板:挖掘模型预测
这里咱们能够选择模型,这里面将列出咱们前几篇文章中所创建的全部模型:
这里咱们选择Microsoft决策树算法,由于这个算法是涵盖所有事实的相对最准确的预测模型,而后咱们选择即将预测的事例表,也就上上面咱们将要预测的人员信息表。晒图:
单击肯定,vs会将相同的属性进行关联,这里能够右键这些连接线,进行查看
是吧,都有性别、是否有房、家里车的数量、家里孩子数量、年收入等,固然这些能自动关联的基础是这些列的名称是同样的,若是列名称不同,咱们能够手动关联。
好比这里咱们单击 Bike Buyer 单元格并从下拉列表中选择 ProspectiveBuyer.Unknown。对咱们将要预测的列进行关联,由于没有发生咱们只是添加这个空白列,命名为Unknown。
咱们来看一下关联以后的结果图表
第三步,编辑关联函数
这里源咱们选择预测函数
在“预测函数”行的“字段”列中,选择 PredictProbability
从“挖掘模型”窗口的上方选择 [Bike Buyer],并将其拖到“条件/参数”单元格中。
单击“源”列中的下一个空行,而后选择 MicrosoftTargetTree,在 MicrosoftTargetTree行的“字段”列中,选择 Bike Buyer,在 MicrosoftTargetTree行的“条件/参数”列中,键入 =1,这里咱们要预测购买自行车的群体。
将目标表中的主键列添加进入模型
最后的最后咱们将将要预测的表中几个要显示的属性显示出来,好比说你确定要知道名字,而后电话,而后住址...等等信息,方便之后骚扰...拜访...推荐等吧
第四步,运行查看结果
直接点击“结果”选项既能够看到结果,咱们来看图:
哈哈....咱们的被虐群体已经挖掘出来了...Angel...Alyssa..嘿嘿...全部的这些的这些咱们将无情的将他们扔给营销部去。
咱们点击保存按钮,将这部分群体先保存到数据库中
好了,到此咱们要挖掘的结果群体已经出现了。下一步就是验证结果了。
结果分析
咱们打开原有数据库,来看看源表中的数据多少,挖掘出来的群体多少:
嘿嘿...从2059个莫名的群众中,咱们找到了咱们最优的客户,952虽然有点少,可是这将是最优质的客户!咱们重点营销的对象。而后咱们来看一下明细:
根据购买几率咱们来了一个排序...上图能够看到...名字叫Marvin的这货的购买自行车的几率居然到达了0.8707,汗...还等着什么...直接电话过去..若是这厮不买自行车,真对不起我们此次数据挖掘的结果...对不起前几篇我文章的辛勤付出..对不起人民...对不起党...呵呵...玩笑了...不买的话后面还有Roy、Albet...等等。