回归,是一个广义的概念,包含的基本概念是用一群变量预测另外一个变量的方法,白话就是根据几件事情的相关程度,用其中几件来预测另外一件事情发生的几率,最简单的即线性二变量问题(即简单线性),例以下午我老婆要买个包,我没买,那结果就是我确定没有晚饭吃;复杂一点就是多变量(即多元线性,这里有一点要注意的,由于我最先之前犯过这个错误,就是认为预测变量越多越好,作模型的时候总但愿选取几十个指标来预测,可是要知道,一方面,每增长一个变量,就至关于在这个变量上增长了偏差,变相的扩大了总体偏差,尤为当自变量选择不当的时候,影响更大,另外一个方面,当选择的俩个自变量自己就是高度相关而不独立的时候,俩个指标至关于对结果形成了双倍的影响 ),仍是上面那个例子,若是我丈母娘来了,那我老婆就有很大几率作饭;若是在加一个事件,若是我老丈人也来了,那我老婆确定会作饭;为何会有这些判断,由于这些都是之前屡次发生的,因此我能够根据这几件事情来预测我老婆会不会作晚饭。
大数据时代的问题固然不能让你用肉眼看出来,否则要海量计算有啥用,因此除了上面那俩种回归,咱们常常用的还有多项式回归,即模型的关系是n阶多项式;逻辑回归(相似方法包括决策树),即结果是分类变量的预测;泊松回归,即结果变量表明了频数;非线性回归、时间序列回归、自回归等等,太多了,这里主要讲几种经常使用的,好解释的(全部的模型咱们都要注意一个问题,就是要好解释,不论是参数选择仍是变量选择仍是结果,由于模型建好了最终用的是业务人员,看结果的是老板,你要给他们解释,若是你说结果就是这样,我也不知道问什么,那升职加薪基本无望了),例如你发现日照时间和某地葡萄销量有正比关系,那你可能还要解释为何有正比关系,进一步统计发现日照时间和葡萄的含糖量是相关的,即日照时间长葡萄好吃,另外日照时间和产量有关,日照时间长,产量大,价格天然低,结果是又便宜又好吃的葡萄销量确定大。再举一个例子,某石油产地的咖啡销量增大,国际油价的就会下跌,这俩者有关系,你除了要告诉领导这俩者有关系,你还要去寻找为何有关系,咖啡是提高工人精力的主要饮料,咖啡销量变大,跟踪发现工人的工做强度变大,石油运输出口增多,油价下跌和咖啡销量的关系就出来了(单纯的例子,不要多想,参考了一个根据遥感信息获取船舶信息来预测粮食价格的真实案例,感受不够典型,就换一个,实际油价是人为操控地)。
回归利器--最小二乘法,牛逼数学家高斯用的(另外一个法国数学家说本身先创立的,不过没办法,谁让高斯出名呢),这个方法主要就是根据样本数据,找到样本和预测的关系,使得预测和真实值之间的偏差和最小;和我上面举的老婆作晚饭的例子相似,不过我那个例子在不肯定的方面只说了大几率,可是到底多大几率,就是用最小二乘法把这个关系式写出来的,这里不讲最小二乘法和公式了,使用工具就能够了,基本全部的数据分析工具都提供了这个方法的函数,主要给你们讲一下以前的一个误区,最小二乘法在任何状况下均可以算出来一个等式,由于这个方法只是使偏差和最小,因此哪怕是天大的偏差,他只要是偏差和里面最小的,就是该方法的结果,写到这里你们应该知道我要说什么了,就算自变量和因变量彻底没有关系,该方法都会算出来一个结果,因此主要给你们讲一下最小二乘法对数据集的要求:
一、正态性:对于固定的自变量,因变量呈正态性,意思是对于同一个答案,大部分缘由是集中的;作回归模型,用的就是大量的Y~X映射样原本回归,若是引发Y的样本很凌乱,那就没法回归
二、独立性:每一个样本的Y都是相互独立的,这个很好理解,答案和答案之间不能有联系,就像掷硬币同样,若是第一次是反面,让你预测抛两次有反面的几率,那结果就不必预测了
三、线性:就是X和Y是相关的,其实世间万物都是相关的,蝴蝶和龙卷风(仍是海啸来着)都是有关的嘛,只是直接相关仍是间接相关的关系,这里的相关是指自变量和因变量直接相关
四、同方差性:因变量的方差不随自变量的水平不一样而变化。方差我在描述性统计量分析里面写过,表示的数据集的变异性,因此这里的要求就是结果的变异性是不变的,举例,脑壳轴了,想不出例子,画个图来讲明。(咱们但愿每个自变量对应的结果都是在一个尽可能小的范围)函数
咱们用回归方法建模,要尽可能消除上述几点的影响,下面具体讲一下简单回归的流程(其余的其实都相似,能把这个讲清楚了,其余的也差很少):工具
first,找指标,找你要预测变量的相关指标(第一步应该是找你要预测什么变量,这个话题有点大,涉及你的业务目标,老板的目的,达到该目的最关键的业务指标等等,咱们后续的话题在聊,这里先把方法讲清楚),找相关指标,标准作法是业务专家出一些指标,咱们在测试这些指标哪些相关性高,可是我经历的大部分公司业务人员在建模初期是不靠谱的(真的不靠谱,没思路,没想法,没意见),因此个人作法是将该业务目的全部相关的指标都拿到(有时候上百个),而后跑一个相关性分析,在来个主成分分析,就过滤的差很少了,而后给业务专家看,这时候他们就有思路了(先要有东西激活他们),会给一些你想不到的指标。预测变量是最重要的,直接关系到你的结果和产出,因此这是一个多轮优化的过程。测试
第二,找数据,这个就很少说了,要么按照时间轴找(我认为比较好的方式,大部分是有规律的),要么按照横切面的方式,这个就意味横切面的不一样点可能波动较大,要当心一点;同时对数据的基本处理要有,包括对极值的处理以及空值的处理。大数据
第三, 创建回归模型,这步是最简单的,全部的挖掘工具都提供了各类回归方法,你的任务就是把前面准备的东西告诉计算机就能够了。优化
第四,检验和修改,咱们用工具计算好的模型,都有各类假设检验的系数,你能够立刻看到你这个模型的好坏,同时去修改和优化,这里主要就是涉及到一个查准率,表示预测的部分里面,真正正确的所占比例;另外一个是查全率,表示了所有真正正确的例子,被预测到的几率;查准率和查全率通常状况下成反比,因此咱们要找一个平衡点。spa
第五,解释,使用,这个就是见证奇迹的时刻了,见证前通常有好久时间,这个时间就是你给老板或者客户解释的时间了,解释为啥有这些变量,解释为啥咱们选择这个平衡点(是由于业务力量不足仍是其余的),为啥作了这么久出的东西这么差(这个就尴尬了)等等。事件
回归就先和你们聊这么多,下一轮给你们聊聊主成分分析和相关性分析的研究,而后在聊聊数据挖掘另外一个利器--聚类。数据分析