数据分析方法知识点总结

1.结构化数据,直接可以传统数据库存储和管理的数据,本质:先有结构,后有数据,举例:关系型数据库中的数据;非结构化数据:无法用关系数据库存储和管理的数据,本质:没有(或者难以发现)统一结构的数据,举例:语音、图像文件等;半结构化数据,经过一定转换处理后可以用传统关系数据库存储和管理嗯数据,本质,先有数据,后有结构(或者较容易发现其结构)举例:html.xml文件等

2.数据科学的基本流程

 

3数据预处理方法

概念:            数据预处理是指在对数据进行正式处理(计算)之前,根据后续数据计算的需求对原始数据集进行审计、清洗、变换、集成、脱敏、规约和标注等一系列处理活动,提升数据质量,并使数据形态更加符合某一算法需求,进而达到提升数据计算的效果和降低其复杂度的目的。

 

4.常用的分析方法:分类分析,聚类分析,关联规则,回归分析,方差分析,时间序列分析

分类算法要求基于数据属性值来定义类别,通常通过已知所属类别的数据的特征来描述类别。

聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类就越好。聚类除了将样本分类外,还可以完成孤立点挖掘。

核心点:在基于密度的簇内部,在阈值内部的点,边界点不是核心点,但他落在某个核心点的领域内,噪声点,既非核心点也非边界点的任何点

关联分析用于发现隐藏在大型数据集中的有意义的联系,所发现的联系可以用关联规则或频繁项集的形式表示

时序模式是描述基于时间或其他序列的经常发生的规律或趋势,并对其建模。是用已知的数据预测未来的值,重点考虑数据之间在时间维度上的关联性,包含时间序列分析和序列发现。

时间序列分析用已有的数据序列预测未来。数据的属性值是随着时间不断变化的。尤其要考虑时间周期的层次,如天、周、月、年等,有时还要考虑日历的影响,如节假日等。

异常是对差异和极端特例的表述,如分类中的反常实例、聚类外的离群值、不满足规则的特例等。异常检测是用来发现与正常情况不同的异常和变化,并进一步分析这种变化是否是有意的诈骗行为,还是正常的变化。

相关分析是对变量之间关系密切程度的度量——相关系数的分析方法。注意:线性相关是相关关系的特例。

回归分析是试图找出变量之间的函数关系的一种统计分析方法。注意:函数关系和相关关系是两个不同概念。

回归分析和相关分析的关系回归分析就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确立一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为估算预测提供一个重要的方法。回归分析和相关分析是互相补充、密切联系的,相关分析需要回归分析来表明现象数量关系的具体形式,而回归分析则应该在相关分析的基础上进行。

方差分析主要用于分析分类型自变量和数值型因变量之间的关系,例如分析分析彩电的品牌对其销售量的影响方差分析是指通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响的方法。

其基本思想是采用方差比对比随机误差与系统误差 的方法检验均值是否相等。

 

数据脱敏原则:单向性、无残留、易于实现

数据的定义:在数据科学中,各种符号的组合,语音,图形,图像,动画等统称为数据

数据的一般特性,维度(数据集的维度是数据集中的对象具有的属性数目; 维灾难,维归约),稀疏性(具有非对称特征的数据集,一个对象的大部分属性上的值都为0,只存储和处理非零值)分辨率

K均值算法:1.选择K个初始质心,其中K是用户指定的参数,即所期望的簇的个数;每个点指派到最近的质心,而指派到一个质心的点集为一个簇;根据指派到簇的点,更新每个簇的质心;重复指派和更新步骤,直到簇不发生变化,或质心不发生变化2.缺点:需要提前确定K值;对异常值敏感;对初始聚类中心敏感;3.优点:易解释;运行速度快;一般效果不错;

2. K-Means改进:步骤:第一步:Map:对于每一个点,将其对应的最近的聚类中心;第二步:Combine:刚完成map的机器在本机上都分别完成同一个聚类的点的求和,减少reduce操作的通信量和计算量;第三步:reduce:将同一聚类中心的中间数据再进行求和,得到新的聚类中心

2.优化:进程0为主节点,先从文件中读取数据集,然后将数据集划分并传给其他进程;

进程0选择每个聚类的中心点,并发送给其他进程;其他进程计算数据块中每个点到中心点的距离,然后标出每个点所属的聚类,并计算每个聚类所有点到其中心点的距离之和,最后将这些结果返回给进程0;进程0计算出新的中心点并发送给其他进程,并计算其他进程传来的聚类所有点到其中心点的距离总和;重复3和4直到,直到步骤4中的所有聚类的距离之和不变(即收敛)。