数据分析通常分为两条主线:算法
第一条主线是数据层面ide
第二条主线是业务层面函数
数据分析的通常步骤:工具
产生数据—>收集数据—>存储数据—>提取数据—>数据预处理—>数据分析—>数据可视化—>数据报告的解释说明oop
1、数据预处理的必要性编码
目前,数据挖掘的研究工做大都集中在算法的探讨而忽视对数据处理的研究。事实上,数据预处理对数据挖掘十分重要,一些成熟的算法对其处理的数据集合都有必定的要求:好比数据的完整性好,冗余性小,属性的相关性小等。spa
数据预处理是数据挖掘的重要一环,并且必不可少。要使挖掘算法挖掘出有效的知识,必须为其提供干净,准确,简洁的数据。然而,实际应用系统中收集的数据一般是“脏”数据。3d
2、数据存在的问题blog
不完整: # 缺乏数据值 #缺乏一些重要属性 #仅包含汇集数据get
有噪声:#包含错误或者孤立点 #例如,工资=-100
数据不一致:#在编码或者命名上存在差别 #例如,过去的等级“1,23″而如今的等级“A,B,C #重复记录间的不一致性
3、数据存在问题的缘由
不完整数据的成因
数据收集的时候就缺少合适的值
数据收集时和数据分析时的不一样考虑因素
人为/硬件/软件问题
噪声数据(不正确的值)的成因
数据收集工具的问题
数据输入时的人为计算机错误
数据传输中产生的错误
数据不一致性的成因
不一样的数据源
违反了函数依赖性
4、预处理重要性
没有高质量的数据,就没有高质量的挖掘结果
高质量的决策必须依赖高质量的数据
例如,重复值或者空缺值将会产生不正确的或者使人误导的统计
数据仓库须要对高质量的数据进行一致地集成
PS:数据预处理是数据分析流程中工做量最大的
5、数据预处理的常规方法
1数据清洗
去掉噪声和无关数据
2数据集成
将多个数据源中的数据结合起来存放在一个一致的数据存储中
3数据变换
把原始数据转换成为适合数据挖掘的形式
4数据归约
主要方法包括:数据立方体汇集,维归约,数据压缩,数值归约,
离散化和概念分层等
浅析下实际工做中数据分析的预处理阶段:
数据层面的分析:
数据预处理:【空值,缺失值,异常值等】—>处理方法主要是删,填(通常填中位数,均值等)
预处理的逻辑操做:通常逻辑顺序以下
1.异常值:测量值减去均值大于2倍的标准差,我则认为这是异常值。—>箱型图也能看出异常值。datahoop跑箱型图也能看出异常值。
也能够不处理:不处理也要说明理由。可是主要看占比和实际业务状况。记住现实生活中重要的一点:存在即合理。
2.数据标准化:把数据缩放。先构造新变量后再作标准化,防止量纲变大影响数据模型算法。
3.量纲:量纲的大小变化会影响大多数,自变量波动很大时会影响大多数数据模型算法。因此咱们要作数据标准化。数据标准化就是把全部数据归于一个范围区间内。—>Z值公式:自变量x=(原值减去均值)除以标准差。
4.共线性:目的是降维,共线性——相关系数矩阵。
相关系数小于0.3即为弱相关。相关系数0.7到0.9左右的话即认为是强相关。
作算法以前,必定要去看相关性。
想要降相关性的方法—>通常有两种方法:1.增大样板容量的量2.构造新变量(增量法和比值法)—>降维(因子分析和主成份分析)。
主成分分析与因子分析的区别:
主成分分析:主成分分析就是设法将原来众多具备必定相关性,从新组合成一组新的互相无关的综合指标来代替原来的指标。综合指标即为主成分。所得出的少数几个主成分,要尽量地保留原始变量的信息,且彼此不相关。
因子分析是研究如何以最少的信息丢失,将众多原始变量分解成少数几个因子变量,以及如何使因子变量具备较强的可解释性的一种多元统计分析方法。
因子分析:因子分析不是对原始变量的从新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体说,就是要找出某个问题中科直接测量的具备必定相关性的诸指标 ,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接肯定各因子状态。
因子分析只能解释部分变异,主成分分析能解释全部变异 。
数据预处理的思路必定要完整,要给出数据预处理的处理理由。
举例练习:活用Excel2016版本以上,基本上都有数据分析的功能。
删除空值