1.1数据分析概述前端
1.1.1数据分析的原则算法
(1)数据分析是为了验证假设的问题,须要提供必要的数据验证。在数据分析中,分析模型构建完成后,须要利用测试数据验证模型的正确性。数据库
(2)数据分析是为了挖掘更多的问题,并找到深层次的缘由。网络
(3)不能为了作数据分析而作数据分析。分布式
1.1.2数据分析的步骤工具
(1)探索性数据分析EDA测试
从多种渠道得到了大量的可能杂乱无章、看不出规律的数据的时候,首先须要在没有多少经验的状况下第一次对其进行仔细的分析。这时就须要进行探索性数据分析(EDA: Exploratory Data Analysis)大数据
(2)模型选定分析设计
在探索性分析的基础上,经过定量分析方法,提出一类或几类可能的模型,而后经过进一步的分析,从中挑选一类适合的模型。视频
(3)推断分析
一般使用数理统计方法,进行一系列的计算和分析,对所肯定的模型或估计的可靠程度和精确程度作出推断。
1.1.3数据分析的过程
(1)明确目标
明确目标是数据分析的出发点。明确数据分析的目标就是要明确本次数据分析要研究的主要问题和预期的分析目标等。只有明确了数据分析的目标,才能正确地制定数据收集方案,即收集哪些数据,采用怎样的方式收集等,进而为数据分析作好准备。
(2)收集数据
收集数据固然是要正确地收集数据,正确的数据对于实现数据分析目标将起到关键性的做用。正确收集数据是指从分析目标出发,排除干扰因索,正确收集服务于既定分析口标的数据。排除数据中那些与目标不关联的干扰因素是数据收集中的重要环节。数据分析并不只仅是对数据进行数学建模,收集的数据是否真正符合数据分析的目标,其中是否包含了其余因素的影响,影响程度怎样,应如何剔除这些影响等问题都是数据分析过程当中必须注意的重要问题。
(3)加工整理
在明确数据分析日标基础上收集到的数据,每每还须要对其进行必要的加工整理,然后才能真正用于分析建模。数据的加工整理一般包括数据缺失值处理、数据的分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,它可以帮助人们掌握数据的分布特征,这是进一步深刻分析和建模的基础。
(4)选择方法
数据加工整理完成后通常就能够进行进一步的数据分析了。分析时应切忌滥用和误用统计分析方法。滥用和误用统计分析方法主要是因为对方法能解决哪类问题、方法适用的前提、方法对数据的要求不清等缘由形成的。另外,统计分析软件的不断普及和应用中的不求甚解也会加剧这种现象。
(5)解释结果
数据分析的直接结果是统计量和统计参数。
1.1.4数据分析的对象
关系型数据库、事务型数据库、面向对象的数据库
数据仓库/多维数据库
空间数据(如地图信息)
工程数据(如建筑、集成电路的信息)
文木和多媒体数据(如文本、图像、音频、视频数据)
时间相关的数据(如历史数据或股票交易数据)
万维网(如半结构化的HTML、结构化的XML以及其余网络信息)
1.2大数据分析
1.2.1大数据分析的流程
常见的大数据处理流程,能够归纳为四步:数据采集、预处理、统计和分析以及数据挖掘。
(1)数据采集
大数据的采集主要是指利用多个数据库来接收发自客户端的数据,而且用户能够经过这些数据库来进行简单的查询和处理工做。
(2)预处理
虽然采集端自己会有不少数据库,可是若是要对这些海量数据进行有效的分析,仍是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群中,而且能够在导入的基础上作一些简单的清洗和预处理工做。
(3)统计和分析
统计和分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以知足大多数常见的分析需求。统计和分析这个环节的主要特色和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
(4)数据挖掘
与前面统计和分析过程不一样的是,数据挖掘通常没有什么预先设定好的主题,主要是在现有数据上面进行基于各类算法的计算,起到预测的效果,从而实现一些高级别数据分析的需求。数据挖掘的特色和挑战主要是因为挖掘的算法很复杂,而且计算涉及的数据量和计算量都很大。
1.2.2大数据分析的基本方面
(1)预测性分析能力
预测性分析可让分析员根据可视化分析和数据挖掘的结果作出一些预测性的判断,在此基础上,进一步的数据分析、数据挖挖掘以让分析员更好地理解数据。
(2)数据质量和数据管理
数据质量和数据管理是一些管理方面的最佳实践。经过标准化的流程和工具对数据进行处理,能够保证一个预先定义好的高质量的分析结果。
(3)可视化分析
不论是对数据分析专家仍是普通用户,数据可视化是数据分析工具最基本的要求。可视化能够直观地展现数据,让数据本身说话,让观众看到结果。
(4)语义引擎
大数据中非结构化的数据日益增多,非结构化数据的多样性带来了数据分析新的挑战,须要一系列的工具去解析、提取及分析数据。语义引擎须要被设计成可以从“文档”中智能提取信息。
(5)数据分析挖掘算法
可视化是给人看的,数据分析挖掘就是给机器看的。集群分析、分割分析、孤立点分析还有其余的算法让咱们能够深刻数据内部,挖掘价值。