什么是数据分析python
大体能把搜到的书分为两类:第一类讲数据理论统计学相关的,第二类就是数据分析工具应用类型的。而大部分咱们所购买的书基本都是某一类工具如何使用去进行数据分析,可是看完事后仍是不太懂什么是数据分析,应用到实际工做场景中照样很迷茫不知道该如何下手,这是什么缘由呢?有的小伙伴会说:我想分析的根本没有数!拿到的这个数也就只能作作折线图,同比环比两组数对比一下!业务当中发生了什么数据好像不能看出来!不知道一个函数得出的结果表明什么!还有可能我根本不会用一些工做等等。先讲下宏观上的几个涉及数据分析的部分。mysql
那为何不少伙伴都想学数据分析呢?我想缘由可能很简单:就是数据分析相关的岗位工资高啊!如今进入大数据时代不会点数据分析你具有核心竞争力吗?git
本文就以我的愚见来探讨一下如何去作数据分析。文章大体分四个层次分别为:需求层、数据层、分析层、输出层。也是数据分析按重要顺序排的大致步骤。
这里写图片描述sql
需求层数据库
需求层为何是最重要的呢?由于需求是数据分析的开始,也是你要分析的目标方向。若是你都不知道你要分析什么,还怎么谈如何分析?数据分析需求的来源每每有3种场景:1.监控到现有的指标出现了异常状况须要经过数据分析去找缘由;2.公司要对现有的运营模式或者某个产品进行评估肯定是否须要进行调整或者优化;3.公司下达了战略目标或短时间目标须要经过分析看如何达成。要肯定需求就必须与需求方进行沟通,清楚的确认需求的内容或者本身要分析前必需要清楚你想要的结果是什么方向。举个简单的例子:年末将近,双十一大促销在即,数据分析师们又到了一年最辛苦,最悲催的时间段。然而,有多少无心义的加班,是由于业务部门不会提需求所致使的。需求提的不合理,业务部门看了不解决问题,就会反反复复的再提需求。致使数据分析师们辛苦加班还不落好,背上一个:“分析没深度啊!”的坏名声。其实这不能怪需求方不会提需求,而是你做为数据分析人员要用你的经验,你的专业技能,你的沟通技巧去引导,去肯定,去达成一致。网络
全部要作到清晰的肯定需求,须要自身具有:一、对业务、产品、需求背景有比较深的了解。了解的足够对你才能去引导去判断这个需求;二、光了解需求方是还不够的,你须要从得到的需求快速的去结合你所掌握的技能组工具备个初步的分析思路;三、综合判断后你再决定是否须要分析,应该怎么分析,与需求方沟通肯定清楚两方理解是否一致。若是没法作到就会出现不少没法避免的问题。分布式
理论上数据分析师所从事的工做是给出业务方相应的数据结果,而不是解决方案。虽然也有分析两个字,可是如何设计解决方案是业务部门的事。运营部门就该作活动方案,产品经理就该出产品方案,销售部门就该想东西怎么卖。这才是业务部门的本职工做。吵吵着:“你说我不行,你行你上啊”是玩忽职守的扯皮表现。若是连具体的业务方案都让分析师来想了,分析师也干脆把业务部门的工资领了算了。可是当下专业的数据分析师是须要比业务方更了解业务,你不了解业务下的结论领导或者需求方感信任吗?因此,一个业务技术双精通的数据分析师,是能够替业务方搞定上边全部问题的,不依赖业务方的判断,由于他本身就是个业务高手,有丰富的实战经验与业务能力。但这种人是可遇不可求的。大部分数据分析师仍是70%时间处理数据的技术男。函数
在需求层我总结一下咱们所须要了具有的能力:一、对业务、产品、需求背景有足够的了解,若是不了解说明你在这块应该先去充充电;二、而后当你没法想到分析方法的时候说明你对现有的数据不够了解。你一样该去了解了解数据的来源,数据的流转,数据的定义。工具
数据层oop
目标需求肯定事后,如今的你就须要开始准备相关的数据了。数据层大体分为:数据获取、数据清洗、数据整理。有的伙伴会问,数据应该从哪来呢?数据来源取决于你分析需求,有直接从企业数据库经过SQL进行取数、有经过各统计网站进行数据下载,有经过爬虫技术在互联网进行数据抓取,也有经过企业已经加工好的数据报表,这里主要去讲在大数据时代如何去准备数据。由于利用数据库才能实现大数据下的真正核心分析,你才能配上数据分析师此次名称。
大数据(Big Data)是指“没法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。大数据挖掘商业价值的方法主要分为四种1.客户群体细分,而后为每一个群体量定制特别的服务;2.模拟现实环境,发掘新的需求同时提升投资的回报率;3.增强部门联系,提升整条管理链条和产业链条的效率;4.下降服务成本,发现隐藏线索进行产品和服务的创新。
为何大数据能实现这些场景?由于大数据的类型大体可分为三类:1.传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及帐目数据等;2.机器和传感器数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(一般是Digital exhaust),交易数据等;3.社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台等。经过数据库你能取到已加工好的报表EXCEL所没法作到的多样性及细节化,你才能经过这些详细的数据找出数据背后存在的问题。
如今的数据库主要分为关系类型数据,分布式数据库。关系类型数据表明产品为mysql(免费开源的),分布式数据库表明hadoop。两种都是实用sql语言进行数据提取,在数据分析中你将提取出来与分析相关的数据这步就是数据获取。这里你须要具有基础的sql语言能力,要从海量的数据中找到你想要的部分。这个环节你也能对数据进行初步的清理,这里取决于数据库中的数据存储是否完整规范。这里有一篇说数据库数据质量的文章推荐给你们数据质量管理。当你数据清理好也整理好后就能够开始进行数据分析了。
分析层
分析的工具备不少,平民版的分析工具备excel、非专业的专业分析工具备spss、专业资深的分析工做有sas/R/python。个人我的建议是在整个分析过程须要掌握的工具中为sql、excel、python。为何是这三个,我先来讲一下各个工具的特色。sql上文讲当它是数据获取的一个主要语言,而excel能够进行一下快速的数据展现(手动拖动点选快),Python功能强大几乎能够作你想作的任何事情不止局限于数据分析,学习优点绝对大于其余分析工具python能作的事情。
好了,那咱们就利用Python来进行数据分析,分析的思路都是由”浅到深“。数据分析通常的步骤为:描述分析——锁定方向——建模分析——模型测试——迭代优化——模型加载——洞察结论。
描述分析是最基本的分析统计方法,在实际工做中也是应用最广的分析方法。描述统计分为两大部分:数据描述和指标统计;
数据描述:用来对数据进行基本状况的刻画,包括:数据总数、时间跨度、时间粒度、空间范围、空间粒度、数据来源等。若是是建模,那么还要看数据的极值、分布、离散度等内容。
指标统计:用来做报告,分析实际状况的数据指标,可粗略分为四大类:变化、分布、对比、预测;变化:指标随时间的变更,表现为增幅(同比、环比等);分布:指标在不一样层次上的表现,包括地域分布(省、市、区县、店/网点)、用户群分布(年龄、性别、职业等)、产品分布(如动感地带和全球通)等;对比:包括内部对比和外部对比,内部对比包括团队对比(团队A与B的单产对比、销量对比等)、产品线对比(动感地带和全球通的ARPU、用户数、收入对比);外部对比主要是与市场环境和竞争者对比;这一部分和分布有重叠的地方,但分布更多用于找出好或坏的地方,而对比更偏重于找到好或坏的缘由;预测:根据现有状况,估计下个分析时段的指标值;
洞察结论这一步是数据报告的核心,也是最能看出数据分析师水平的部分。一个年轻的分析师和一个年迈的分析师拿到一样的图表,彻底有可能解读出不一样的内容。
举个例子:
这里写图片描述
例子来源Data Science with R&Python
年轻的分析师:2013年1月销售额同比上升60%,迎来开门红。2月销售额有所降低,3月大幅回升,4月持续增加。
年迈的分析师:2013年1月、2月销售额去除春节因素后,1月实际同比上升20%,2月实际同比上升14%,3月、4月销售额持续增加。
看到二者的区别了吗?2013年春节在2月,2012年则在1月,所以须要各去除一周的销售额,再进行比较。若是不考虑这一因素,那么后续得出的全部结论都是错的。挖掘数字变化背后的真正影响因素,才是洞察的目标。
输出层
都到这一步了,相信各位对数据报告也再也不陌生了。这一步中,须要保证的是数据报告内容的完整性。一个完整的数据报告,应至少包含如下六块内容:报告背景、报告目的、数据来源、数量等基本状况、分页图表内容及本页结论、各部分小结及最终总结、下一步策略或对趋势的预测;
其中,背景和目的决定了你的报告逻辑(解决什么问题);数据基本状况告诉对方你用了什么样的数据,可信度如何;分页内容须要按照必定的逻辑来构建,目标仍然是解决报告目的中的问题;小结及总结必不可少;下一步策略或对趋势的预测能为你的报告加分。
16种经常使用的数据分析方法汇总
常常会有朋友问到一个朋友,数据分析经常使用的分析方法有哪些,我须要学习哪一个等等之类的问题,今天数据分析精选给你们整理了十六种经常使用的数据分析方法,供你们参考学习。1、描述统计描述性统计是指运用制表和分类,图形以及计筠归纳性数据来描述数据的集中趋势、离散趋势、偏度、峰度。一、缺失值填充:经常使用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。二、正态性检验:不少统计方法都要求数值服从或近似服从正态分布,因此以前须要进行正态性检验。经常使用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。2、假设检验一、参数检验参数检验是在已知整体分布的条件下(一股要求整体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验 。1)U验 使用条件:当样本含量n较大时,样本值符合正态分布2)T检验 使用条件:当样本含量n较小时,样本值符合正态分布A 单样本t检验:推断该样原本自的整体均数μ与已知的某一整体均数μ0 (常为理论值或标准值)有无差异;B 配对样本t检验:当整体均数未知时,且两个样本能够配对,同对中的二者在可能会影响处理效果的各类条件方面扱为类似;C 两独立样本t检验:没法找到在各方面极为类似的两样本做配对比较时使用。二、非参数检验非参数检验则不考虑整体分布是否已知,经常也不是针对整体参数,而是针对整体的某些一股性假设(如整体分布的位罝是否相同,整体分布是否正态)进行检验。适用状况:顺序类型的数据资料,这类数据的分布形态通常是未知的。A 虽然是连续数据,但整体分布形态未知或者非正态;B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10如下;主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。3、信度分析检査测量的可信度,例如调查问卷的真实性。分类:一、外在信度:不一样时间测量时量表的一致性程度,经常使用方法重测信度二、内在信度;每一个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,经常使用方法分半信度。4、列联表分析用于分析离散变量或定型变量之间是否存在相关。对于二维表,可进行卡方检验,对于三维表,可做Mentel-Hanszel分层分析。列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。5、相关分析研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。一、单相关: 两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量;二、复相关 :三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关;三、偏相关:在某一现象与多种现象相关的场合,当假定其余变量不变时,其中两个变量之间的相关关系称为偏相关。6、方差分析使用条件:各样本须是相互独立的随机样本;各样原本自正态分布整体;各整体方差相等。分类一、单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系二、多因素有交互方差分析:一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系三、多因素无交互方差分析:分析多个影响因素与响应变量的关系,可是影响因素之间没有影响关系或忽略影响关系四、协方差分祈:传统的方差分析存在明显的弊端,没法控制分析中存在的某些随机因素,使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法,7、回归分析分类:一、一元线性回归分析:只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。二、多元线性回归分析使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。1)变呈筛选方式:选择最优回归方程的变里筛选法包括全横型法(CP法)、逐步回归法,向前引入法和向后剔除法2)横型诊断方法:A 残差检验: 观测值与估计值的差值要艰从正态分布B 强影响点判断:寻找方式通常分为标准偏差法、Mahalanobis距离法C 共线性诊断:诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根断定法、条件指针CI、方差比例处理方法:增长样本容量或选取另外的回归如主成分回归、岭回归等三、Logistic回归分析线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,通常用于因变量是离散时的状况分类:Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件几率。四、其余回归方法 非线性回归、有序回归、Probit回归、加权回归等8、聚类分析样本个体或指标变量按其具备的特性进行分类,寻找合理的度量事物类似性的统计量。一、性质分类:Q型聚类分析:对样本进行分类处理,又称样本聚类分祈 使用距离系数做为统计量衡量类似度,如欧式距离、极端距离、绝对距离等R型聚类分析:对指标进行分类处理,又称指标聚类分析 使用类似系数做为统计量衡量类似度,相关系数、列联系数等二、方法分类:1)系统聚类法: 适用于小样本的样本聚类或指标聚类,通常用系统聚类法来聚类指标,又称分层聚类2)逐步聚类法 :适用于大样本的样本聚类3)其余聚类法 :两步聚类、K均值聚类等9、判别分析一、判别分析:根据已掌握的一批分类明确的样品创建判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪一个整体二、与聚类分析区别1)聚类分析能够对样本逬行分类,也能够对指标进行分类;而判别分析只能对样本2)聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类3)聚类分析不须要分类的历史资料,而直接对样本进行分类;而判别分析须要分类历史资料去创建判别函数,而后才能对样本进行分类三、进行分类 :1)Fisher判别分析法 :以距离为判别准则来分类,即样本与哪一个类的距离最短就分到哪一类, 适用于两类判别;以几率为判别准则来分类,即样本属于哪一类的几率最大就分到哪一类,适用于适用于多类判别。2)BAYES判别分析法 :BAYES判别分析法比FISHER判别分析法更加完善和先进,它不只能解决多类判别分析,并且分析时考虑了数据的分布状态,因此通常较多使用;10、主成分分析将彼此梠关的一组指标变适转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息 。11、因子分析一种旨在寻找隐藏在多变量数据中、没法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法与主成分分析比较:相同:都可以起到済理多个原始变量内在结构关系的做用不一样:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深刻的一种多元统计方法用途:1)减小分析变量个数2)经过对变量间相关关系探测,将原始变量进行分类12、时间序列分析动态数据处理的统计方法,研究随机数据序列所听从的统计规律,以用于解决实际问题;时间序列一般由4种要素组成:趋势、季节变更、循环波动和不规则波动。主要方法:移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型十3、生存分析用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方法一、包含内容:1)描述生存过程,即研究生存时间的分布规律2)比较生存过程,即研究两组或多组生存时间的分布规律,并进行比较3)分析危险因素,即研究危险因素对生存过程的影响4)创建数学模型,即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。二、方法:1)统计描述:包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、判断生存时间的图示法,不对所分析的数据做出任何统计推断结论2)非参数检验:检验分组变量各水平所对应的生存曲线是否一致,对生存时间的分布没有要求,而且检验危险因素对生存时间的影响。A 乘积极限法(PL法)B 寿命表法(LT法)3)半参数横型回归分析:在特定的假设之下,创建生存时间随多个危险因素变化的回归方程,这种方法的表明是Cox比例风险回归分析法4)参数模型回归分析:已知生存时间服从特定的参数横型时,拟合相应的参数模型,更准确地分析肯定变量之间的变化规律十4、典型相关分析相关分析通常分析两个变里之间的关系,而典型相关分析是分析两组变里(如3个学术能力指标与5个在校成绩表现指标)之间相关性的一种统计分析方法。典型相关分析的基本思想和主成分分析的基本思想类似,它将一组变量与另外一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究,而且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的所有相应信息。十5、R0C分析R0C曲线是根据一系列不一样的二分类方式(分界值或决定阈).以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线用途:一、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力用途 ;二、选择最佳的诊断界限值。R0C曲线越靠近左上角,试验的准确性就越高;三、两种或两种以上不一样诊断试验对疾病识别能力的比较,一股用R0C曲线下面积反映诊断系统的准确性。十6、其余分析方法多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。