从业务中来,到业务中去,顾名思义,数据分析要围绕业务进行,由此咱们得出来 业务调研->创新分析->逻辑思考->可行建议python
数据分析的关键是方法而不是技术,就像咱们写做同样,华丽的修辞并不重要,最重要的要表达出本身的想法以及意境和格局。 多角度思考问题,一般咱们能够拓展知识面,好比说,从经济学,心理学和统计学进行数据分析算法
精心准备的数据, 从数据相关性得出结论,数据分析不经过比较,数据准备不充分,先入为主 ,从统计学的观念入手,过分脑补的推理编程
生活中,咱们面对事情,要多想一想为何,而不是是什么,探讨问题背后的本质才是最重要的。之因此使用统计被发明是由于统计学可以简化数据,经过更简单的方式看到数据的本质。机器学习
统计学是对抽样慨率的一种体现,因此咱们不能全新,若是这样说的话,感受统计学几乎没什么做用了,可是大数定律告诉咱们随着咱们对抽样样本的增多,统计值会无限趋向于真实值。学习
数据分析过程咱们要善于从不一样的维度进行分析事物,可是随着维度的增长,会形成数据量的减少,因此咱们要学会使用大数定律进行权衡利弊。大数据
咱们要怎么认知这个世界?经过平行的理论(实验组和对照组),经过统计抽样进行比较(根据大数定律,数据抽样要尽量大,减小正态分布的偏差)设计
咱们思考问题的入手方式有哪些?化繁为简,逐步改进。找出典型,从中入手。基于需求,作出应用。图片
分布分析,咱们在分析数据时不能只看统计数据,还要看分布状态。数据分析
趋势分析,不一样的场景使用不一样的方案去作分析it
因素分解, 分为纵向拆分(分模块划分)和横向逻辑(加减乘除)两种办法
个案分析 选择明显特征的个案进行分布分解分析 异常分析 科学或者数据分析的进步都是由于异常而被发现的 分组分析 针对不一样的需求进行不一样的群体划分,例如,广告投放业务,咱们须要按照,新老客户,大小客户,不一样行业客户进行划分.
分组分析在实际使用种又能够分为留存分析,价格歧视,根据不一样用户群体和需求细分
经过四象限法则,把不一样的用户或者事物进行划分。
切片(按照不一样维度进行划分)和钻取(更进一步的细分)
聚类分析: 告诉机器按照不一样的维度进行划分出数据模型 关联分析: 按照咱们想要的模式进行划分(置信度和知识度要高)
给出假设算法模型,机器穷举计算,得出最优算法(随着特征的愈来愈多,正态分布最后会造成一条线,分析的也是愈来愈准确)
机器学习说白了人的学习(人根据业务,取得样本,设计算法,机器执行,查看结果),机器只是在执行。
银行信贷算法是基于似然几率进行计算得出。
经过大量的数据,咱们可以对一些特征值进行细化,根据特征值又能进一步高效利用大数据 对于大数据,咱们首先要有一个这样的认识,数据分析技术并不重要,咱们首先要有必定数据积累,而后结合咱们的业务模型,而后利用数据技术,分析出可用的技术。 编程基础(python和R语言)+ 结合具体业务
一个团队,每一个人扮演的角色都很是重要,咱们要善于发现别人的美,不能存在比较之心。