1、数据分析的三个重要组成成分算法
(1)数据采集网络
获取数据源(Python爬虫、八爪鱼)机器学习
(2)数据挖掘工具
十大算法原理、数学基础、基本流程学习
(3)数据可视化优化
工具的使用(微图、DataV、DataGIF Maker)网站
Python类库的使用(Matplotlib、Seaborn)数据分析
2、学习数据分析最好的方法数学
在工具中灵活运用、在项目中加深理解数据挖掘
3、两条准则
(1)不重复造轮子,要善于灵活运用类库
(2)工具决定效率,使用使用者最多的工具。
4、数据挖掘的基本流程
(1)商业理解:对项目从商业角度进行需求分析,再对挖掘的目标进行定义
(2)数据理解:收集部分数据(自主进行数据描述、质量验证等操做),了解数据
(3)数据准备:清洗数据、集成数据
(4)模型创建:运用数据挖掘模型优化分类结果
(5)模型评估:评价模型、查看其是否实现商业目标
(6)上线发布:用用户能够使用的方式呈现出项目
5、数据挖掘的十大算法
一、分类算法:C4.五、朴素贝叶斯、SVM、KNN、Adaboost、CART
(1)C4.5
属于决策树算法,对决策树构造过程进行减枝,能够处理连续属性,也能够对不完整的数据进行处理。
(2)朴素贝叶斯
要给未知物体分类,求解未知物体出现条件下不一样类别的几率,几率最大的分类即为未知物体分类。
(3)SVM
支持向量机。用于创建超平面分类模型。
(4)KNN
K最近邻算法。每一个样本均可以用最接近的K个邻居表明,若K个邻居属于相同分类A,则样本也属于分类A。
(5)Adaboost
创建联合的分类模型,构建分类器的提高算法,将多个弱分类器组成一个强分类器。
(6)CART
表明分类和回归树,属于决策树算法。
二、聚类算法:K-Means、EM
(1)K-Means
肯定类别的中心点,只要计算新点与中心点之间的距离就能够判断新点的类别。
(2)EM
最大指望算法,用于求参数的最大似然估计,赋予A初值,获得B估值,再由B估值从新估计A,一直持续直到收敛。
三、关联分析:Apriori
(1)Apriori
挖掘关联规则的算法,从频繁项集中挖掘出物品之间的关系。
四、链接分析:PageRank
(1)PageRank
经过页面的引用次数划分网站的权重。
6、数据挖掘中的数学原理
一、几率论与数理统计
条件几率、独立性、随机变量、多维随机变量
二、线性代数
向量、矩阵特征值、特征向量
基于矩阵的各类运算的解决方法:PCA、SVD、MF、NMF
三、图论
社交网络中,人与人的关系,能够用图论上的两个节点进行链接,节点的度能够理解为一我的的朋友数,图论对于网络结构的分析很是有效,在关系挖掘和图像分割中具备重要做用。
四、最优化方法
至关于机器学习中的自我学习过程,最优化方法就是用更短的时间获得收敛,取得更好的效果。