数据分析由三大重要部分组成:python
1.数据采集。它是咱们的原材料,由于任何分析都是须要数据源;算法
2.数据挖掘。它能够说是最“高大上”的部分,也是整个商业价值所在。数据挖掘的核心是挖掘数据的商业价值,也就是咱们所谈的商业智能BIpython爬虫
3.数据可视化。它能够说是数据领域中万金油的技能,能够让咱们直观的了解到分析数据的结果。工具
下面总结详解这三大部分的内容:优化
一 数据采集设计
采集工具:八爪鱼,自动抓取的神器,它能够帮你抓取 99% 的页面源。3d
python爬虫:可编写,采集,存储数据,以及自动化采集设计。blog
二数据挖掘数据分析
它能够说是知识型的工程,至关于整个专栏中的“算法”部分。首先要知道他的基本流程,算法,以及底层的数学基础。数学
基本流程:商业理解,数据理解,数据准备,模型创建,模型评估,上线发布
算法:分类算法,聚类算法,关联分析,链接分析
数学基础:几率论和数据统计,线性代数,图论,最优化方法
三数据可视化
当数据量大的时候很难理解,可视化能够帮咱们很好地理解这些数据的结构,以及分析结果的视觉呈现。
数据可视化有两种方法(并非所有):
1.python第三方库:Matplotlib,Seaborn等
2.第三方工具:若是生成了csv格式文件,想要采用所见即得的方式进行呈现,能够采用微图,DataV,Data GIF Maker等第三方工具。