手把手教你使用Python作数据分析

1、数据分析是什么

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，将它们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的做用，使得数据的价值最大化python

2、数据分析是作什么的

数据分析是为了提取有用信息和造成结论而对数据加以详细研究和归纳总结的过程。数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操做成为可能，并使得数据分析得以推广。数据库

分析用户的消费行为
- 制定促销活动的方案
- 制定促销时间和粒度
- 计算用户的活跃度
- 分析产品的回购力度
分析广告点击率
- 决定投放时间
- 制定广告定向人群方案
- 决定相关平台的投放
......

数据分析使用适当的方法对收集来的大量数据进行分析，帮助人们作出判断，以便采起适当的行动数组

保险公司从大量赔付申请数据中判断哪些为骗保的可能
支付宝经过从大量的用户消费记录和行为自动调整花呗的额度
短视频平台经过用户的点击和观看行为数据针对性的给用户推送喜欢的视频

3、为何学习数据分析

岗位的需求
是 Python 数据科学的基础
是机器学习的基础

4、数据分析实现流程

提出问题
准备数据
分析数据
得到结论
成果可视化

5、数据分析环境的搭建

1. Anaconda

官网：www.anaconda.com 下载安装对应安装包便可微信
注意：安装目录不能够有中文和特殊符号markdown

Anaconda集成好了数据分析和机器学习中所须要的所有环境数据结构

2. Jupyter

Jupyter就是Anaconda提供的一个基于Web的可视化开发工具

3. Jupyter的基本使用

启动：在终端中输入：jupyter notebook，按下回车便可app
新建文件：New -->> python3dom
Cell（代码块）有两种模式机器学习
- code：编写代码
- markdown：编写笔记
快捷键函数
- 添加cell：a或b
- 删除：x
- 修改cell的模式
  - 修改为markdown模式：m
  - 修改为code模式：y
- 执行cell内代码：shift+enter
- 自动补全：tab
- 打开帮助文档：shift+tab

6、如何用Python进行数据分析

在Python中咱们数据分析离不开如下三剑客

Numpy
Pandas
Matplotlib

Numpy模块

Numpy(Numerical Python) 是 Python 语言中作科学计算的基础库。重在于数值计算，也是大部分 Python 科学计算库的基础，多用于在大型、多维数组上执行的数值运算。

1. Numpy的建立

使用 array() 建立一个一维数组

使用 array() 建立一个多维数组

使用 zero() 建立一个多维数组

使用 ones() 建立一个多维数组

使用 linspace() 建立一维的等差数列数组

使用 arange() 建立一维的等差数列数组

使用 random.randint() 建立随机的多维数组

2. Numpy的经常使用属性

shape
ndim
size
dtype

3. Numpy的索引和切片

索引操做和列表同理

切片操做

4. Numpy的矩阵操做

矩阵变形

级联操做
- 将多个 Numpy 数组进行横向或者纵向的拼接
- axis轴向参数
  - 0：列
  - 1：行

经常使用的聚合操做
- sum, max, min, mean

经常使用的统计函数
- 标准差：一组数据平均值分散程度的一种度量
- 方差：统计中的方差是每一个样本值与全体样本值的平均数之差的平方值的平均数，即 mean((x-x.mean())**2。换句话说，标准差就是方差的平方根。

Pandas模块

1. 为何学习Pandas

Numpy可以帮助咱们处理的是数值型的数据，而Pandas能够帮咱们处理除数值型之外的其余类型数据，

2. Pandas的数据结构

Series
- 是一种相似于一维数组的对象，由下面两个部分组成：
  - values：一组数据（ndarray类型）
  - index：相关的数据索引标签
DataFrame
- 是一个表格型的数据结构。其既有行索引，也有列索引。
  - 行索引：index
  - 列索引：columns
  - 值：values

3. Series操做

3.1 Series的建立

index用来指定显式索引，能够加强Series的可读性。

也可使用字典做为数据源。

3.2 Series的索引和切片

3.3 Series的经常使用属性

shape
size
index
values
dtypes

3.4 Series的经常使用方法

head(), tail()
unique()
isnull(), notnull()

3.5 Series的算数运算

索引一致的元素进行算数运算不然补空

4. DataFrame操做

4.1 DataFrame的建立

可以使用 ndarray 建立。

也可使用字典做为数据源。

index 用来指定显式索引，能够加强 DataFrame 的可读性。

4.2 DataFrame索引和切片

iloc：经过隐式索引取行
loc：经过显式索引取行
对行进行切片
对列进行切片

4.3 DataFrame经常使用属性

shape
values
columns
index

4.4 DataFrame的经常使用方法

同Series

4.5 DataFrame的算数运算

同Series

4.6 DataFrame的级联和合并

级联操做

pd.concat
pd.append

接下来咱们伪造两组DataFrame数据。

使用pd.concat()

匹配级联
- 横向级联
不匹配级联
- 不匹配指的是级联的维度和索引不一致。例如纵向级联时列索引不一致，横向级联时行索引不一致。
- 有两种链接方式
  - 外链接：补NaN（默认模式）
  - 内链接：只链接匹配的项

PS：若是想要保留数据的完整性必须使用参数 join='outer'（外链接）

使用 pd.append()

只能纵向级联，而且只能外级联，不能够内级联（通常不用）。

合并操做

pd.merge()

merge 与 concat 的区别在于，merge 须要依据某一共同列来进行合并。
使用 pd.merge() 合并时，会自动根据二者相同 column 名称的那一列做为 key 来进行合并。
注意：每一列元素的顺序不要求一致

一对一合并

首先咱们来伪造两组 DataFrame。

使用 pd.merge()

一对多合并

首先咱们来伪造两组 DataFrame。

使用 pd.merge()

多对多合并

首先咱们来伪造两组 DataFrame。

使用 pd.merge()

merge()方法还可使用left_on参数和right_on参数哦，how这个参数也能够指定不一样的链接方式。

5. 基于Pandas的数据清洗

5.1 为何须要作数据清洗

原始数据中可能存在缺失值（空值）
- 这些值是没有意义的，而且会干扰咱们分析结果的产生
重复值
- 重复值是没有必要屡次分析和处理的
异常值
- 因为数据采集手段不一样等，数据中可能会产生异常值，异常值一样会干扰咱们分析结果的产生

5.2 处理缺失值

有两种缺失值：
- None
- np.nan(NaN)
两种缺失值的区别
- None：None对象类型
- np.nan：浮点型

为何在数据分析中须要用到浮点类型的空而不是对象类型的？

None+1会报 TypeError，而 np.nan+1 结果是 nan。它不会干扰或者中断运算。
NaN能够参与运算
None不能够参与运算

在Pandas中若是数据中遇到了None形式的空值则Pandas会将其强转成NaN的类型。

缺失值处理操做

咱们来伪造一组带有缺失值的数据。

方法1：对缺失值进行过滤（删除空所在的行数据）
- isnull() 搭配 any()

notnull() 搭配 all()

使用 dropna()能够直接将缺失的行或者列数据进行删除

方法2：fillna() 对缺失值进行填充

5.3 处理重复数据

咱们来伪造一组带有重复值的数据。

使用drop_duplicates()

5.4 处理异常值

异常值是什么？

异常值指的是可能会对具备实质性意义的估计产生偏见或影响，而且会增长偏差方差的值。

接下来咱们伪造一组带有异常值的数据。

而后咱们来实现异常值的清洗。

6. Pandas高级操做

6.1 替换操做

替换操做能够同步做用于Series和DataFrame中
单值替换
- 普通替换：替换全部符合要求的元素
  - to_replace=15, value='value'
- 按列指定单值替换
  - to_replace={列标签: 替换值}, value='value'
多值替换
- 列表替换
  - to_replace=[], value=[]
- 字典替换（推荐）
  - to_replace={to_replace: value, to_replace: value}

首先咱们来伪造一组DataFrame。

使用 replace()

6.2 映射操做

概念：建立一个映射关系列表，把values元素和一个特定的标签或者字符串绑定（给一个元素值提供不一样的表现形式）
map是Series的方法，只能被Series调用

首先咱们来伪造一组DataFrame。

使用 map()

例：超过3000部分的薪资缴纳50%的税，计算每一个人的税后薪资

6.3 分组聚合操做

数据分类处理的核心：
- groupby() 函数
- groups 属性查看分组状况

分组

接下里咱们伪造一组DataFrame。

使用 groupby() 和 groups

聚合

高级数据聚合

使用 groupby() 分组后，也可使用 transform() 和 apply() 提供自定义函数实现更多的运算
df.groupby('item')['price'].sum() <==> df.groupby('item')['price'].apply(sum)
transform() 和 apply() 都会进行运算，在 transform() 或者 apply() 中传入函数便可
transform() 和 apply() 也能够传入一个 lambda 表达式

6.4 数据加载

读取csv文件数据

读取数据库中的数据

matplotlib模块

matplotlib模块能够帮助咱们轻松的将数据制成图表可视化展现。

首先咱们倒入全局的模块

1. 绘制线形图

1.1 绘制单条和多条线形图

1.2 设置坐标系的比例

1.3 设置图例

1.4 设置轴的标识

1.5 图例保存

1.6 曲线的样式和风格

还有其余多种参数的样式哦，详情请见库的源代码。

2. 绘制柱状图

其他用法和线形图相似。

3. 绘制直方图

是一个特殊的柱状图，又叫作密度图。
plt.hist()的参数
- bins：能够是一个bin数量的整数值，也能够是表示bin的一个序列。默认值为10
- normed：若是值为True，直方图的值将进行归一化处理，造成几率密度，默认值为False
- color：指定直方图的颜色。能够是单一颜色值或颜色的序列。若是指定了多个数据集合，例如DataFrame对象，颜色序列将会设置为相同顺序。若是未指定，将会使用一个默认的线条颜色
- orientation：经过设置 orientation 为 horizontal 建立水平直方图。默认值为 vertical

其他用法和线形图相似。

4. 绘制饼图

pie()，饼图也只有一个参数 x
饼图适合展现各部分占整体的比例，条形图适合比较各部分的大小

其他用法和线形图相似。

5. 散点图

scatter()，因变量随自变量而变化的大体趋势

其他用法和线形图相似。

PS:欢迎提出宝贵意见，如想询问技术问题能够留言区留言或加开发人员的微信(微信号：x118422)进行咨询~