小白学 Python 数据分析（7）：Pandas （六）数据导入

import pandas as pd

df = pd.read_excel("result_data.xlsx")
print(df)

# 输出内容
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]
复制代码

由于小编这里的 Excel 就放在代码的同级目录，因此直接写文件名便可，接下来演示绝对路径。

因为小编的操做系统是 Windows 的操做系统，文件路径默认是使用 \ ，如 D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx ，咱们在直接使用 Windows 的文件路径的时候须要在前面增长一个 r （转义符）避免路径中的 \ 被转义，以下：

import pandas as pd
df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx")
print(df)

# 输出内容
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]
复制代码

固然，若是不想使用这个转义符 r 也行，这样须要修改下文件的路径，将全部的 \ 变成 / ，这个规则适用于其余全部的文件路径操做，示例以下：

import pandas as pd
df = pd.read_excel("D:/Development/Projects/python-learning/python-data-analysis/pandas-demo/result_data.xlsx")
print(df)

# 输出内容
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]
复制代码

出于使用简单考虑，小编推荐直接在路径前面加 r ，剩下的文件路径直接使用 CV 大法就好。

指定导入 Sheet

咱们在使用 Excel 导入的时候，除了能够指定文件路径，还能够选择导入的 Sheet ，若是不知道 Sheet 是什么的同窗，建议出门左转。

在设置 Sheet 的时候，咱们使用参数 sheet_name 来完成，示例以下：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name='result_data')
print(df)

# 输出结果
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]
复制代码

若是咱们要使用一个彻底不存在的 Sheet 名称会发生什么事情呢？例如咱们将上面的 sheet_name 修改成 aaa ，来看下：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name='aaa')
print(df)

# 输出结果
Traceback (most recent call last):
  File "C:\Users\inwsy\AppData\Local\Programs\Python\Python37\lib\site-packages\xlrd\book.py", line 474, in sheet_by_name
    sheetx = self._sheet_names.index(sheet_name)
ValueError: 'aaa' is not in list

During handling of the above exception, another exception occurred:
复制代码

能够看到这里抛出了 ValueError 的异常，而且提示 aaa 不在列表中。

在指定 Sheet 名称的时候除了可使用 Sheet 的具体名称，还可使用 Sheet 的顺序，须要注意这个顺序开头是从 0 开始的。

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0)
print(df)

# 输出结果
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
403    juejin       212         0        -1         2 2020-02-20 23:00:02
404      csdn      1602         1         0         1 2020-02-20 23:00:01
405    cnblog        19         0        41         0 2020-02-21 23:00:05
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02

[408 rows x 6 columns]
复制代码

若是这里指定的顺序是一个不存在的顺序，同样会抛出异常 IndexError ，这里小编就不作演示了。

指定导入行索引

咱们在导入文件的时候，行索引默认是会使用从 0 开始的默认索引，若是对行索引有需求的话，可使用 index_col 参数来设置行索引。

好比咱们如今设置 create_date 这个参数做为行索引，注意参数起始从 0 开始：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, index_col=5)
print(df)

# 输出结果
                    plantform  read_num  fans_num  rank_num  like_num
create_date                                                          
2019-11-23 23:00:10    cnblog       215         0       118         0
2019-11-23 23:00:03    juejin       177         0        -2         1
2019-11-23 23:00:02      csdn      1652        69         0        24
2019-11-22 23:00:15    cnblog       650         3       191         0
2019-11-22 23:00:02    juejin       272         3       -23         1
...                       ...       ...       ...       ...       ...
2020-02-20 23:00:02    juejin       212         0        -1         2
2020-02-20 23:00:01      csdn      1602         1         0         1
2020-02-21 23:00:05    cnblog        19         0        41         0
2020-02-21 23:00:02    juejin       125         1        -4         0
2020-02-21 23:00:02      csdn      1475         8         0         3

[408 rows x 5 columns]
复制代码

指定导入列索引

同行索引同样，默认也是采用源数据的第一行做为列索引，一样，咱们能够经过 header 进行列索引的设置， header 的默认参数为 0 ，也就是第一行，自定义可使用其余行，将行号做为参数传入便可，咱们演示一下使用第二行做为索引：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, header=1)
print(df)

# 输出结果
     cnblog   215    0  118  0.1 2019-11-23 23:00:10
0    juejin   177    0   -2    1 2019-11-23 23:00:03
1      csdn  1652   69    0   24 2019-11-23 23:00:02
2    cnblog   650    3  191    0 2019-11-22 23:00:15
3    juejin   272    3  -23    1 2019-11-22 23:00:02
4      csdn  2202  129    0   37 2019-11-22 23:00:01
..      ...   ...  ...  ...  ...                 ...
402  juejin   212    0   -1    2 2020-02-20 23:00:02
403    csdn  1602    1    0    1 2020-02-20 23:00:01
404  cnblog    19    0   41    0 2020-02-21 23:00:05
405  juejin   125    1   -4    0 2020-02-21 23:00:02
406    csdn  1475    8    0    3 2020-02-21 23:00:02

[407 rows x 6 columns]
复制代码

指定导入行数

有时候，若是咱们只须要了解一下这个文件中有些什么数据，那么咱们就不须要导入全部的数据，可使用 nrows 来指定导入的行数，这里咱们选择导入 Excel 的前 100 行：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, nrows=100)
print(df)

# 输出结果
   plantform  read_num  fans_num  rank_num  like_num         create_date
0     cnblog       215         0       118         0 2019-11-23 23:00:10
1     juejin       177         0        -2         1 2019-11-23 23:00:03
2       csdn      1652        69         0        24 2019-11-23 23:00:02
3     cnblog       650         3       191         0 2019-11-22 23:00:15
4     juejin       272         3       -23         1 2019-11-22 23:00:02
..       ...       ...       ...       ...       ...                 ...
95      csdn      1492        88         0        13 2019-10-23 23:51:37
96    cnblog      1338         2       219         0 2019-10-22 23:33:33
97    juejin       204         1        -6         6 2019-10-22 23:18:19
98      csdn      1064        61      7094        18 2019-10-22 23:18:08
99    cnblog      -493         1        69         0 2019-10-21 22:38:32

[100 rows x 6 columns]
复制代码

从结果的数据统计，能够看到咱们成功的导入了前 100 行的数据，虽然行索引只有 99 ，是由于么咱们 Excel 的头也占了一行。

指定导入列

有时候，咱们的 Excel 中的列太多了，而咱们处理的数据又不须要那么多列的时候，咱们可使用 usecols 来指定咱们须要导入的列：

import pandas as pd

df = pd.read_excel(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.xlsx", sheet_name=0, usecols=[0, 1, 2])
print(df)

# 输出结果
    plantform  read_num  fans_num
0      cnblog       215         0
1      juejin       177         0
2        csdn      1652        69
3      cnblog       650         3
4      juejin       272         3
..        ...       ...       ...
403    juejin       212         0
404      csdn      1602         1
405    cnblog        19         0
406    juejin       125         1
407      csdn      1475         8

[408 rows x 3 columns]
复制代码

注意这里的 usecols 的参数是一个数组，表示咱们将要导入的列。

CSV 数据导入

前面咱们介绍了如何导入 Excel 的数据，咱们接着介绍如何导入 CSV 的数据，首先仍是使用 read_csv 导入 CSV 的文件：

import pandas as pd

df = pd.read_csv(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.csv")
print(df)

# 输出结果
    plantform  read_num  fans_num  rank_num  like_num          create_date
0      cnblog       215         0       118         0  23/11/2019 23:00:10
1      juejin       177         0        -2         1  23/11/2019 23:00:03
2        csdn      1652        69         0        24  23/11/2019 23:00:02
3      cnblog       650         3       191         0  22/11/2019 23:00:15
4      juejin       272         3       -23         1  22/11/2019 23:00:02
..        ...       ...       ...       ...       ...                  ...
403    juejin       212         0        -1         2   20/2/2020 23:00:02
404      csdn      1602         1         0         1   20/2/2020 23:00:01
405    cnblog        19         0        41         0   21/2/2020 23:00:05
406    juejin       125         1        -4         0   21/2/2020 23:00:02
407      csdn      1475         8         0         3   21/2/2020 23:00:02

[408 rows x 6 columns]
复制代码

能够看到，和上面的 Excel 导入的数据保持一致，只是后面的时间日期类型格式化有点区别。

其他的操做和上面介绍的 Excel 是同样的，这里就不一一列举了，有一个须要注意的点是，编码格式的指定，这时咱们须要设置 encoding 参数，若是不作设置，那么默认的指定格式是 utf-8 的，由于经常使用的格式除了 utf-8 还会有 gbk 、 gb2312 等等。

import pandas as pd

# 指定编码格式
df = pd.read_csv(r"D:\Development\Projects\python-learning\python-data-analysis\pandas-demo\result_data.csv", encoding='utf-8')
print(df)

# 输出结果
    plantform  read_num  fans_num  rank_num  like_num          create_date
0      cnblog       215         0       118         0  23/11/2019 23:00:10
1      juejin       177         0        -2         1  23/11/2019 23:00:03
2        csdn      1652        69         0        24  23/11/2019 23:00:02
3      cnblog       650         3       191         0  22/11/2019 23:00:15
4      juejin       272         3       -23         1  22/11/2019 23:00:02
..        ...       ...       ...       ...       ...                  ...
403    juejin       212         0        -1         2   20/2/2020 23:00:02
404      csdn      1602         1         0         1   20/2/2020 23:00:01
405    cnblog        19         0        41         0   21/2/2020 23:00:05
406    juejin       125         1        -4         0   21/2/2020 23:00:02
407      csdn      1475         8         0         3   21/2/2020 23:00:02

[408 rows x 6 columns]
复制代码

由于小编这里的编码格式是 utf-8 ，因此这里对编码格式的设置是 encoding='utf-8' 。

导入数据库数据

数据库有不少种，在链接数据库的时候须要使用不一样的驱动，由于小编这里使用的 MySQL 数据库，因此使用的驱动为 pymsql ，在使用的事情须要先建立数据库链接。

import pymysql

con = pymysql.connect(host='',
                         port=,
                         user='',
                         password='',
                         db='',
                         charset='')
复制代码

这里的参数须要各位自行填写，用来配置 MySQL 链接的参数。

配置好数据库链接之后，咱们使用的是 read_sql 这个方法直接执行 sql 语句获取数据，完整的代码以下：

import pandas as pd
import pymysql

con = pymysql.connect(host='',
                         port=,
                         user='',
                         password='',
                         db='',
                         charset='')

sql = 'select * from result_data'

df = pd.read_sql(sql, con)
print(df)

# 输出结果
    plantform  read_num  fans_num  rank_num  like_num         create_date
0      cnblog       215         0       118         0 2019-11-23 23:00:10
1      juejin       177         0        -2         1 2019-11-23 23:00:03
2        csdn      1652        69         0        24 2019-11-23 23:00:02
3      cnblog       650         3       191         0 2019-11-22 23:00:15
4      juejin       272         3       -23         1 2019-11-22 23:00:02
..        ...       ...       ...       ...       ...                 ...
406    juejin       125         1        -4         0 2020-02-21 23:00:02
407      csdn      1475         8         0         3 2020-02-21 23:00:02
408    cnblog        56         0        33         0 2020-02-22 23:00:06
409    juejin        83         0        -1         0 2020-02-22 23:00:02
410      csdn      2094        10         0         4 2020-02-22 23:00:02

[411 rows x 6 columns]
复制代码

这里的结果比前面的 Excel 多几行是由于时间关系，Excel 导出的时间稍微早了一点。

简单使用

当咱们获取到数据之后，在来几个咱们前面介绍过的简单操做。

使用 head 预览前几行数据：

print(df.head(5))

# 输出结果
  plantform  read_num  fans_num  rank_num  like_num         create_date
0    cnblog       215         0       118         0 2019-11-23 23:00:10
1    juejin       177         0        -2         1 2019-11-23 23:00:03
2      csdn      1652        69         0        24 2019-11-23 23:00:02
3    cnblog       650         3       191         0 2019-11-22 23:00:15
4    juejin       272         3       -23         1 2019-11-22 23:00:02
复制代码

获取数据表的大小，这里使用的是 shape ：

print(df.shape)

# 输出结果
(411, 6)
复制代码

获取数值分布，使用 describe()：

print(df.describe())

# 输出结果
           read_num    fans_num      rank_num    like_num
count    411.000000  411.000000    411.000000  411.000000
mean     521.199513    9.111922    234.632603    4.347932
std     2899.915738   19.021352   1437.427594    7.829470
min   -54600.000000   -1.000000    -25.000000    0.000000
25%       83.500000    0.000000     -1.000000    0.000000
50%      288.000000    2.000000      0.000000    1.000000
75%      788.000000    7.000000     38.000000    5.000000
max     7083.000000  129.000000  21720.000000   57.000000
复制代码

本次的分享先到这里了，由于最近都没写原创，本篇内容稍微长了点，但愿各位同窗仍是能耐着性子本身写写代码，文章中相关涉及到的文件都上传代码仓库了，有须要的同窗能够自行取用。

示例代码

老规矩，全部的示例代码都会上传至代码管理仓库 Github 和 Gitee 上，方便你们取用。

示例代码-Github

示例代码-Gitee

若是个人文章对您有帮助，请扫码关注下做者的公众号：获取最新干货推送：）