机器学习-Pandas 知识点汇总(吐血整理)

时间 2020-01-05

标签机器学习 pandas 知识汇总吐血整理繁體版

原文原文链接

Pandas是一款适用很广的数据处理的组件，若是未来从事机械学习或者数据分析方面的工做，我们估计70%的时间都是在跟这个框架打交道。那你们可能就有疑问了，心想这个破玩意儿值得花70%的时间吗？咱不是还有很牛逼的Tensorflow, keras,神经网络，classification等等这些牛逼的技术（词汇）都没学习呢，咋忽然冒出来一个pandas就要在机器学习中占了大部分精力去处理呢？其实啊，同窗们，什么TensorFlow， Keras，神经网络，随机森林啥的，看起来牛气哄哄的高大上的词汇，其实都是纸老虎，那些大部分都是封装的的接口，在实际应用的开发中，基本都是固定模式，主要就是调调参数而已（真正的底层算法研究的除外哈），固然这并非你懒惰的理由，你至少仍是要了解算法原理的，譬如：gradient descent，求偏导等这些基本的概念我们这些小白仍是得有滴。其实我们在机器学习的应用开发中，绝大部分是在作数据处理的工做，于是数据处理工做的质量直接就关系到我们整个应用的质量，因此这是咱们在机器学习中的重中之重，请你们务必重视，下面的每一行代码，最好你们都要有实践才行。由于Pandas的内容很是多，因此这篇博文的篇幅会很长很长。。。。。。。。。。。。哈哈，你们有点耐心哈。还有一点，这一节的内容是后面feature engineering（特征工程）的基础，大家若是有心要从事机器学习，大家也必需要吃透这节内容的每个知识点（很残酷的现实，对不对，，哈哈，逃不掉的）。算法

Dataframe 和 Series 的结构分析和建立

首先，pandas中最重要的两个组成部分就是Dataframe and series。关于Dataframe我们就能够把它当作一个table（既有row index也有column name 和 values，其本质是一个字典dictionary，具体为何，要看下文的分析）。而series比dataframe的结构还要简单，她其实就是只有一列数据，并且他的这一列仍是没有column name的，她只有这一列的values，于是在结构上series只有row index和values，series的本质是一个list，具体为何是list，也是看下面的建立过程。好了，那我们先自定义一个dataframe，以下所示：api

#dataframe allows different index other than 0,1,2,3,4
pd.DataFrame({'A':[434,54],'B':[4,56]},index = [1,2])

我们看上面建立的dataframe对象，首先，index（至关于这个table的row number）是能够自定义的，你既能够从0开始（默认），也能够从100开始，甚至能够是abc。而后这个dataframe的column name分别是“A”和“B”，这其实至关于这个字典的key值。说到这里，你们确定已经理解了，为何我上面说dataframe的本质是一个字典了。上面建立的这个dataframe的结果以下网络

     A   B
1  434   4
2   54  56

那么下面咱们来分析一下更加简单的series的结构吧，首先我们先建立一个series对象，以下所示数据结构

#create series with customerized index
pd.Series([4,5,6,7,8,23,54], index=['A','B','C','D','E','F','G'])

和dataframe同样，series也是能够自定义index，可是series没有column name，它只有values，于是能够看出，它的本质是一个list结构。她的返回结果以下app

A     4
B     5
C     6
D     7
E     8
F    23
G    54
dtype: int64

能够很明显的看出它的结构。dataframe和series是pandas的基础，尤为是他们的结构，必定要了然于胸，这是pandas这个组合拳的基本功，只有基本功扎实了，才能继续学习更加灵活和瞬息万变的新招式。框架

读写数据

机器学习，顾名思义就是让机器不断学习以前的经验和数据而后来作出预判。那么问题来了，咱们如何把咱们收集到的数据读到内存中来进行操做，学过计算机的都知道，计算机运算的时候是经过CPU对内存的数据的操做，那么咱们如何将硬盘上的数据，例如：CSV, EXCEL等等这些结构化的数据读入咱们的内存，而且转换成dataframe呢？你们不用怕，pandas已经将这一系列的io操做转换成一句代码就OK了，执行调用下面的api, 一切轻松搞定：dom

#read a csv data from locally
wine_reviews = pd.read_csv("C:\\Users\\tangx\\OneDrive\\Desktop\\DATA\\winemag-data-130k-v2.csv")

#grab the first 5 examples
wine_reviews.head()

上面代码的第一句话就是讲本地文件读出来而且转成dataframe格式赋值给wine_reviews，因为实际中的数据每每很是多，于是咱们一般只截取前5条数据进行观察，上面的第二行代码就是经过dataframe.head()的方式提取前5条数据。机器学习

经过在Spyder中打开wine_reviews变量能够看出，这个数据集一共有129971条数据，每条数据有14个特征（feature）。经过观察上面的表格能够看出，系统默认给这个dataframe加了一个从0开始的index，可是这张表原本的第一列也是从0开始而且递增的数字，所以咱们就像让这张表原本的第一列做为我们的index，或者说是row number，我们能够在加载数据的时候经过加一个参数实现，这个参数就是index_col函数

wine_reviews = pd.read_csv('C:\\Users\\tangx\\OneDrive\\Desktop\\DATA\\winemag-data-130k-v2.csv', index_col = 0)

由于数据的形式不止有CSV，也有譬如Excel等，因此pandas在读取数据的时候不止有read_csv(), 也有read_excel()等等一大堆的api供你们选择。学习

在机器学习的应用开发的过程当中，写数据并非一个经常使用的操做，想一想看也是，你总不能把内存的数据写到磁盘中再去处理计算吧，对吧？可是呢，技多不压身嘛，咱就顺便把他学习了吧，哈哈，其实也简单的跟一同样同样的，就一句代码搞定。

wine_reviews.head().to_csv("C:\\Users\\tangx\\OneDrive\\Desktop\\writedata.csv")

同理，你也能够to_excel（）等等，随便你。上面这些就是一些最基础也是最经常使用的一些数据读写功能。

Indexing and selection

根据上面的结构分析，我们能够看出dataframe就是一个table，那么既然是table，在一些应用场景就确定会有一些需求是获取某一个元素，某一行或者某一列的数据，那么这里就须要用到pandas里面的index和selection了。首先，我们先介绍2中经常使用的index的方法，他们分别是dataframe.loc[] 和 dataframe.iloc[]. 注意这里有一个小细节，index并非函数方法，我们都是用的方括号[],而不是括号()。那么他们究竟是什么意思呢？我们先看一下下面的代码，我们先随机创造一个8*4的dataframe，它的index和column分别是日期和["A","B","C","D"]。代码以下：

import numpy as np
#help(pd.date_range)
dates = pd.date_range('1/1/2000',periods = 8) #create date from 2000-01-01 to 2000-01-07
df = pd.DataFrame(np.random.randn(8,4), index = dates, columns = ['A','B','C','D']) #assign index and columns to the dataframe

它的返回结果以下

                   A         B         C         D
2000-01-01 -1.148187  1.584064 -0.589693 -1.403843
2000-01-02 -1.310810 -0.920240 -2.752621  0.913722
2000-01-03 -0.049943  1.280664 -0.353257 -0.023290
2000-01-04 -0.359402  0.350923 -0.455901 -1.747723
2000-01-05 -0.880048 -0.780842 -0.351765 -1.596586
2000-01-06  1.106137  0.419967 -0.409990 -0.513611
2000-01-07  1.348941  1.557287  0.416174 -1.270166

如今咱们就来瞧一瞧如何用loc[] 和 iloc[]。场景一：若是咱们要取这个dataframe的第一行第一列的元素，我们怎么取呢？我们分别用loc[] 和 iloc[]来演示一下：

df.loc['2000-01-01','A']
df.iloc[0,0]

你们看出了什么名目了没有？？？loc[row, column]和iloc[row_index, column_index] 能够达到一样的效果,均可以查找到指定的数据，上面代码返回的数据都是-1.148187。

场景二：如何获取某一行的数据（例如第二行），我们能够直接以下所示的两种方法获取

df.loc['2000-01-01']# returns the first row the the dataframe in the form of series
df.iloc[0]# returns the first row the the dataframe in the form of series

看看我上面颇有逼格的英文注释，你们应该也能理解，他们都是返回第一行数据，可是他们的格式是series，而不是list，这一点你们须要注意哈。打印他们后的格式以下所示

A   -1.148187
B    1.584064
C   -0.589693
D   -1.403843
Name: 2000-01-01 00:00:00, dtype: float64

既然他是series，固然啦，你也能够调用一个很是方便的series的api

场景三：如何获取某一列的数据（例如第二列），国际惯例，咱仍是能够经过下面的三种种不一样的方式获取获取

s = df['B']#return a series corresponding the the column labelled 'B'
df.iloc[:,1]
df.loc[:,"B"]

前面我们已经解释了，其实dataframe的本质能够当作一个dictionary，于是上述第一种的方式是至关于直接经过key值来获取第二列数据。上面的第二第三种方式是经过loc和iloc的方式来获取的。若是你们有看我以前的介绍Numpy的文章，你们确定能知道iloc[]其实和Numpy里面的index几乎如出一辙啦。对了，上面代码仍是忘记了一种获取一列的经常使用代码，就是dot operation. 其实很简单就是直接用df.B 这一行代码，也能够得到和上面代码同样的效果。上面代码的执行结果以下：

2000-01-01   -1.148187
2000-01-02   -1.310810
2000-01-03   -0.049943
2000-01-04   -0.359402
2000-01-05   -0.880048
2000-01-06    1.106137
2000-01-07    1.348941
2000-01-08    0.376379
Freq: D, Name: A, dtype: float64

场景四：slicing，分割。意思就是分割dataframe的一部分。例如从第一行到第三行（不包括）第二列到第四列（包括）。在这种场景下，它的参数形式和Numpy几乎是同样的，以下所示

df.loc['2000-01-01':'2000-01-02','B':'D']
df.iloc[0:2,1:4]

从上面能够看出，在slicing的时候，loc[]是既包括开始也包括结尾的index的（简单来讲就是包头也包尾巴），而iloc[]的索引方式是只包括开始的index不包括结尾的index（简单归纳就是包头不包尾，这其实也是大部分slicing的方式）。这一点是他们两种方式的一点细微不一样。上面两行代码的返回值是彻底同样的，以下所示：

                   B         C         D
2000-01-01  1.584064 -0.589693 -1.403843
2000-01-02 -0.920240 -2.752621  0.913722

返回的也是一个dataframe。

数据类型（Data type）

咱们知道dataframe是一张数据表，既然这张表里面装的都是数据，那就确定有不一样的数据类型，例如字符串，int，float，boolean等等。在正式进入到数据训练以前，咱内心必需要清楚的知道这些数据的类型。这里须要知道的一点是虽然dataframe里面的数据的类型多是千奇百怪的，可是每一列的数据都只有一种类型。第一我们来看看经过什么api来获取每一列的数据类型。

#grab all the columns data type
all_column_types = wine_reviews.dtypes

她的返回结果是一个series，以下所示

country                   object
description               object
designation               object
points                     int64
price                    float64
province                  object
region_1                  object
region_2                  object
taster_name               object
taster_twitter_handle     object
title                     object
variety                   object
winery                    object
dtype: object

第二个应用场景是获取某一列的数据类型（例如我们想知道price的数据类型），我们能够经过下面的方式得到它的数据类型

#grab the type of a column in a dataframe
column_type = wine_reviews.price.dtype

它的返回结果是

dtype('float64')

还有一个我们常常要用到的功能是获取dataframe的index和column的名字，我们能够经过下面的代码分别获取到dataframe的index和colum

wine_reviews.index
wine_reviews.columns

她的返回结果是Index的对象，而不是list的对象，这个细节你们须要注意一下。

最后一个我们常常须要用到的关于数据类型的功能就是类型转化了（convert，偶尔来个洋文装个逼，哈哈）。在实际操做中，我们须要常常用到将字符串或者bool型的数据转化成INT或者float等，才能在机器学习中进行计算，偏偏我们获取的数据还大部分不是int或者float，因此类型转化的应用频率仍是很是高的，下面来演示一个将整型int类型转化成float类型的例子

#convert a column data type to another type with astype function
wine_reviews.points.astype('float',copy = False)

astype()函数将原来的dataframe中的price的int类型所有转化成了float型。这里我们就先演示这个简单的例子，而不去演示将string转化成int的例子，由于那涉及到了特征工程（feature engineering）的内容，我们在后面须要花大篇幅讲的，我们这里先卖个关子。因此关于数据类型方面的知识，pandas中主要就是以上的一些方法，这些方法的最终目的其实都是帮助咱们更加深入的理解我们的数据，至关于打一个辅助。哈哈

calculation functions (翻译过来应该叫作计算函数)

calculation function听起来还挺高大上的，其实就是pandas的API提供的一系列很是方便的操做函数，例如能够直接获取一个series的中位数，平均数，最大最小数等等这些常见的计算。其实为了你们的方便，我已经把一些常常用到的函数总结在下面了，每个函数都有对应的英文注释。这篇文章若是能看到这里，我相信大家确定能知道每个函数的做用。这里我就不作细节的解释了。

#returns the max value in the series of points
wine_reviews.points.max()

#returns the minimun value in the series of points
wine_reviews.points.min()

#median value of a series(colum
median_points = wine_reviews.points.median()

#mean value of a series(column)
mean_points = wine_reviews.points.mean()

#the index of maximun value in the column
index_max = wine_reviews.points.idxmax()

#the counts of each value in a series, return a series
value_counts = wine_reviews.country.value_counts()

#returns an np array, which includes all the value in a series, and excludes duplicates.
countries = wine_reviews.country.unique()

#returns the counts of each value in series,exclude duplicates
countries_number = wine_reviews.country.nunique()

Apply 和 Map

其实apply和map很像，不少初学者很容易将他们混淆，其实他们有一个很明显的不一样点，那就是apply一般是element-wise的而且运用于整个dataframe，而map一般也是element-wise的而且应用于series的。而且apply的参数只能是函数function，而map的参数既能够是function也能够是dictionary和series。固然啦，series也能够调用apply，可是这一般都是在一些对series进行很复杂的运算的的时候才会调用。记住，不管是apply或者map的参数function，均可以是匿名函数。下面先介绍一下map的应用。

def isIndia(country):
    if country == 'India':
        return True
    else:
        return False
india = wine_reviews.country.map(isIndia)

上面的就是先定义一个函数来判断它的参数是否是等于"India“, 当你用map来调用这个函数的时候，就会把series中的每个element都做为参数来传递给isIndia（）函数，而后用isIndia（）函数返回的每个值来替代原来的相对应的值。最后india的值以下：

0         False
1         False
2         False
3         False
4         False
 
129966    False
129967    False
129968    False
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

从上面的返回值能够看出来，它返回的也是一个series。为了实现上面的需求，咱也有另一个方式来实现，那就是直接将匿名函数做为参数传递给map（）函数。说实话，匿名函数虽然看起来比较牛逼高大上，可是实际中我缺不喜欢用，由于她的可读性和可维护性都不如上面的这种定义函数名的方式。可是为了能显现咱牛逼，咱仍是掌握一下比较好，省得到时候看不懂被同组的同事鄙视。哈哈。。。。下面就是用匿名函数的方式实现上面的功能：

US = wine_reviews.country.map(lambda country: True if country == 'US' else False)

先来解释一下匿名函数，上面lambda关键字就是先声明一个匿名函数，紧接着就是这个匿名函数的参数，一个冒号：后面的就是函数体啦。

上面经过一个实例展示了map的一些用法，应该是很简单的，那么接下来来看看dataframe的apply（）函数了。apply（）函数其实和map（）是很是类似的，dataframe调用apply的时候，能将dataframe的所用元素都做为参数传递给apply（）里的参数函数，而后逐一的返回结果。她的结果仍是一个dataframe。下面展现一个稍微复杂一点的状况，就是将一个含有多个参数的函数传递给apply（）。

def substract_custom_value(x,custom_value):
    return x-custom_value
s.apply(substract_custom_value, args = (5,))

看到虽然substract_custom_value函数有两个参数，当dataframe调用apply的时候，默认将dataframe的element做为第一参数传递给substract_custom_value函数，而args的第一个元素做为第二参数传递给substract_custom_value函数，以此类推。你们千万不要讲参数的数量和顺序弄混了。上面代码的返回结果是讲s里面的每个元素减去5。

Grouping

Grouping也是数据科学中常常用到的一个很重要的功能特性。grouping是讲dataframe按照必定的条件分割成几个小的“dataframe”，这里为何会用一个双引号呢，是由于grouping之后获得的并非一个个dataframe类型的数据结构，其真正的类型是core.groupby.groupby.DataFrameGroupBy，于是，为了我们理解它，我们能够把它当作“dataframe”。由于它不是真正的dataframe，因此不少dataframe的API它是不能调用的。这一点是须要重视的。下面我们来看看一个简单的案例

group_by_points = wine_reviews.groupby('points')

上面的一行简单的代码，就讲wine_reviews这个dataframe分割成不少的“小dataframe”——core.groupby.groupby.DataFrameGroupBy，它内部会将相同points的数据整合（group）起来做为一个个小总体，最后会返回不少的这些小总体。接下来我们能够对这些小的“dataframe”进行不少相似dataframe的操做，例如对他们的series（其实是core.groupby.generic.SeriesGroupBy）进行不少的calculation function，就像正常的dataframe那样。例以下面的这个实例，返回的数据可以很清晰的看出group的结构

wine_reviews.groupby('points').country.value_counts()

为了方便看看DataFrameGroupBy的結構,我们能够直接打印它的结果

points  country  
80      US           157
        Spain         78
        Argentina     76
        Chile         50
        France        15

100     France         8
        Italy          4
        US             4
        Portugal       2
        Australia      1
Name: country, Length: 463, dtype: int64

咱们从上面的结构能够看出group将相同points的数据整理在一块儿造成了一个个小的数据块。

同时，为了更加精细化的控制，咱们常常用到应用多个条件（conditions）来group，例如，对于dataframe wine_reviews, 我们能够根据country和Provice两个conditions来进行group，以下所示

multiple_column_group = wine_reviews.groupby(['country','province'])

上面的代码结果就是，即便是同一个country，不一样的province也是同属于不一样的group，它是multiple index，而不像上面一个condition那样，只有一个index（group中的index就是你group的那一列，而不是原来的index了）。于是能够实现更加精细化的控制了，我们来打印每个group的points的value counts，其结果以下所示

multiple_column_group.points.value_counts()

country    province          points
Argentina  Mendoza Province  87        400
                             86        353
                             85        349
                             84        346
                             88        319

Uruguay    Uruguay           89          2
                             91          2
                             81          1
                             82          1
                             86          1
Name: points, Length: 2914, dtype: int64

上面都是分析了group后的一些数据的结构，那么这里有一个问题，如何将group转换回去成为普通的dataframe呢？答案固然是pandas都给咱提供了简单易用的API啦，简简单单一句话，所有搞定，好了，直接看下面代码

regular_index_dataframe =multiple_column_group.reset_index(drop = True)

上面一句easy的代码，就都OK啦，因此你有时候不得不佩服pandas的强大。。。。

Missing values

在后面的feature engineering中我会单独好好讲讲missing value，它其实涉及到的知识点仍是不少的，这里就先介绍一下他的基本概念和基础简单的API，方便你们理解，也是为后面真正的特征工程打一个基础吧。好了，废话很少说，咱直接进入主题了。所谓的missing value 你们都知道，实际中搜寻和挖掘数据的过程当中，常常会有一些数据丢失或者说是缺失，这些数据有可能会影响我们的最终模型结果。因此在训练模型以前，咱们有必要先对一些缺失的数据进行处理和修正。首先我们得知道某一列中是否是有缺失的数据null，我们能够经过以下的方式得到

is_country_nan = wine_reviews.country.isnull() #returns the masks of the series, which valued true if a nan value

上面的函数返回一个series，这个series是一个mask，即若是这条数据的country是空的话，那么返回True, 不然返回False。以下所示

0         False
1         False
2         False
3         False
4         False
 
129966    False
129967    False
129968    False
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

上面只是知道哪些数据的country是空，那么如何将他们选出来呢？放心，pandas已经为我们光大的人民群众考虑好啦，以下因此，一句代码全搞定

#to select nan entries by passing a series of boolean value as a parameters
nan_country_instances = wine_reviews[is_country_nan]

直接将上面返回的mask传给dataframe，它就返回了全部country是空的数据。

那么既然找到了一些country为空的数据，我们如何replace这些空的值呢，例如将这些空值NaN都替换成“Unknow”.pandas就是为我们光大屌丝着想哈，都给咱安排的妥妥的了，以下所示

#replace NaN to other values
fill_nan_country = wine_reviews.country.fillna('Unknow')

总结：国际惯例，最后来个大总结哈。上面从pandas的两个基本组成部分dataframe和series的建立和结构分析开始一直到pandas的一个比较高级和经常使用的API应用，我们能够基本的了解pandas的应用技巧和方法了。对于历来没有接触过pandas和机器学习的小白来讲，想完全的理解上面的内容和方法，仍是比较困难的（牛逼的高智商除外）。因此你跟我等凡人同样，想能熟练的运用pandas和深入的理解它的结构，必需要用不少的实践和思考，至少把上面的代码要逐一敲出来而且正确的运行出来，才能算是初步的入门。这也是之后要学习特征工程的基础，若是你把上面的内容都消化了，足够你应对机器学习方面用到pandas知识点，其实也就那么回事，在战略上，我们要藐视它。后面要学习的feature engineering（特征工程）才是我们学习机器学习的核心，因此这一节的基础你们务必夯实。