Python正迅速成为数据科学家偏心的语言,这合情合理。它拥有做为一种编程语言广阔的生态环境以及众多优秀的科学计算库。若是你刚开始学习Python,能够先了解一下Python的学习路线。python
python学习路线:https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-data-science-python/
git
在众多的科学计算库中,我认为Pandas对数据科学运算最有用。Pandas,加上Scikit-learn几乎能构成了数据科学家所需的所有工具。 本文旨在提供Python数据处理的12种方法。文中也分享了一些会让你的工做更加便捷的小技巧。github
在继续推动以前,我推荐读者阅览一些关于数据探索 (data exploration)的代码。算法
数据探索:https://github.com/typora/typora-issues/issues
数据库
为了帮助理解,本文用一个具体的数据集进行运算和操做。本文使用了贷款预测(loan prediction) 问题数据集。编程
数据集:http://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction
数组
首先我要导入要用的模块,并把数据集载入Python环境。app
import pandas as pd import numpy as np data = pd.read_csv("train.csv", index_col="Loan_ID")
如何你想用基于某些列的条件筛选另外一列的值,你会怎么作?例如,咱们想要一个所有无大学学历但有贷款的女性列表。这里可使用布尔索引。代码以下:编程语言
能够筛选出想要的信息ide
data.loc[(data["Gender"]=="Female") & (data["Education"]=="Not Graduate") & (data["Loan_Status"]=="Y"), ["Gender","Education","Loan_Status"]]
想了解更多请阅读 Pandas Selecting and Indexing
Apply是摆弄数据和创造新变量时经常使用的一个函数。Apply把函数应用于数据框的特定行/列以后返回一些值。这里的函数既能够是系统自带的也能够是用户定义的。例如,此处能够用它来寻找每行每列的缺失值个数:
#建立一个新函数: def num_missing(x): return sum(x.isnull()) #Apply到每一列: print "Missing values per column:" print data.apply(num_missing, axis=0) #axis=0表明函数应用于每一列 #Apply到每一行: print "nMissing values per row:" print data.apply(num_missing, axis=1).head() #axis=1表明函数应用于每一行
注意:第二个输出使用了head()函数,由于数据包含太多行。
想了解更多请阅读 Pandas Reference (apply)
‘fillna()’ 能够一次解决这个问题。它被用来把缺失值替换为所在列的平均值/众数/中位数。
#首先导入一个寻找众数的函数: from scipy.stats import mode mode(data['Gender'])
输出: ModeResult(mode=array([‘Male’], dtype=object), count=array([489]))
返回了众数及其出现次数。记住,众数能够是个数组,由于高频的值可能不仅一个。咱们一般默认使用第一个:
mode(data['Gender']).mode[0]
如今能够填补缺失值,并用上一步的技巧来检验。
#值替换: data['Gender'].fillna(mode(data['Gender']).mode[0], inplace=True) data['Married'].fillna(mode(data['Married']).mode[0], inplace=True) data['Self_Employed'].fillna(mode(data['Self_Employed']).mode[0], inplace=True) #再次检查缺失值以确认: print data.apply(num_missing, axis=0)
因而可知,缺失值肯定被替换了。请注意这是最基本的替换方式,其余更复杂的技术,如为缺失值建模、用分组平均数(平均值/众数/中位数)填充,会在从此的文章提到。
想了解更多请阅读 Pandas Reference (fillna)
Pandas能够用来建立 Excel式的透视表。例如,“LoanAmount”这个重要的列有缺失值。咱们能够用根据 ‘Gender’、‘Married’、‘Self_Employed’分组后的各组的均值来替换缺失值。每一个组的 ‘LoanAmount’能够用以下方法肯定:
#Determine pivot table impute_grps = data.pivot_table(values=["LoanAmount"], index=["Gender","Married","Self_Employed"], aggfunc=np.mean) print impute_grps
想了解更多请阅读 Pandas Reference (Pivot Table)
你可能注意到上一步骤的输出有个奇怪的性质。每一个索引都是由三个值组合而成。这叫作多重索引。它能够帮助运算快速进行。
延续上面的例子,如今咱们有了每一个分组的值,但尚未替换。这个任务能够用如今学过的多个技巧共同完成。
#只在带有缺失值的行中迭代: for i,row in data.loc[data['LoanAmount'].isnull(),:].iterrows(): ind = tuple([row['Gender'],row['Married'],row['Self_Employed']]) data.loc[i,'LoanAmount'] = impute_grps.loc[ind].values[0] #再次检查缺失值以确认: print data.apply(num_missing, axis=0)
注:
多重索引须要在loc中用到定义分组group的元组(tuple)。这个元组会在函数中使用。
须要使用.values[0]后缀。由于默认状况下元素返回的顺序与原数据库不匹配。在这种状况下,直接指派会返回错误。
这个功能可被用来获取关于数据的初始“印象”(观察)。这里咱们能够验证一些基本假设。例如,本例中“Credit_History” 被认为对欠款状态有显著影响。能够用下面这个二维表进行验证:
pd.crosstab(data["Credit_History"],data["Loan_Status"],margins=True)
这些数字是绝对数值。不过,百分比数字更有助于快速了解数据。咱们能够用apply函数达到目的:
def percConvert(ser): return ser/float(ser[-1]) pd.crosstab(data["Credit_History"],data["Loan_Status"],margins=True).apply(percConvert, axis=1)
如今能够很明显地看出,有信用记录的人得到贷款的可能性更高:有信用记录的人有80% 得到了贷款,没有信用记录的人只有 9% 得到了贷款。
但不只仅是这样,其中还包含着更多信息。因为我如今知道了有信用记录与否很是重要,若是用信用记录来预测是否会得到贷款会怎样?使人惊讶的是,在614次试验中咱们能预测正确460次,足足有75%!
若是此刻你在纳闷,咱们要统计模型有什么用,我不会怪你。但相信我,在此基础上提升0.001%的准确率都是充满挑战性的。你是否愿意接受这个挑战?
注:对训练集而言是75% 。在测试集上有些不一样,但结果相近。同时,我但愿这个例子能让人明白,为何提升0.05% 的正确率就能在Kaggle排行榜上跳升500个名次。
想了解更多请阅读Pandas Reference (crosstab)
当咱们有收集自不一样来源的数据时,合并数据框就变得相当重要。假设对于不一样的房产类型,咱们有不一样的房屋均价数据。让咱们定义这样一个数据框:
prop_rates = pd.DataFrame([1000, 5000, 12000], index=['Rural','Semiurban','Urban'],columns=['rates']) prop_rates
如今能够把它与原始数据框合并:
data_merged = data.merge(right=prop_rates, how='inner',left_on='Property_Area',right_index=True, sort=False) data_merged.pivot_table(values='Credit_History',index=['Property_Area','rates'], aggfunc=len)
这张透视表验证了合并成功。注意这里的 ‘values’可有可无,由于咱们只是单纯计数。
想了解更多请阅读Pandas Reference (merge)
Pandas能够轻松基于多列排序。方法以下:
data_sorted = data.sort_values(['ApplicantIncome','CoapplicantIncome'], ascending=False) data_sorted[['ApplicantIncome','CoapplicantIncome']].head(10)
注:Pandas 的“sort”函数如今已经不推荐使用,咱们用 “sort_values”函数代替。
想了解更多请阅读Pandas Reference (sort_values)
许多人可能没意识到Pandas能够直接绘制箱型图和直方图,没必要单独调用matplotlib。只须要一行代码。举例来讲,若是咱们想根据贷款状态Loan_Status来比较申请者收入ApplicantIncome:
data.boxplot(column="ApplicantIncome",by="Loan_Status")
data.hist(column="ApplicantIncome",by="Loan_Status",bins=30)
能够看出得到/未得到贷款的人没有明显的收入差别,即收入不是决定性因素。
想了解更多请阅读Pandas Reference (hist) | Pandas Reference (boxplot)
有时把数值汇集在一块儿更有意义。例如,若是咱们要为交通情况(路上的汽车数量)根据时间(分钟数据)建模。具体的分钟可能不重要,而时段如“上午”“下午”“傍晚”“夜间”“深夜”更有利于预测。如此建模更直观,也能避免过分拟合。
这里咱们定义一个简单的、可复用的函数,轻松为任意变量分箱。
#Binning: def binning(col, cut_points, labels=None): #Define min and max values: minval = col.min() maxval = col.max() #create list by adding min and max to cut_points break_points = [minval] + cut_points + [maxval] #if no labels provided, use default labels 0 ... (n-1) if not labels: labels = range(len(cut_points)+1) #Binning using cut function of pandas colBin = pd.cut(col,bins=break_points,labels=labels,include_lowest=True) return colBin #Binning age: cut_points = [90,140,190] labels = ["low","medium","high","very high"] data["LoanAmount_Bin"] = binning(data["LoanAmount"], cut_points, labels) print pd.value_counts(data["LoanAmount_Bin"], sort=False)
想了解更多请阅读 Pandas Reference (cut)
有时,咱们会面对要改动分类变量的状况。缘由多是:
- 有些算法(如罗吉斯回归)要求全部输入项目是数字形式。因此分类变量常被编码为0, 1….(n-1)
- 有时同一个分类变量可能会有两种表现方式。如,温度可能被标记为“High”, “Medium”, “Low”,“H”, “low”。这里 “High” 和 “H”都表明同一类别。同理, “Low” 和“low”也是同一类别。但Python会把它们看成不一样的类别。
- 一些类别的频数很是低,把它们归为一类是个好主意。
这里咱们定义了一个函数,以字典的方式输入数值,用‘replace’函数进行编码。
#Define a generic function using Pandas replace function def coding(col, codeDict): colCoded = pd.Series(col, copy=True) for key, value in codeDict.items(): colCoded.replace(key, value, inplace=True) return colCoded #Coding LoanStatus as Y=1, N=0: print 'Before Coding:' print pd.value_counts(data["Loan_Status"]) data["Loan_Status_Coded"] = coding(data["Loan_Status"], {'N':0,'Y':1}) print '\nAfter Coding:' print pd.value_counts(data["Loan_Status_Coded"])
编码先后计数不变,证实编码成功。
想了解更多请阅读 Pandas Reference (replace)
这不是一个常见的操做。但你总不想卡在这里吧?有时你会须要用一个for循环来处理每行。例如,一个常见的问题是变量处置不当。一般见于如下状况:
带数字的分类变量被当作数值。
(因为出错)带文字的数值变量被当作分类变量。
因此一般来讲手动定义变量类型是个好主意。如咱们检查各列的数据类型:
#检查当前数据类型: data.dtypes
这里能够看到分类变量Credit_History被看成浮点数。对付这个问题的一个好办法是建立一个包含变量名和类型的csv文件。经过这种方法,咱们能够定义一个函数来读取文件,并为每列指派数据类型。举例来讲,咱们建立了csv文件datatypes.csv。
#载入文件: colTypes = pd.read_csv('datatypes.csv') print colTypes
载入这个文件以后,咱们能对每行迭代,把用‘type’列把数据类型指派到‘feature’ 列对应的项目。
#迭代每行,指派变量类型。 #注,astype用来指定变量类型 for i, row in colTypes.iterrows(): #i: dataframe index; row: each row in series format if row['type']=="categorical": data[row['feature']]=data[row['feature']].astype(np.object) elif row['type']=="continuous": data[row['feature']]=data[row['feature']].astype(np.float) print data.dtypes
如今信用记录这一列的类型已经成了‘object’ ,这在Pandas中表明分类变量。
想了解更多请阅读Pandas Reference (iterrows)
本文中咱们介绍了多个能够帮助咱们减轻数据探索、特征工程工做负担的函数。此外,咱们也定义了一些函数,这些函数能够在不一样的数据集上复用以得到相同效果。
原文连接:https://www.analyticsvidhya.com/blog/2016/01/12-pandas-techniques-python-data-manipulation/