pandas

首先导入相关模块并加载数据集到 Python 环境中:python

import pandas as pd
import numpy as np
data = pd.read_csv("train.csv", index_col="Loan_ID")git

#1 – 布尔索引

若是须要以其它列数据值为条件过滤某一列的数据,您会怎么处理?例如创建一个列表,列表中所有为未能毕业但曾得到贷款的女性。这里可使用布尔索引,代码以下:github

 

1.-boolean-indexing

#2 – Apply 函数

Apply 函数是处理数据和创建新变量的经常使用函数之一。在向数据框的每一行或每一列传递指定函数后,Apply 函数会返回相应的值。这个由 Apply 传入的函数能够是系统默认的或者用户自定义的。例如,在下面的例子中它能够用于查找每一行和每一列中的缺失值。算法

#Create a new function:
def num_missing(x):
return sum(x.isnull())数组

#Applying per column:
print "Missing values per column:"
print data.apply(num_missing, axis=0) #axis=0 defines that function is to be applied on each columnapp

#Applying per row:
print "nMissing values per row:"
print data.apply(num_missing, axis=1).head() #axis=1 defines that function is to be applied on each row框架

这样咱们就获得了所需的结果。ide

注:因为输出结果包含多行数据,第二个输出函数使用了 head() 函数以限定输出数据长度。在不限定输入参数时 head() 函数默认输出 5 行数据。函数

#3 – 填补缺失值

fillna() 函数可一次性完成填补功能。它能够利用所在列的均值/众数/中位数来替换该列的缺失数据。下面利用“Gender”、“Married”、和“Self_Employed”列中各自的众数值填补对应列的缺失数据。测试

相关文章
相关标签/搜索
本站公众号
   欢迎关注本站公众号,获取更多信息