kaggle数据挖掘竞赛初步--Titanic<原始数据分析&缺失值处理>

时间 2019-11-16

标签 kaggle 数据挖掘竞赛初步 titanic 原始数据分析缺失处理繁體版

原文原文链接

Titanic是kaggle上的一道just for fun的题，没有奖金，可是数据整洁，拿来练手最好不过啦。html

这道题给的数据是泰坦尼克号上的乘客的信息，预测乘客是否幸存。这是个二元分类的机器学习问题，可是因为数据样本相对较少，在当时慌乱的状况下幸存者有必定的随机性，仍是有必定挑战的。https://www.kaggle.com/c/titanic-gettingStarted/ git

一载入数据github

首先，咱们要先看一看数据，分析数据的一些较为直观的特征。代码使用numpy pandas和scikit-learn。算法

1 import numpy as np
2 import pandas as pd
3 #read data from train.csv
4 df = pd.read_csv('train.csv',header=0)
5 df.info()

read_csv函数读入csv文件返回一个DataFrame对象，每一列都依据读入的数据肯定其类型，int64 object诸如此类。df.info()显示原始数据属性的基本信息，df.describe()则显示属性的一些统计信息，好比均值方差等。网络

ps:Pclass属性表明船舱等级，1-一等舱，2-二等舱，3-三等舱，从必定程度上反应了这个乘客经济状况和社会地位。dom

从基本的数据信息能够看到，Age Carbin Emarked属性有缺失值，须要后续处理；有5个属性是字符串类型的，而sklearn只能处理数字类型的数据，若是不用这些属性显然会丢掉一些可能有价值的信息，因此须要用必定的方法将这些值转为数据。从统计数据中能够看出，有38.3%的幸存率。通常来说，女性孩子和高社会阶层的人更有可能幸存下来，能够用代码分析一下这个假设成不成立。机器学习

对于女性幸存率：函数

1 x=[df[(df.Sex=='male')]['Sex'].size,df[(df.Sex=='female')]['Sex'].size]
2 y=[df[(df.Sex=='male') & (df.Survived == 1)]['Sex'].size,\
3    df[(df.Sex=='female') & (df.Survived == 1)]['Sex'].size]
4 print 'male number:'+str(x[0])+'    '+'female number:'+str(x[1])
5 print 'male survive:'+str(y[0])+'    '+'female survive:'+str(y[1])

能够看出75%的女性幸存。学习

对于Age和Pclass分析也获得相近的结果。spa

二缺失值处理

一些机器学习算法可以处理缺失值，好比神经网络，一些则不能。对于缺失值，通常有如下几种处理方法：

（1）若是数据集不少，但有不多的缺失值，能够删掉带缺失值的行

（2）若是该属性相对学习来讲不是很重要，能够对缺失值赋均值或者众数。好比在哪儿上船Embarked这一属性（共有三个上船地点），缺失俩值，能够用众数赋值

1 #replace missing values with mode
2 df.Embarked[df.Embarked.isnull()] = df.Embarked.dropna().mode().values

（3）对于标称属性，能够赋一个表明缺失的值，好比‘U0’。由于缺失自己也可能表明着一些隐含信息。好比船舱号Cabin这一属性，缺失可能表明并无船舱。

1 #replace missing value with U0
2 df.Cabin[df.Cabin.isnull()]='U0'

（4）使用回归随机森林等模型来预测缺失属性的值。由于年龄在该数据集里是一个至关重要的特征，因此保证必定的缺失值填充准确率是很是重要的，对结果也会产生较大影响。通常状况下，会使用数据完整的条目做为模型的训练集，以此来预测缺失值。对于当前的这个数据，可使用随机森林来预测也可使用线性回归预测。我使用的是随机森林预测模型，选取当期数据集中的数值属性做为特征（由于sklearn的模型只能处理数值属性阿，固然后面会把其余属性都处理成数值属性，而后就能够更新这块预测年龄的代码啦）。

 1     #choose training data to predict age
 2     age_df = df[['Age','Survived','Fare', 'Parch', 'SibSp', 'Pclass']]
 3     age_df_notnull = age_df.loc[(df.Age.notnull())]
 4     age_df_isnull = age_df.loc[(df.Age.isnull())]
 5     X = age_df_notnull.values[:,1:]
 6     Y = age_df_notnull.values[:,0]
 7     #use RandomForestRegressor to train data
 8     rfr = RandomForestRegressor(n_estimators=1000,n_jobs=-1)
 9     rfr.fit(X,Y)
10     predictAges = rfr.predict(age_df_isnull.values[:,1:])
11     df.loc[(df.Age.isnull()),'Age'] = predictAges

完整代码： https://github.com/cindycindyhi/kaggle-Titanic

特征工程系列：

Titanic系列之原始数据分析和数据处理

Titanic系列之数据变换

Titanic系列之派生属性&维归约