人工智障也刷题！Kaggle 入门之实战泰坦尼克号

时间 2019-12-01

标签人工智障 kaggle 入门实战繁體版

原文原文链接

背景

关于 Kaggle

www.kaggle.com/
这是一个为你提供完美数据，为你提供实际应用场景，能够与小伙伴在数据挖掘领域 high 的不要不要的的地方啊！！！

Kaggle 是一个用来学习、分享和竞赛的线上数据实验平台，有点相似 KDD—CUP（国际知识发现和数据挖掘竞赛），企业或者研究者能够将背景、数据、指望指标等发布在 kaggle 上，用竞赛的方式向全世界的数据科学家和爱好者寻求解决方案。热爱数（dong）据（shou）挖（zhe）掘（teng）的小伙伴们能够下载/分析数据，使用统计/机器学习/数据挖掘等方面的知识，创建算法模型，得出结果并提交，排名靠前可能还会有奖励哦！前端

关于泰坦尼克号之灾

www.kaggle.com/c/titanicpython

问题背景页

下载 Data 的页面

泰坦尼克号问题背景
就是你们从小到大被洗脑的“u jump I jump”的「jack 和 rose」的故事了。游艇在撞击了一个冰山后沉没了。乘客们都惶恐不安，副船长「lady and kid first」，因此模型不会向抛硬币那样看脸决定你是否获救。而是有着必定背景的，至于出了女士和孩子优先，还有哪些值得咱们考虑，这就是稍后咱们在特征工程中解决的问题了。
训练和测试数据是一些乘客的我的信息以及存活状况，尝试应用这些数据来创建一个合适的模型进行预测。
这是一个二分类问题（survived 或者 not），本文尝试用 logistic regression 来处理问题
说明
「没有所谓的算法优劣，也没有绝对高性能的机器学习算法，只有在特定的场景、数据和特征下更合适的机器学习的算法。」因为还只是在学习阶段，对于 XGBC、随机森林、SVC 还不了解，本文所用的算法只是 logistic regression。

初识数据

在 Data 下咱们会看到官方给的 train.csv 和 test.csv 两个文件，分别是训练和测试数据。咱们可使用 virtualenv 来建立一个“隔离”的 python 应用环境（虚拟环境）。在这里，你不须要考虑系统原有库的版本，只须要 pip 来管理你须要用到的一切。算法

import pandas as pd 
import numpy as np 
from pandas import Series,DataFrame

data_train = pd.read_csv("./train.csv")
pd.DataFrame(data_train)
复制代码

pandas 是经常使用的 python 数据处理包，把 csv 文件读入成 dataframe 格式，在 jupyter notebook 中，能够看到咱们的数据长什么样：微信

咱们就能够把它看做一张 excel 表格，共有 12 列，891 行（表明在 train_csv 中共有 891 个乘客）。Survived 字段表明该乘客是否获救（1 表明获救，0 表明没有获救），其他是一些我的信息dom

passengerId => 乘客的 ID
Pclass => 乘客所在舱位的等级（一、二、3 等舱）
Name => 姓名
Sex => 性别
Age => 年龄
SibSp => 兄弟姐妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱信息
Embarked => 登船所在港口

data_train.info()
复制代码

这里告诉了我么一些关于 data_train 的基本信息，好比共有 891 个乘客，可是有些字段的数据不全。好比 Age（年龄）、Cabin（客舱信息）。

data_train.describe()
复制代码

在这里咱们看到了什么信息呢？从 mean 行中约有 0.38 的人最后获救了，乘客的平均年龄为 29.7 岁，平均票价为 32.20

数据初步分析

每一个乘客大概有 12 种属性提供给咱们，仅仅对于上面两行操做对于数据的了解还没法为咱们提供想法和思路，咱们如今不知道哪些有用哪些对于模型没有用，因此到了最关键的特征工程环节。咱们知道最终的 output 是 Suvived，如今须要寻找最后的 Survived 与各个属性之间有着什么样的内在关系。从大副的口中已经得知「要首先考虑妇女和儿童」。机器学习

for x in data1_x:
 if data1[x].dtype != 'float64' :
 print('Survival Correlation by:', x)
 print(data1[[x, Target[0]]].groupby(x, as_index=False).mean())
 print('-'*10, '\n')
 
print(pd.crosstab(data1['Title'],data1[Target[0]]))
复制代码

在本图中，咱们发现女性有 0.74 活下来，而男性只有 0.18。歪果盆友果真很尊重 lady，lady first 践行得不错。性别无疑要做为重要特征加入最后的模型之中。在 Pclass 中，客舱为等级 1 的乘客获救的几率高不少，嗯这个必定也影响最后获救的结果（等级高的乘客必定也更有钱）。

fig = plt.figure()
fig.set(alpha=0.2) 
Survived_0 = data_train.Pclass[data_train.Survived == 0].value_counts()
Survived_1 = data_train.Pclass[data_train.Survived == 1].value_counts()
df=pd.DataFrame({'Survived':Survived_1, 'unSurvived':Survived_0})
df.plot(kind='bar', stacked=True)
plt.title("Survived status of all passenger classes")
plt.xlabel("passanger's level") 
plt.ylabel("number") 
plt.show()
复制代码

从本图中咱们能够看到，明显若是你是等级为 1 的乘客，你的获救几率就会很高。对了，这也是会最终影响输出的获救结果的一个特征。

data_train.Age[data_train.Pclass == 1].plot(kind='kde') 
data_train.Age[data_train.Pclass == 2].plot(kind='kde')
data_train.Age[data_train.Pclass == 3].plot(kind='kde')
plt.xlabel("age")# plots an axis lable
plt.ylabel("dendity") 
plt.title("Age distribution of passengers levels")
plt.legend(('first level', 'second level','third level'),loc='best')
复制代码

从各等级乘客的年龄分布中，咱们能够看到「不一样舱位/乘客等级可能和财富/地位有关系，最后获救几率可能会不同」，因此年龄也会是影响咱们最终结果的缘由之一。

简单数据预处理

咱们对大致数据已经看过一遍了，对于感兴趣的属性也有了大概的了解。如今咱们须要简单处理一下这些数据，为机器学习建模作点准备了。先从最突出的数据属性开始吧，Cabin 和 Age，由于这两项有些乘客的信息不包含它们，有丢失的数据对于下一步的工做影响太大。性能

先说 Cabin，暂时咱们就按照刚才说的，按 Cabin 有无数据，将这个属性处理成 Yes 和 No 两种类型吧。学习

再说 Age：测试

一般遇到缺值的状况，咱们会有几种常见的处理方式优化

若是缺值的样本占总数比例极高，咱们可能就直接舍弃了，做为特征加入的话，可能反倒带入 noise，影响最后的结果了
若是缺值的样本适中，而该属性非连续值特征属性(好比说类目属性)，那就把 NaN 做为一个新类别，加到类别特征中
若是缺值的样本适中，而该属性为连续值特征属性，有时候咱们会考虑给定一个 step(好比这里的 age，咱们能够考虑每隔 2/3 岁为一个步长)，而后把它离散化，以后把 NaN 做为一个 type 加到属性类目中。
有些状况下，缺失的值个数并非特别多，那咱们也能够试着根据已有的值，拟合一下数据，补充上。

本例中，由于 Cabin 不是影响最终结果的特征之一。因此直接考虑别的须要用到的特征（性别，等级，等级），并将其中的类目型转化为数值型特征，咱们可使用 pandas 的“get_dummies”来完成这个工做，并接在原来的“data_train”上

dummies_Embarked = pd.get_dummies(data_train['Embarked'], prefix= 'Embarked')
dummies_Sex = pd.get_dummies(data_train['Sex'], prefix= 'Sex')
dummies_Pclass = pd.get_dummies(data_train['Pclass'], prefix= 'Pclass')

df = pd.concat([data_train, dummies_Embarked, dummies_Sex, dummies_Pclass], axis=1)
df.drop(['Pclass', 'Name', 'Sex', 'Ticket', 'Embarked'], axis=1, inplace=True)
df
复制代码

na！咱们将这些类目属性成功转化为 0，1 的数值属性了。这样看来，好像差很少都完成了，但是若是再看看 Age 和 Fare 两个属性，乘客关于这两个属性的数值变化幅度也太大了！！若是你们了解逻辑回归与梯度降低的话，会知道各属性之间的 scale 差距太大，将对收敛速度形成很大的伤害（甚至不收敛）... 因此咱们先用 scikit-learn 里面的 preprocessing 模块对这两个属性作一个处理（就是将变化幅度较大的特征化到 [-1,1] 内）

import sklearn.preprocessing as preprocessing
scaler = preprocessing.StandardScaler()
age_scale_param = scaler.fit(df['Age'])
df['Age_scaled'] = scaler.fit_transform(df['Age'], age_scale_param)
fare_scale_param = scaler.fit(df['Fare'])
df['Fare_scaled'] = scaler.fit_transform(df['Fare'], fare_scale_param)
df
复制代码

嗯，这样初级的数据处理就完成的差很少了

建模

我么把须要的 feature 字段提取出来，转成 numpy 格式，使用 scikit-learn 中的 LogisticRegression 建模。

from sklearn import linear_model
# 用正则取出咱们要的属性值
train_df = df.filter(regex='Survived|Age_.*|SibSp|Parch|Fare_.*|Cabin_.*|Embarked_.*|Sex_.*|Pclass_.*')
train_np = train_df.as_matrix()
# y 即 Survival 结果
y = train_np[:, 0]
# X 即特征属性值
X = train_np[:, 1:]
# fit 到 RandomForestRegressor 之中
clf = linear_model.LogisticRegression(C=1.0, penalty='l1', tol=1e-6)
clf.fit(X, y)
clf
复制代码

OK！！！经过这样建模后，咱们获得一个 model，而后再把 test.csv 经过一样的数据简单处理后，就能够获得预测结果了。

系统优化

等等，你觉得这样就完了么。这其实只完成了刚刚开始的一步，咱们只是作了一个 baseline model，一切都仍是基础的，咱们还须要优化。

不过在如今的场景下，先不着急作这个事情，咱们这个 baseline 系统还有些粗糙，先再挖掘挖掘。

首先，Name 和 Ticket 两个属性被咱们完整舍弃了 (好吧，实际上是由于这俩属性，几乎每一条记录都是一个彻底不一样的值，咱们并无找到很直接的处理方式)。
而后，咱们想一想，年龄的拟合自己也未必是一件很是靠谱的事情，咱们依据其他属性，其实并不能很好地拟合预测出未知的年龄。再一个，以咱们的平常经验，小盆友和老人可能获得的照顾会多一些，这样看的话，年龄做为一个连续值，给一个固定的系数，应该和年龄是一个正相关或者负相关，彷佛体现不出两头受照顾的实际状况，因此，说不定咱们把年龄离散化，按区段分做类别属性会更合适一些。（你们去 kaggle 上能够看看大神的 kernels）

文 / joeCDC

数学爱好者

编 / 荧声

本文已由做者受权发布，版权属于创宇前端。欢迎注明出处转载本文。本文连接：knownsec-fed.com/2018-12-04-…

想要订阅更多来自知道创宇开发一线的分享，请搜索关注咱们的微信公众号：创宇前端（KnownsecFED）。欢迎留言讨论，咱们会尽量回复。

感谢您的阅读。