基于sklearn的分类器实战

时间 2019-11-11

标签基于 sklearn 分类器实战繁體版

原文原文链接

已迁移到我新博客，阅读体验更佳基于sklearn的分类器实战
完整代码实现见github：click mepython

1、实验说明

1.1 任务描述

1.2 数听说明

一共有十个数据集，数据集中的数据属性有所有是离散型的，有所有是连续型的，也有离散与连续混合型的。经过对各个数据集的浏览，总结出各个数据集的一些基本信息以下：git

连续型数据集: 
1. diabets(4:8d-2c)
2. mozilla4(6:5d-2c)
3. pc1(7:21d-2c)
4. pc5(8:38d-2c)
5. waveform-5000(9:40d-3c)
离散型数据集:
1. breast-w(0:9d-2c-?)
离散-连续混合型数据集:
1. colic(1:22d-2c-?)
2. credit-a(2:15d-2c-?)
3. credit-g(3:20d-2c)
4. hepatitis(少许离散属性)(5:19d-2c-?)

举一个例子说明，colic(1:22d-2c-?)对应colic这个数据集，冒号前面的1表示人工标注的数据集序号(在代码实现时我是用序号来映射数据集的)，22d表示数据集中包含22个属性，2c表示数据集共有3种类别，'?'表示该数据集中含有缺失值，在对数据处理前须要注意。github

2、数据预处理

因为提供的数据集文件格式是weka的.arff文件，能够直接导入到weka中选择各种算法模型进行分析，很是简便。可是我没有借助weka而是使用sklearn来对数据集进行分析的，这样灵活性更大一点。因此首先须要了解.arff的数据组织形式与结构，而后使用numpy读取到二维数组中。算法

具体作法是过滤掉.arff中'%'开头的注释，对于'@'开头的标签，只关心'@attribute'后面跟着的属性名与属性类型，若是属性类型是以'{}'围起来的离散型属性，就将这些离散型属性映射到0，1，2......，后面读取到这一列属性的数据时直接用建好的映射将字符串映射到数字。除此以外就是数据内容了,读完一个数据集的内容以后还须要检测该数据集中是否包含缺失值，这个使用numpy的布尔型索引很容易作到。若是包含缺失值，则统计缺失值这一行所属类别中全部非缺失数据在缺失属性上各个值的频次，而后用出现频次最高的值来替换缺失值，这就完成对缺失值的填补。具体实现能够参见preprocess.py模块中fill_miss函数。数组

3、代码设计与实现

实验环境:网络

python 3.6.7app

configparser 3.7.4dom

scikit-learn 0.20.2函数

numpy 1.15.4工具

matplotlib 3.0.3

各个分类器都要用到的几个模块在这里作一个简要说明。

交叉验证: 使用sklearn.model_selection.StratifiedKFold对数据做分层的交叉切分，分类器在多组切分的数据上进行训练和预测
AUC性能指标: 使用sklearn.metrics.roc_auc_score计算AUC值，AUC计算对多类(二类以上)数据属性还需提早转换成one hot编码，使用了sklearn,preprocessing.label_binarize来实现，对于多分类问题选择micro-average
数据标准化: 使用sklearn.preprocessing.StandardScaler来对数据进行归一标准化，实际上就是z分数