【火炉炼AI】机器学习001-数据预处理技术（均值移除，范围缩放，归一化，二值化，独热编码）

时间 2019-12-06

标签火炉炼AI 机器学习数据预处理技术均值移除范围缩放归一编码栏目字符编码繁體版

原文原文链接

【火炉炼AI】机器学习001-数据预处理技术（均值移除，范围缩放，归一化，二值化，独热编码）

(【本文所使用的Python库和版本号】: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2 )git

数据预处理的必要性：在真实世界中，常常须要处理大量的原始数据，这些原始数据是机器学习算法没法理解的，因此为了让机器学习算法理解原始数据，须要对数据进行预处理。github

最经常使用的数据预处理技术：算法

1. 均值移除（Mean removal）

把每一个特征的平均值移除，以保证特征均值为0（即标准化处理），这样作能够消除特征彼此间的误差。机器学习

###########对数据集进行Normalization#########################
import numpy as np
from sklearn import preprocessing

data=np.array([[3, -1.5, 2, -5.4],
               [0, 4,-0.3,2.1],
               [1, 3.3, -1.9, -4.3]]) # 原始数据矩阵 shape=(3,4)

data_standardized=preprocessing.scale(data)

print(data_standardized.shape)
print('Mean={}'.format(data_standardized.mean(axis=0)))
print('Mean2={}'.format(np.mean(data_standardized,axis=0)))
print('standardized: ')
print(data_standardized)
print('STD={}'.format(np.std(data_standardized,axis=0)))
复制代码

-------------------------------------输---------出--------------------------------工具

(3, 4) Mean=[ 5.55111512e-17 -1.11022302e-16 -7.40148683e-17 -7.40148683e-17] Mean2=[ 5.55111512e-17 -1.11022302e-16 -7.40148683e-17 -7.40148683e-17] standardized: [[ 1.33630621 -1.40451644 1.29110641 -0.86687558] [-1.06904497 0.84543708 -0.14577008 1.40111286] [-0.26726124 0.55907936 -1.14533633 -0.53423728]] STD=[1. 1. 1. 1.]学习

--------------------------------------------完-------------------------------------编码

########################小**********结###############################spa

1, 值移除以后的矩阵每一列的均值约为0，而std为1。这样作的目的是确保每个特征列的数值都在相似的数据范围之间，防止某一个特征列数据自然的数值太大而一家独大。code

2, 能够直接调用preprocessing模块中成熟的scale方法来对一个numpy 矩阵进行均值移除。orm

3, 求一个numpy矩阵的平均值（或std，min,max等）至少有两种方法，如代码中第9行和第10行所示。

#################################################################

2. 范围缩放（Scaling）

必要性：数据点中每一个特征列的数值范围可能变化很大，所以，有时须要将特征列的数值范围缩放到合理的大小。

###########对数据集进行范围缩放#########################
import numpy as np
from sklearn import preprocessing

data=np.array([[3, -1.5, 2, -5.4],
               [0, 4,-0.3,2.1],
               [1, 3.3, -1.9, -4.3]]) # 原始数据矩阵 shape=(3,4)

data_scaler=preprocessing.MinMaxScaler(feature_range=(0,1)) # 缩放到（0,1）之间
data_scaled=data_scaler.fit_transform(data)

print('scaled matrix: *********************************')
print(data_scaled)
复制代码

-------------------------------------输---------出--------------------------------

scaled matrix: ********************************* [[1. 0. 1. 0. ] [0. 1. 0.41025641 1. ] [0.33333333 0.87272727 0. 0.14666667]]

--------------------------------------------完-------------------------------------

########################小**********结###############################

1. 值移除以后的矩阵每一列的均值约为0，而std为1。这样作的目的是确保每个特征列的数值都在相似的数据范围之间，防止某一个特征列数据自然的数值太大而一家独大。

2. 能够直接调用preprocessing模块中成熟的scale方法来对一个numpy 矩阵进行均值移除。

3. 求一个numpy矩阵的平均值（或std，min,max等）至少有两种方法，如代码中第9行和第10行所示

#################################################################

3. 归一化（Normalization）

用于须要对特征向量的值进行调整时，以保证每一个特征向量的值都缩放到相同的数值范围。机器学习中最经常使用的归一化形式就是将特征向量调整为L1范数，使特征向量的数值之和为1.

###########对数据集进行Normalization#########################
import numpy as np
from sklearn import preprocessing

data=np.array([[3, -1.5, 2, -5.4],
               [0, 4,-0.3,2.1],
               [1, 3.3, -1.9, -4.3]]) # 原始数据矩阵 shape=(3,4)

data_L1_normalized=preprocessing.normalize(data,norm='l1')
print('L1 normalized matrix: *********************************')
print(data_L1_normalized)
print('sum of matrix: {}'.format(np.sum(data_L1_normalized)))

data_L2_normalized=preprocessing.normalize(data) # 默认：l2
print('L2 normalized matrix: *********************************')
print(data_L2_normalized)
print('sum of matrix: {}'.format(np.sum(data_L2_normalized)))
复制代码

-------------------------------------输---------出--------------------------------

L1 normalized matrix: ********************************* [[ 0.25210084 -0.12605042 0.16806723 -0.45378151] [ 0. 0.625 -0.046875 0.328125 ] [ 0.0952381 0.31428571 -0.18095238 -0.40952381]] sum of matrix: 0.5656337535014005 L2 normalized matrix: ********************************* [[ 0.45017448 -0.22508724 0.30011632 -0.81031406] [ 0. 0.88345221 -0.06625892 0.46381241] [ 0.17152381 0.56602858 -0.32589524 -0.73755239]] sum of matrix: 0.6699999596689536

--------------------------------------------完-------------------------------------

########################小**********结###############################

1，Normaliztion以后全部的特征向量的值都缩放到同一个数值范围，能够确保数据点没有由于特征的基本性质而产生的较大差别，即确保全部数据点都处于同一个数据量，提升不一样特征数据的可比性。

2，注意和均值移除的区别：均值移除是对每个特征列都缩放到相似的数值范围，每个特征列的均值为0，而Normalization是将全局全部数值都缩放到同一个数值范围。

#################################################################

4. 二值化（Binarization）

二值化用于将数值特征向量转换为布尔类型向量。

###########对数据集进行Binarization#########################
import numpy as np
from sklearn import preprocessing

data=np.array([[3, -1.5, 2, -5.4],
               [0, 4,-0.3,2.1],
               [1, 3.3, -1.9, -4.3]]) # 原始数据矩阵 shape=(3,4)

data_binarized=preprocessing.Binarizer(threshold=1.4).transform(data)
print('binarized matrix: *********************************')
print(data_binarized)
复制代码

-------------------------------------输---------出--------------------------------

binarized matrix: ********************************* [[1. 0. 1. 0.] [0. 1. 0. 1.] [0. 1. 0. 0.]]

--------------------------------------------完-------------------------------------

########################小**********结###############################

1，二值化以后的数据点都是0或者1，因此叫作二值化。

2，计算方法是，将全部大于threshold的数据都改成1，小于等于threshold的都设为0。

3，常常用于出现某种特征（好比设为1），或者没有出现某种特征（设为0）的应用场合。

#################################################################

5. 独热编码（One-Hot Encoding）

一般，须要处理的数值都是稀疏地，散乱地分布在空间中，但咱们并不须要存储这些大数值，这时就须要使用独热编码，独热编码其实是一种收紧特征向量的工具。

###########对数据集进行独热编码#########################
import numpy as np
from sklearn import preprocessing

data=np.array([[0,2,1,12],
               [1,3,5,3],
               [2,3,2,12],
               [1,2,4,3]]) # 原始数据矩阵 shape=(4,4)

encoder=preprocessing.OneHotEncoder()
encoder.fit(data)
encoded_vector=encoder.transform([[2,3,5,3]]).toarray()
print('one-hot encoded matrix: *********************************')
print(encoded_vector.shape)
print(encoded_vector)
复制代码

-------------------------------------输---------出--------------------------------

one-hot encoded matrix: ********************************* (1, 11) [[0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]

--------------------------------------------完-------------------------------------

########################小**********结###############################

1，独热编码能够缩小特征向量的维度，将稀疏的，散乱的数据集（好比代码块中的data，shape=(4,4)）收缩为11维致密矩阵（如输出结果，shape=(1,11)）。

2，编码方式为：根据原始数据集data构建编码器encoder，用编码器来对新数据进行编码。好比，第0列有三个不一样值（0,1,2），故而有三个维度，即0=100，1=010，2=001；同理，第1列有两个不一样值（2,3），故而只有两个维度，即2=10，3=01；同理，第2列有四个不一样值（1,5,2,4），故而有四个维度，即1=1000，2=0100,4=0010,5=0001同理，第3列有两个不一样值（3,12），故而只有两个维度，即3=10，12=01。因此在面对新数据[[2,3,5,3]]时，第0列的2就对应于001，第二列的3对应于01，第三列的5对应于0001，第四列的3对应于10，链接起来后就是输出的这个（1,11）矩阵，即为读了编码后的致密矩阵。

3，若是面对的新数据不存在上面的编码器中，好比[[2,3,5,4]]时，4不存在于第3列（只有两个离散值3和12），则输出为00，链接起来后是[[0. 0. 1. 0. 1. 0. 0. 0. 1. 0. 0.]]，注意倒数第二个数字变成了0

#################################################################

注：本部分代码已经所有上传到（个人github）上，欢迎下载。

参考资料:

1, Python机器学习经典实例，Prateek Joshi著，陶俊杰，陈小莉译