机器学习与统计建模 —— 归一化和标准化

归一化(Min-Max Normalization)

特色

一、对不一样特征维度进行伸缩变换
二、改变原始数据的分布。使各个特征维度对目标函数的影响权重是一致的(即便得那些扁平分布的数据伸缩变换成类圆形)
三、对目标函数的影响体如今数值上
四、把有量纲表达式变为无量纲表达式 。web

好处

一、提升迭代求解的收敛速度
二、提升迭代求解的精度算法

缺点

一、最大值与最小值很是容易受异常点影响
二、鲁棒性较差,只适合传统精确小数据场景。svg

公式

这里写图片描述


标准化(Z-score)

特色

对不一样特征维度的伸缩变换的目的是使得不一样度量之间的特征具备可比性。同时不改变原始数据的分布。函数

好处

一、不改变原始数据的分布。保持各个特征维度对目标函数的影响权重
二、对目标函数的影响体如今几何分布上
三、在已有样本足够多的状况下比较稳定,适合现代嘈杂大数据场景。大数据

公式

这里写图片描述


例子

根据人的身高和体重预测人的健康指数,假设有以下原始样本数据是四维的
这里写图片描述优化

这里写图片描述

从上面两个坐标图能够看出,样本在数据值上的分布差距是不同的,可是其几何距离是一致的。而标准化就是一种对样本数据在不一样维度上进行一个伸缩变化(而不改变数据的几何距离),也就是不改变原始数据的信息(分布)。这样的好处就是在进行特征提取时,忽略掉不一样特征之间的一个度量,而保留样本在各个维度上的信息(分布)。orm

这里写图片描述

从采用大单位的身高和体重这两个特征来看,若是采用标准化,不改变样本在这两个维度上的分布,则左图仍是会保持二维分布的一个扁平性;而采用归一化则会在不一样维度上对数据进行不一样的伸缩变化(归一区间,会改变数据的原始距离,分布,信息),使得其呈类圆形。虽然这样样本会失去原始的信息,但这防止了归一化前直接对原始数据进行梯度降低相似的优化算法时最终解被数值大的特征所主导。归一化以后,各个特征对目标函数的影响权重是一致的。这样的好处是在提升迭代求解的精度。xml


参考资料:

https://www.zhihu.com/question/20467170/answer/222792995blog