离散型特征编码方式：one-hot与哑变量*

时间 2019-11-26

原文原文链接

　　在机器学习问题中，咱们经过训练数据集学习获得的其实就是一组模型的参数，而后经过学习获得的参数肯定模型的表示，最后用这个模型再去进行咱们后续的预测分类等工做。在模型训练过程当中，咱们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型（如LR），那么一般咱们会对连续型特征进行离散化操做，而后再对离散的特征，进行one-hot编码或哑变量编码。这样的操做一般会使得咱们模型具备较强的非线性能力。那么这两种编码方式是如何进行的呢？它们之间是否有联系？又有什么样的区别？是如何提高模型的非线性能力的呢？下面咱们一一介绍：html

one-hot encoding

　　关于one-hot编码的具体介绍，能够参考我以前的一篇博客，博客地址：特征提取方法: one-hot 和 IF-IDF。这里，再也不详细介绍。one-hot的基本思想：将离散型特征的每一种取值都当作一种状态，若你的这一特征中有N个不相同的取值，那么咱们就能够将该特征抽象成N种不一样的状态，one-hot编码保证了每个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其余状态位都是0。举个例子，假设咱们以学历为例，咱们想要研究的类别为小学、中学、大学、硕士、博士五种类别，咱们使用one-hot对其编码就会获得：机器学习

dummy encoding

　　哑变量编码直观的解释就是任意的将一个状态位去除。仍是拿上面的例子来讲，咱们用4个状态位就足够反应上述5个类别的信息，也就是咱们仅仅使用前四个状态位 [0,0,0,0] 就能够表达博士了。只是由于对于一个咱们研究的样本，他已不是小学生、也不是中学生、也不是大学生、又不是研究生，那么咱们就能够默认他是博士，是否是。（额，固然他现实生活也可能上幼儿园，可是咱们统计的样本中他并非，^-^）。因此，咱们用哑变量编码能够将上述5类表示成：post

one-hot编码和dummy编码：区别与联系

　　经过上面的例子，咱们能够看出它们的“思想路线”是相同的，只是哑变量编码以为one-hot编码太罗嗦了（一些很明显的事实还说的这么清楚），因此它就很那么很明显的东西省去了。这种简化不能说到底好很差，这要看使用的场景。下面咱们以一个例子来讲明：性能

　　假设咱们如今得到了一个模型，这里自变量知足（由于特征是one-hot得到的，全部只有一个状态位为1，其余都为了0，因此它们加和老是等于1），故咱们能够用表示第三个特征，将其带入模型中，获得：学习

这时，咱们就惊奇的发现和这两个参数是等价的！那么咱们模型的稳定性就成了一个待解决的问题。这个问题这么解决呢？有三种方法：编码

（1）使用正则化手段，将参数的选择上加一个限制，就是选择参数元素值小的那个做为最终参数，这样咱们获得的参数就惟一了，模型也就稳定了。url

（2）把偏置项去掉，这时咱们发现也能够解决同一个模型参数等价的问题。spa

　　由于有了bias项，因此和咱们去掉bias项的模型是彻底不一样的模型，不存在参数等价的问题。3d

（3）再加上bias项的前提下，使用哑变量编码代替one-hot编码，这时去除了，也就不存在以前一种特征能够用其余特征表示的问题了。htm

总结：咱们使用one-hot编码时，一般咱们的模型不加bias项或者加上bias项而后使用正则化手段去约束参数；当咱们使用哑变量编码时，一般咱们的模型都会加bias项，由于不加bias项会致使固有属性的丢失。

选择建议：我感受最好是选择正则化 + one-hot编码；哑变量编码也可使用，不过最好选择前者。虽然哑变量能够去除one-hot编码的冗余信息，可是由于每一个离散型特征各个取值的地位都是对等的，随意取舍未免来的太随意。

连续值的离散化为何会提高模型的非线性能力？

　　简单的说，使用连续变量的LR模型，模型表示为公式（1），而使用了one-hot或哑变量编码后的模型表示为公式（2）

式中表示连续型特征，、、分别是离散化后在使用one-hot或哑变量编码后的若干个特征表示。这时咱们发现使用连续值的LR模型用一个权值去管理该特征，而one-hot后有三个权值管理了这个特征，这样使得参数管理的更加精细，因此这样拓展了LR模型的非线性能力。

　　这样作除了加强了模型的非线性能力外，还有什么好处呢？这样作了咱们至少不用再去对变量进行归一化，也能够加速参数的更新速度；再者使得一个很大权值管理一个特征，拆分红了许多小的权值管理这个特征多个表示，这样作下降了特征值扰动对模型为稳定性影响，也下降了异常数据对模型的影响，进而使得模型具备更好的鲁棒性。