离散型特征编码方式:one-hot与哑变量*

  在机器学习问题中,咱们经过训练数据集学习获得的其实就是一组模型的参数,而后经过学习获得的参数肯定模型的表示,最后用这个模型再去进行咱们后续的预测分类等工做。在模型训练过程当中,咱们会对训练数据集进行抽象、抽取大量特征,这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型(如LR),那么一般咱们会对连续型特征进行离散化操做,而后再对离散的特征,进行one-hot编码或哑变量编码。这样的操做一般会使得咱们模型具备较强的非线性能力。那么这两种编码方式是如何进行的呢?它们之间是否有联系?又有什么样的区别?是如何提高模型的非线性能力的呢?下面咱们一一介绍:html

one-hot encoding

  关于one-hot编码的具体介绍,能够参考我以前的一篇博客,博客地址:特征提取方法: one-hot 和 IF-IDF。这里,再也不详细介绍。one-hot的基本思想:将离散型特征的每一种取值都当作一种状态,若你的这一特征中有N个不相同的取值,那么咱们就能够将该特征抽象成N种不一样的状态,one-hot编码保证了每个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其余状态位都是0。举个例子,假设咱们以学历为例,咱们想要研究的类别为小学、中学、大学、硕士、博士五种类别,咱们使用one-hot对其编码就会获得:机器学习

       

dummy encoding

  哑变量编码直观的解释就是任意的将一个状态位去除。仍是拿上面的例子来讲,咱们用4个状态位就足够反应上述5个类别的信息,也就是咱们仅仅使用前四个状态位 [0,0,0,0] 就能够表达博士了。只是由于对于一个咱们研究的样本,他已不是小学生、也不是中学生、也不是大学生、又不是研究生,那么咱们就能够默认他是博士,是否是。(额,固然他现实生活也可能上幼儿园,可是咱们统计的样本中他并非,^-^)。因此,咱们用哑变量编码能够将上述5类表示成:post

      

one-hot编码和dummy编码:区别与联系

  经过上面的例子,咱们能够看出它们的“思想路线”是相同的,只是哑变量编码以为one-hot编码太罗嗦了(一些很明显的事实还说的这么清楚),因此它就很那么很明显的东西省去了。这种简化不能说到底好很差,这要看使用的场景。下面咱们以一个例子来讲明:性能

  假设咱们如今得到了一个模型,这里自变量知足(由于特征是one-hot得到的,全部只有一个状态位为1,其余都为了0,因此它们加和老是等于1),故咱们能够用表示第三个特征,将其带入模型中,获得:学习

     

这时,咱们就惊奇的发现这两个参数是等价的!那么咱们模型的稳定性就成了一个待解决的问题。这个问题这么解决呢?有三种方法:编码

(1)使用正则化手段,将参数的选择上加一个限制,就是选择参数元素值小的那个做为最终参数,这样咱们获得的参数就惟一了,模型也就稳定了。url

(2)把偏置项去掉,这时咱们发现也能够解决同一个模型参数等价的问题。spa

    

  由于有了bias项,因此和咱们去掉bias项的模型是彻底不一样的模型,不存在参数等价的问题。3d

(3)再加上bias项的前提下,使用哑变量编码代替one-hot编码,这时去除了,也就不存在以前一种特征能够用其余特征表示的问题了。htm

总结:咱们使用one-hot编码时,一般咱们的模型不加bias项 或者 加上bias项而后使用正则化手段去约束参数;当咱们使用哑变量编码时,一般咱们的模型都会加bias项,由于不加bias项会致使固有属性的丢失

选择建议:我感受最好是选择正则化 + one-hot编码;哑变量编码也可使用,不过最好选择前者。虽然哑变量能够去除one-hot编码的冗余信息,可是由于每一个离散型特征各个取值的地位都是对等的,随意取舍未免来的太随意。

连续值的离散化为何会提高模型的非线性能力?

   简单的说,使用连续变量的LR模型,模型表示为公式(1),而使用了one-hot或哑变量编码后的模型表示为公式(2)

     

式中表示连续型特征,分别是离散化后在使用one-hot或哑变量编码后的若干个特征表示。这时咱们发现使用连续值的LR模型用一个权值去管理该特征,而one-hot后有三个权值管理了这个特征,这样使得参数管理的更加精细,因此这样拓展了LR模型的非线性能力。

  这样作除了加强了模型的非线性能力外,还有什么好处呢?这样作了咱们至少不用再去对变量进行归一化,也能够加速参数的更新速度;再者使得一个很大权值管理一个特征,拆分红了许多小的权值管理这个特征多个表示,这样作下降了特征值扰动对模型为稳定性影响,也下降了异常数据对模型的影响,进而使得模型具备更好的鲁棒性

相关文章
相关标签/搜索