特殊变量的处理(一)onehot&dummy

表述类目的变量一般,一般没有次序概念,且取值范围有限。例如性别行业信用卡类型。有些模型能够直接读类别变量(例如决策树)。有些模型不能识别类别变量(例如回归模型,神经网络,有距离的度量模型(svn,knn))。html

当类别变量没法放入模型的时候,须要作编码处理即以数值的形式替代原有的值:python

  • onehot编码
  • dummy
  • 浓度编码
  • WOE编码

咱们主要用onehot编码,dummy(哑变量)操做,一般会使得咱们模型具备较强的非线性能力。网络

那么这两种编码方式是如何进行的呢?dom

它们之间是否有联系?机器学习

又有什么样的区别?svn

是如何提高模型的非线性能力的呢?性能

 

咱们带着这三个疑问进入特殊变量的主题:学习

1.为何测试

这一个迷你数据集,为何咱们用1,2,3,4这样的数据值不行呢,非要用00001,01000这样的才能够?即为何不直接提供标签编码给模型训练就够了?为何须要one hot编码?编码

标签编码的问题是它假定类别值越高,该类别更好。

让我解释一下:根据标签编码的类别值,咱们的迷你数据集中VW > Acura > Honda。

比方说,假设模型内部计算平均值(神经网络中有大量加权平均运算),那么1 + 3 = 4,4 / 2 = 2.

这意味着:VW和Honda平均一下是Acura。毫无疑问,这是一个糟糕的方案。该模型的预测会有大量偏差。

咱们使用one hot编码器对类别进行“二进制化”操做,而后将其做为模型训练的特征,缘由正在于此。

固然,若是咱们在设计网络的时候考虑到这点,对标签编码的类别值进行特别处理,那就没问题。不过,在大多数状况下,使用one hot编码是一个更简单直接的方案。

若是本来的标签编码是有序的,那one hot编码就不合适了——会丢失顺序信息。

转化成二进制编码(以下图所示):

 2.怎么用

咱们先不讲各类编码之间的差异,先讲一个案例Demo,什么编码转化。

参考博客

import pandas pd df = pd.DataFrame({'country': ['russia', 'germany', 'australia','korea','germany']}) pd.get_dummies(df,prefix=['country'])

一些机器学习技术要求,从表示中删除一个维度,以免变量之间的依赖性。使用“drop_first = True”来实现这一目标。

import pandas as pd # using the same example as above
df = pd.DataFrame({'country': ['russia', 'germany', 'australia','korea','germany']}) pd.get_dummies(df,prefix=['country'], drop_first=True)

同时你也要修改测试集上的数据。要和训练集保持一致才能测试的时候用。

import pandas as pd # say you want a column for "japan" too (it'll be always zero, of course)
df["country"] = train_df["country"].astype('category',categories=["australia","germany","korea","russia","japan"]) # now call .get_dummies() as usual
pd.get_dummies(df,prefix=['country'])

而后咱们从新关注一下训练集,咱们剔除原来那一列被编码的特征同时,把编码特征concat回去。

df = pd.concat([df,pd.get_dummies(df['mycol'], prefix='mycol',dummy_na=True)],axis=1).drop(['mycol'],axis=1)
import pandas as pd # df now has two columns: name and country
df = pd.DataFrame({ 'name': ['josef','michael','john','bawool','klaus'], 'country': ['russia', 'germany', 'australia','korea','germany'] }) # use pd.concat to join the new columns with your original dataframe
df = pd.concat([df,pd.get_dummies(df['country'], prefix='country')],axis=1) # now drop the original 'country' column (you don't need it anymore)
df.drop(['country'],axis=1, inplace=True)

同时咱们也能够把数据缺失也做为一种特征

import pandas as pd import numpy as np df = pd.DataFrame({ 'country': ['germany',np.nan,'germany','united kingdom','america','united kingdom'] }) pd.get_dummies(df,dummy_na=True)

 

one-hot encoding
one-hot的基本思想:将离散型特征的每一种取值都当作一种状态,若你的这一特征中有N个不相同的取值,那么咱们就能够将该特征抽象成N种不一样的状态,one-hot编码保证了每个取值只会使得一种状态处于“激活态”,
也就是说这N种状态中只有一个状态位值为1,其余状态位都是0。举个例子,假设咱们以学历为例,咱们想要研究的类别为小学、中学、大学、硕士、博士五种类别,咱们使用one-hot对其编码就会获得:
3.what
接下来咱们详细的讲一下onehot编码和dummy之间的区别。
两者均可以对Categorical Variable作处理,转换为定量特征,转换为定量特征其实就是将原来每一个特征的类别拿出来做为一个新的特征(Dummy Variable)了,
如性别——男,女,定量特征即将男做为一个特征,女做为一个特征,若是数据中的Categorical Variable不少,且每一个Variable种类比较多,那么转换后的数据可能会很是稀疏。

两者自己存在差异。  
Difference:一个定性特征或者成为Categorical Variable,其有n个值,
Dummy Encoding 会将这个Categorical Variable转换为n-1个特征变量,而OneHot Encoding会转换为n个特征变量。  
其中,这种转换在经济学或者回归模型中会存在一个Dummy Variable Trap的问题,使用Dummy Encoder能够避免这个问题,因为我这里面对的是分类问题,没有过多的调研。
若是你还不理解我借鉴一下某个博客的例子

dummy encoding    

哑变量编码直观的解释就是任意的将一个状态位去除。仍是拿上面的例子来讲,咱们用4个状态位就足够反应上述5个类别的信息,也就是咱们仅仅使用前四个状态位 [0,0,0,0] 就能够表达博士了。只是由于对于一个咱们研究的样本,他已不是小学生、也不是中学生、也不是大学生、又不是研究生,那么咱们就能够默认他是博士。因此,咱们用哑变量编码能够将上述5类表示成:

哑变量编码去除了one-hot编码内部线性相关的一个。这种简化不能说到底好很差,这要看使用的场景。下面咱们以一个例子来讲明:

  假设咱们如今得到了一个模型,这里自变量知足

(由于特征是one-hot得到的,全部只有一个状态位为1,其余都为了0,因此它们加和老是等于1),

故咱们能够用表示第三个特征,将其带入模型中,获得:

     

这时,咱们就惊奇的发现这两个参数是等价的!那么咱们模型的稳定性就成了一个待解决的问题。这个问题这么解决呢?有三种方法:

(1)使用正则化手段,将参数的选择上加一个限制,就是选择参数元素值小的那个做为最终参数,这样咱们获得的参数就惟一了,模型也就稳定了。

(2)把偏置项去掉,这时咱们发现也能够解决同一个模型参数等价的问题。

    

  由于有了bias项,因此和咱们去掉bias项的模型是彻底不一样的模型,不存在参数等价的问题。

(3)再加上bias项的前提下,使用哑变量编码代替one-hot编码,这时去除了,也就不存在以前一种特征能够用其余特征表示的问题了。

总结:咱们使用one-hot编码时,一般咱们的模型不加bias项 或者 加上bias项而后使用正则化手段去约束参数;当咱们使用哑变量编码时,一般咱们的模型都会加bias项,由于不加bias项会致使固有属性的丢失

选择建议:最好是选择正则化 + one-hot编码;哑变量编码也可使用,不过最好选择前者。虽然哑变量能够去除one-hot编码的冗余信息,可是由于每一个离散型特征各个取值的地位都是对等的,随意取舍未免来的太随意。

连续值的离散化为何会提高模型的非线性能力?

   简单的说,使用连续变量的LR模型,模型表示为公式(1),而使用了one-hot或哑变量编码后的模型表示为公式(2)

     

式中表示连续型特征,分别是离散化后在使用one-hot或哑变量编码后的若干个特征表示。这时咱们发现使用连续值的LR模型用一个权值去管理该特征,而one-hot后有三个权值管理了这个特征,这样使得参数管理的更加精细,因此这样拓展了LR模型的非线性能力。

  这样作除了加强了模型的非线性能力外,还有什么好处呢?这样作了咱们至少不用再去对变量进行归一化,也能够加速参数的更新速度;再者使得一个很大权值管理一个特征,拆分红了许多小的权值管理这个特征多个表示,这样作下降了特征值扰动对模型为稳定性影响,也下降了异常数据对模型的影响,进而使得模型具备更好的鲁棒性

相关文章
相关标签/搜索