TF-IDF & CNN


TF-IDF
----------------------------------------------------------------
认为一个单词出现的文本频率越小,它区别不一样类别的能力就越大,因此引入了逆文本频度 IDF 的概念:以 TF 和 IDF 的乘积做为特征空间坐标系的取值测度。算法

Wi 表示第 i 个特征词的权重,TFi(t,d) 表示词 t 在文档 d 中的出现频率,N 表示总的文档数,DF(t) 表示包含 t 的文档数。用 TF-IDF 算法来计算特征词的权重值是表示当一个词在这篇文档中出现的频率越高,同时在其余文档中出现的次数越少,则代表该词对于表示这篇文档的区分能力越强,因此其权重值就应该越大。网络

将全部词的权值排序,根据须要能够有两种选择方式:
选择权值最大的某一固定数 n 个关键词
选择权值大于某一阈值的关键词
达观数据的实践经验是,计算机选择的关键词数量在 10∽15 个,人工选择的关键词数量在 4∽6 个比较合适,一般具备最好的覆盖度和专指度。函数

另外考虑到单词区别不一样类别的能力,TFIDF 法认为一个单词出现的文本频数越小,它区别不一样类别文本的能力就越大。所以引入了逆文本频度 IDF 的概念,以 TF 和 IDF 的乘积做为特征空间坐标系的取值测度,并用它完成对权值 TF 的调整,调整权值的目的在于突出重要单词,抑制次要单词。可是在本质上 IDF 是一种试图抑制噪音的加权,而且单纯地认为文本频数小的单词就越重要,文本频数大的单词就越无用,显然这并非彻底正确的。IDF 的简单结构并不能有效地反映单词的重要程度和特征词的分布状况,使其没法很好地完成对权值调整的功能,因此TF*IDF 法的精度并非很高。优化

文档频数 (Document Frequency, DF) 是最为简单的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词。但若是某一稀有词条主要出如今某类训练集中,却能很好地反映类别的特征,而因低于某个设定的阈值而滤除掉,包含着重要的判断信息被舍弃,这样就会对分类精度有必定的影响。排序

在提取文本特征时,应首先考虑剔除这些对文本分类没有用处的虚词,而在实词中,又以名词和动词对于文本的类别特性的表现力最强,因此能够只提取文本中的名词和动词做为文本的一级特征词。图片

根据统计,二字词汇可能是经常使用词,不适合做为关键词,所以对实际获得的二字关键词能够作出限制。好比,抽取 5 个关键词,本文最多容许 3 个二字关键词存在。文档


CNN卷积神经网络
----------------------------------------------------------------
·特征 & 卷积运算
拿图片举例。
几张图片都画了X这个字母,不过,每一个图片X的样子不同,可是,他们都被定义为X。
他们总会有几个相同的特征,如某几段线条相识。而这几个相识的线条,就说是几个特征(feature)。
通过卷积运算,每个feature从原始图像中提取出来“特征”,获得feature map(特征图。是均值填入一张新的图。)
feature map其中的值,越接近为1表示对应位置和feature的匹配越完整,越是接近-1,表示对应位置和feature的反面匹配越完整,而值接近0的表示对应位置没有任何匹配或者说没有什么关联。
对这张X图来讲,咱们用的是3个feature,所以最终产生3个 feature map。神经网络

·非线性激活层
用非线性激活函数做用后,feature map里的值<0的值所有设为0。map

·pooling池化层
为了缩小特征图的数据量。
池化分为两种,Max Pooling 最大池化、Average Pooling平均池化。顾名思义,最大池化就是取最大值,平均池化就是取平均值。
由于最大池化保留了每个小块内的最大值,因此它至关于保留了这一块最佳匹配结果(由于值越接近1表示匹配越好)。
CNN可以发现图像中是否具备某种特征。这也就可以帮助解决以前提到的计算机逐一像素匹配的死板作法。方法

·全链接层
全链接层要作的,就是对以前的全部操做进行一个总结,给咱们一个最终的结果。它最大的目的是对特征图进行维度上的改变,来获得每一个分类类别对应的几率值。

卷积层采用的是“局部链接”的思想。
那除窗口以外的、未链接的部分怎么办呢? 咱们都知道,采用的是将窗口滑动起来的方法后续进行链接。这个方法的思想就是“参数共享” ,参数指的就是filter,用滑动窗口的方式,将这个filter值共享给原图中的每一块区域链接进行卷积运算。

仍是回来看接下来的操做,获得了2X2的特征图后,对其应用全链接网络,再全链接层中有一个很是重要的函数----Softmax,它是一个分类函数,输出的是每一个对应类别的几率值。好比:
【0.5,0.03,0.89,0.97,0.42,0.15】就表示有6个类别,而且属于第四个类别的几率值0.89最大,所以断定属于第四个类别。
所以直接将三个特征图改变维度直接变成一维的数据。一维数据也就是几率值。

·神经网络的训练与优化
训练的就是那些卷积核(filter)。
BP算法---BackProp反向传播算法,进行大量数据的训练。

在训练时,咱们采用的训练数据通常都是带有标签label的图片。若是图片中的字母是X,则label=x,若是图片中的字母是A,则label=A。 标签能直观地反映图片。

在最开始,训练前,咱们定义一个大小为3X3的卷积核,那么里面具体的值是多少,咱们都不知道,但又不能为0吧,因此就用随机初始化法来进行赋值。刚开始有偏差。训练的终极目的就是使得这个偏差最小,经常使用的方法是 梯度降低法。

相关文章
相关标签/搜索