卷积神经网络(CNN)在句子建模上的应用

时间 2019-12-06

标签神经网络 cnn 句子建模应用繁體版

原文原文链接

以前的博文已经介绍了CNN的基本原理，本文将大概总结一下最近CNN在NLP中的句子建模（或者句子表示）方面的应用状况，主要阅读了如下的文献：php

Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.html

Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[J]. arXiv preprint arXiv:1404.2188, 2014.git

Hu B, Lu Z, Li H, et al. Convolutional neural network architectures for matching natural language sentences[C]//Advances in Neural Information Processing Systems. 2014: 2042-2050.github

He H, Gimpel K, Lin J. Multi-perspective sentence similarity modeling with convolutional neural networks[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 1576-1586.算法

Wenpeng Yin, Hinrich Schütze. Convolutional Neural Network for Paraphrase Identification. The 2015 Conference of the North American Chapter of the Association for Computational Linguistics网络

Zhang Y, Wallace B. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification[J]. arXiv preprint arXiv:1510.03820, 2015.架构

下面对文献中CNN的结构和细节进行梳理。app

Kim Y’s Paper

模型结构及原理

模型的结构以下：框架

说明以下：ide

输入层

如图所示，输入层是句子中的词语对应的word vector依次（从上到下）排列的矩阵，假设句子有 $n$

这个矩阵的类型能够是静态的(static)，也能够是动态的(non static)。静态就是word vector是固定不变的，而动态则是在模型训练过程当中，word vector也当作是可优化的参数，一般把反向偏差传播致使word vector中值发生变化的这一过程称为Fine tune。

对于未登陆词的vector，能够用0或者随机小的正数来填充。

第一层卷积层

输入层经过卷积操做获得若干个Feature Map，卷积窗口的大小为 $h \times k$

池化层

接下来的池化层，文中用了一种称为Max-over-time Pooling的方法。这种方法就是简单地从以前一维的Feature Map中提出最大的值，文中解释最大值表明着最重要的信号。能够看出，这种Pooling方式能够解决可变长度的句子输入问题（由于无论Feature Map中有多少个值，只须要提取其中的最大值）。

最终池化层的输出为各个Feature Map的最大值们，即一个一维的向量。

全链接 + Softmax层

池化层的一维向量的输出经过全链接的方式，链接一个Softmax层，Softmax层可根据任务的须要设置（一般反映着最终类别上的几率分布）。

最终实现时，咱们能够在倒数第二层的全链接部分上使用Dropout技术，即对全链接层上的权值参数给予L2正则化的限制。这样作的好处是防止隐藏层单元自适应（或者对称），从而减轻过拟合的程度。

实验部分

1. 数据

实验用到的数据集以下（具体的名称和来源能够参考论文）：

2. 模型训练和调参

修正线性单元(Rectified linear units)
滤波器的h大小：3,4,5；对应的Feature Map的数量为100；
Dropout率为0.5，L2正则化限制权值大小不超过3；
mini-batch的大小为50；

这些参数的选择都是基于SST-2 dev数据集，经过网格搜索方法(Grid Search)获得的最优参数。另外，训练过程当中采用随机梯度降低方法，基于shuffled mini-batches之上的，使用了Adadelta update rule(Zeiler, 2012)。

3. 预训练的Word Vector

这里的word vector使用的是公开的数据，即连续词袋模型(COW)在Google News上的训练结果。未登陆次的vector值是随机初始化的。

4. 实验结果

实验结果以下图：

其中，前四个模型是上文中所提出的基本模型的各个变种：

CNN-rand: 全部的word vector都是随机初始化的，同时当作训练过程当中优化的参数；
CNN-static: 全部的word vector直接使用无监督学习即Google的Word2Vector工具(COW模型)获得的结果，而且是固定不变的；
CNN-non-static: 全部的word vector直接使用无监督学习即Google的Word2Vector工具(COW模型)获得的结果，可是会在训练过程当中被Fine tuned；
CNN-multichannel: CNN-static和CNN-non-static的混合版本，即两种类型的输入；

博主本身下载了论文做者的实现程序(Github地址)，最终在MR数据集上的运行结果以下：

CNN-rand: 0.7669
CNN-static: 0.8076
CNN-non-static: 0.8151

和论文中的结果差很少。

5. 结论

CNN-static较与CNN-rand好，说明pre-training的word vector确实有较大的提高做用（这也难怪，由于pre-training的word vector显然利用了更大规模的文本数据信息）；
CNN-non-static较于CNN-static大部分要好，说明适当的Fine tune也是有利的，是由于使得vectors更加贴近于具体的任务；
CNN-multichannel较于CNN-single在小规模的数据集上有更好的表现，实际上CNN-multichannel体现了一种折中思想，即既不但愿Fine tuned的vector距离原始值太远，但同时保留其必定的变化空间。

值得注意的是，static的vector和non-static的相比，有一些有意思的现象以下表格：

原始的word2vector训练结果中，bad对应的最相近词为good，缘由是这两个词在句法上的使用是极其相似的（能够简单替换，不会出现语句毛病）；而在non-static的版本中，bad对应的最相近词为terrible，这是由于在Fune tune的过程当中，vector的值发生改变从而更加贴切数据集（是一个情感分类的数据集），因此在情感表达的角度这两个词会更加接近；
句子中的!最接近一些表达形式较为激进的词汇，如lush等；而,则接近于一些链接词，这和咱们的主观感觉也是相符的。

Kim Y的这个模型很简单，可是却有着很好的性能。后续Denny用TensorFlow实现了这个模型的简单版本，可参考这篇博文；以及Ye Zhang等人对这个模型进行了大量的实验，并给出了调参的建议，可参考这篇论文。

下面总结一下Ye Zhang等人基于Kim Y的模型作了大量的调参实验以后的结论：

因为模型训练过程当中的随机性因素，如随机初始化的权重参数，mini-batch，随机梯度降低优化算法等，形成模型在数据集上的结果有必定的浮动，如准确率(accuracy)能达到1.5%的浮动，而AUC则有3.4%的浮动；
词向量是使用word2vec仍是GloVe，对实验结果有必定的影响，具体哪一个更好依赖于任务自己；
Filter的大小对模型性能有较大的影响，而且Filter的参数应该是能够更新的；
Feature Map的数量也有必定影响，可是须要兼顾模型的训练效率；
1-max pooling的方式已经足够好了，相比于其余的pooling方式而言；
正则化的做用微乎其微。

Ye Zhang等人给予模型调参者的建议以下：

使用non-static版本的word2vec或者GloVe要比单纯的one-hot representation取得的效果好得多；
为了找到最优的过滤器(Filter)大小，可使用线性搜索的方法。一般过滤器的大小范围在1-10之间，固然对于长句，使用更大的过滤器也是有必要的；
Feature Map的数量在100-600之间；
能够尽可能多尝试激活函数，实验发现ReLU和tanh两种激活函数表现较佳；
使用简单的1-max pooling就已经足够了，能够不必设置太复杂的pooling方式；
当发现增长Feature Map的数量使得模型的性能降低时，能够考虑增大正则的力度，如调高dropout的几率；
为了检验模型的性能水平，屡次反复的交叉验证是必要的，这能够确保模型的高性能并非偶然。

论文附录中还附上了各类调参结果，感兴趣的能够前往阅读之。

Kalchbrenner’s Paper

Kal的这篇文章引用次数较高，他提出了一种名为DCNN(Dynamic Convolutional Neural Network)的网络模型，在上一篇（Kim’s Paper）中的实验结果部分也验证了这种模型的有效性。这个模型的精妙之处在于Pooling的方式，使用了一种称为动态Pooling的方法。

下图是这个模型对句子语义建模的过程，能够看到底层经过组合邻近的词语信息，逐步向上传递，上层则又组合新的Phrase信息，从而使得句子中即便相离较远的词语也有交互行为（或者某种语义联系）。从直观上来看，这个模型可以经过词语的组合，提取出句子中重要的语义信息（经过Pooling），某种意义上来讲，层次结构的feature graph的做用相似于一棵语法解析树。

DCNN可以处理可变长度的输入，网络中包含两种类型的层，分别是一维的卷积层和动态k-max的池化层(Dynamic k-max pooling)。其中，动态k-max池化是最大化池化更通常的形式。以前LeCun将CNN的池化操做定义为一种非线性的抽样方式，返回一堆数中的最大值，原话以下：

The max pooling operator is a non-linear subsampling function that returns the maximum of a set of values (LuCun et al., 1998).

而文中的k-max pooling方式的通常化体如今：

pooling的结果不是返回一个最大值，而是返回k组最大值，这些最大值是原输入的一个子序列；
pooling中的参数k能够是一个动态函数，具体的值依赖于输入或者网络的其余参数；

模型结构及原理

DCNN的网络结构以下图：

网络中的卷积层使用了一种称之为宽卷积(Wide Convolution)的方式，紧接着是动态的k-max池化层。中间卷积层的输出即Feature Map的大小会根据输入句子的长度而变化。下面讲解一下这些操做的具体细节：

1. 宽卷积

相比于传统的卷积操做，宽卷积的输出的Feature Map的宽度(width)会更宽，缘由是卷积窗口并不须要覆盖全部的输入值，也能够是部分输入值（能够认为此时其他的输入值为0，即填充0）。以下图所示：

图中的右图即表示宽卷积的计算过程，当计算第一个节点即 $s_{1}$

2. k-max池化

给出数学形式化的表述是，给定一个 $k$

k-max pooling的好处在于，既提取除了句子中的较重要信息（不止一个），同时保留了它们的次序信息（相对位置）。同时，因为应用在最后的卷积层上只须要提取出 $k$

3. 动态k-max池化

动态k-max池化操做，其中的 $k$

K l = max (k t o p, ⌈ L - l L s ⌉ )

其中 $l$

动态k-max池化的意义在于，从不一样长度的句子中提取出相应数量的语义特征信息，以保证后续的卷积层的统一性。

4. 非线性特征函数

pooling层与下一个卷积层之间，是经过与一些权值参数相乘后，加上某个偏置参数而来的，这与传统的CNN模型是同样的。

5. 多个Feature Map

和传统的CNN同样，会提出多个Feature Map以保证提取特征的多样性。

6. 折叠操做(Folding)

以前的宽卷积是在输入矩阵 $d \times s$

模型的特色

保留了句子中词序信息和词语之间的相对位置；
宽卷积的结果是传统卷积的一个扩展，某种意义上，也是n-gram的一个扩展；
模型不须要任何的先验知识，例如句法依存树等，而且模型考虑了句子中相隔较远的词语之间的语义信息；

实验部分

1. 模型训练及参数

输出层是一个类别几率分布（即softmax），与倒数第二层全链接；
代价函数为交叉熵，训练目标是最小化代价函数；
L2正则化；
优化方法：mini-batch + gradient-based (使用Adagrad update rule, Duchi et al., 2011)

2. 实验结果

在三个数据集上进行了实验，分别是(1)电影评论数据集上的情感识别，(2)TREC问题分类，以及(3)Twitter数据集上的情感识别。结果以下图：

能够看出，DCNN的性能很是好，几乎不逊色于传统的模型；并且，DCNN的好处在于不须要任何的先验信息输入，也不须要构造很是复杂的人工特征。

Hu’s Paper

模型结构与原理

1. 基于CNN的句子建模

这篇论文主要针对的是句子匹配(Sentence Matching)的问题，可是基础问题仍然是句子建模。首先，文中提出了一种基于CNN的句子建模网络，以下图：

图中灰色的部分表示对于长度较短的句子，其后面不足的部分填充的全是0值(Zero Padding)。能够看出，模型解决不一样长度句子输入的方法是规定一个最大的可输入句子长度，而后长度不够的部分进行0值的填充；图中的卷积计算和传统的CNN卷积计算无异，而池化则是使用Max-Pooling。

卷积结构的分析

下图示意性地说明了卷积结构的做用，做者认为卷积的做用是从句子中提取出局部的语义组合信息，而多张Feature Map则是从多种角度进行提取，也就是保证提取的语义组合的多样性；而池化的做用是对多种语义组合进行选择，过滤掉一些置信度低的组合（可能这样的组合语义上并没有意义）。

2. 基于CNN的句子匹配模型

下面是基于以前的句子模型，创建的两种用于两个句子的匹配模型。

2.1 结构I

模型结构以下图：

简单来讲，首先分别单独地对两个句子进行建模（使用上文中的句子模型），从而获得两个相同且固定长度的向量，向量表示句子通过建模后抽象得来的特征信息；而后，将这两个向量做为一个多层感知机(MLP)的输入，最后计算匹配的分数。

这个模型比较简单，可是有一个较大的缺点：两个句子在建模过程当中是彻底独立的，没有任何交互行为，一直到最后生成抽象的向量表示后才有交互行为（一块儿做为下一个模型的输入），这样作使得句子在抽象建模的过程当中会丧失不少语义细节，同时过早地失去了句子间语义交互计算的机会。所以，推出了第二种模型结构。

2.2 结构II

模型结构以下图：

图中能够看出，这种结构提早了两个句子间的交互行为。

第一层卷积层

第一层中，首先取一个固定的卷积窗口 $k 1$

第一层卷积层后的Max-Pooling层

从而获得Layer-2，而后进行2×2的Max-pooling：

后续的卷积层

后续的卷积层均是传统的二维卷积操做，形式化表述以下：

二维卷积结果后的Pooling层

与第一层卷积层后的简单Max-Pooling方式不一样，后续的卷积层的Pooling是一种动态Pooling方法，这种方法来源于参考文献[1]。

结构II的性质

保留了词序信息；
更具通常性，实际上结构I是结构II的一种特殊状况（取消指定的权值参数）；

实验部分

1. 模型训练及参数

使用基于排序的自定义损失函数(Ranking-based Loss)
BP反向传播+随机梯度降低；
mini-batch为100-200,并行化；
为了防止过拟合，对于中型和大型数据集，会提早中止模型训练；而对于小型数据集，还会使用Dropout策略；
Word2Vector：50维；英文语料为Wikipedia(~1B words)，中文语料为微博数据(~300M words)；
使用ReLu函数做为激活函数；
卷积窗口为3-word window；
使用Fine tuning；

2. 实验结果

一共作了三个实验，分别是(1)句子自动填充任务，(2)推文与评论的匹配，以及(3)同义句识别；结果以下面的图示：

其实结构I和结构II的结果相差不大，结构II稍好一些；而相比于其余的模型而言，结构I和结构II的优点仍是较大的。

He’s Paper

第四篇论文即He的文章中所提出的模型，是全部基于NN的模型中，在Paraphrase identification任务标准数据集MSRP上效果最佳的。下面咱们来学习一下这个模型。

模型结构与原理

模型主要分为两个部分：

句子的表征模型：获得句子的表征(representation)，以供后续的类似度计算；
类似度计算模型：使用多种类似度计算方法，针对句子表征后的局部进行相应的计算；

模型不须要借助WordNet, 句法解析树等资源；可是能够选择性地使用词性标注、word embedding等方法来加强模型的性能；与以前的模型区别在于，文中的模型使用了多种类型的卷积、池化方法，以及针对获得的句子表征的局部进行相应的类似度计算。（这样作的优势在于可以更加充分地挖掘出句子中的特征信息，从而提高性能，但同时使得模型变得复杂、耗时）

模型的总体框架以下：

下面具体看看这两个模型是如何实现的。

句子的表征模型

模型是基于CNN的，卷积层有两种卷积方式，池化层则有三种。

卷积层

假设模型的输入为二维矩阵 $S e n t$

卷积层有两种卷积的方式：(1)粒度为word的卷积;(2)粒度为embedding 维度上的卷积。以下图：

其中，第一种卷积方式与以前的Kim Y提出模型中的相同，至关因而n-gram特征的抽取；而对于第二种卷积方式，论文做者给出的解释是，(1)这种方式有助于充分地提取出输入的特征信息；(2)因为粒度更小，因此在学习过程当中的参数调整上，每个维度可以获得不一样程度的参数调整。（第二种卷积方式从直观上没有太多的物理意义，而做者也是直说不可以给出符合人直观想法上的解释）。

池化层

模型除了使用传统的max-pooling，还使用了min-pooling和mean-pooling方式。

假设 $g r o u p (w s, p o o l i n g, s e n t)$

b l o c k A = {g r o u p A (w s a, p, s e n t) : p \in m a x, m i n

这里 $b l o c k_{A}$

而 $b l o c k_{B}$

b l o c k B = {g r o u p B (w s b, p, s e n t) : p \in m a x, m i n

这里 $b l o c k_{B}$

这里只因此要组合这些多样的卷积和池化操做，缘由是但愿可以从多个方面来提取出输入中的特征信息，以供后续的决策任务。

多种窗口尺寸

与传统的n-gram模型类似，这里在building block中使用了多种尺寸的卷积窗口。以下图所示：

其中 $w s$

类似度计算模型

下面介绍在获得句子的表征向量以后，如何计算它们的类似度。直观的想法是，咱们可使用传统的类似度计算方法如余弦类似度等来计算两个句子向量的类似度。可是，直接应用这种作法在两个句子向量上并非最优的，缘由在于最后生成的句子向量中的每个部分的意义各不相同，这样简单粗暴的计算势必会影响效果，因此作法是对句子向量中的各个部分进行相应的比较和计算(Structured Comparision)。为了使得句子向量中的局部间的比较和计算更加有效，咱们须要考虑以下方面：

(1) 是否来自相同的building block；
(2) 是否来自相同卷积窗口大小下的卷积结果；
(3) 是否来自相同的pooling层；
(4) 是否来自相同的Feature Map；

最终比较句子中的相应部分时，须要至少知足以上两个条件。为了识别句子中的哪些对应部分须要参与到类似度计算，文中提供了两种算法。

2.1. 类似度计算单元(Unit)

两种类似度计算单元以下：

2.2. 基于句子局部的类似度计算

算法1和算法2为句子表征向量的两种计算方法，其中算法1仅用在 $b l o c k_{A}$

给出以下的符号假设：

算法的伪代码以下：

下面的图示说明了在 $b l o c k_{A}$

须要注意的是，在算法二中相同类型的pooling的输出groups中，向量是两两进行比较的（图中的红色虚线只是为了说明比较的方向，并非只针对group中相同大小的卷积窗口做比较）；而算法一中的每一行都要做比较，不只仅是第一行。

模型的其余细节

类似度向量输出 + 全链接层

基于句子局部的类似度计算以后，获得相应的类似度向量；而后这组向量以后链接一个全链接层，最后softmax对应输出。若是是计算类似度度量值，能够用softmax输出的类别几率值。

激活函数

使用tanh函数做为激活函数。

实验部分

实验数据集

Microsoft Research Paraphrase Corpus (MSRP)

用于评测同义句检测 (Paraphrase Identification) 任务的经典数据集，数据集来源于新闻；包含5801对句子对，其中4076对用于模型训练，而1725对用于测试；每一对句子拥有一个标签，0或者1,0表示两个句子不是互为同义句，而1则表示两个句子互为同义句。所以这是一个二分类的任务。

Sentences Involving Compositional Knowledge (SICK)

数据来源于2014年SemEval比赛，数据集有9927对句子对，其中4500对用于模型训练，500对用于模型验证，而剩下的4927对用于模型测试。这些句子都是在图片和视频描述中抽取获得的，每一对句子对有一个相关分数，区间在[1, 5]，分数越高表示句子越相关。

Microsoft Video Paraphrase Corpus (MSRVID)

数据集来源于2012年的SemEval比赛，包含1500对短文本（用于描述视频信息）。其中通常用于模型训练，一半用于模型测试，每一对句子有一个相关性分数，区间在[0, 5]，分数越高表示句子越相关。

模型训练

针对MSRP和其余两个数据集，分别使用两种损失函数。对于MSRP数据集，损失函数（Hinge Loss）以下：

对于其他两个数据集，损失函数（KL-divergence Loss）以下：

实验参数设置

$w s$ ： $w s \in [1, 3]$
Word Embedding: 300维的GloVe word embedding；对于MSRP数据集，还额外使用了200维的POS embedding (Standford POS tagger)和25维的Paragram Vectors (Wieting et al., 2015 PDF，数据下载地址)。所以对于MSRP任务而言，word embedding的维数为525维 (200+300+25)；而其他两个任务则对应是300维。
在MSRP上使用了5-折交叉验证的方式，对模型参数进行tuning. Tuning好的模型参数将会用在另外两个数据集任务上。
只有在MSRP数据集任务上，容许模型参数进行更新。
输出的全链接层，MSRP有250个神经元节点，而SICK和MSRVID则是150个。
在 $b l o c k_{A}$
优化算法使用随机梯度降低方法。
学习率为0.01，而正则化参数 $λ = 10^{- 4}$

实验结果

MSRP数据集

能够看出，文中的模型是全部基于NN的方法中在MSRP数据集上性能最好的。

SICK数据集

MSRVID数据集

而模型在SICK和MSRVID数据集上的表现也很好。

模型的敏感度分析

下面的表格说明了在不使用某种技术下，模型性能在实验数据集上的变化状况。

从中能够得出如下结论：

对于MSRP数据集任务而言，增长POS Embedding和Paragram Vector效果显著；
移除类似度计算层的影响显著，说明结构化的句子局部比较方法是有效且必要的；
Horizontal和Vertical算法均有必定的提高效果，而Vertical算法的提高程度更高；
max-pooling方式确实要比min-pooling和mean-pooling强太多。

总结

文中的模型包含两个部分：卷积-池化模型和类似度计算模型。实验部分已经验证了模型的有效性，在MSRP数据集上模型取得了仅次于state-of-art的结果，而且在基于NN的方法中是最好的。模型中的类似度计算层是有必要的，由于对卷积池化处理后的句子成分进行了针对性的比较，从直观上要比直接扔进全链接层更合理，而实验结果也代表了这一点。

然而，我的以为，文中的模型结构较为复杂，并且其中有不少trick的地方，好比为何要对word embedding中的每一维度作卷积， $b l o c k_{B}$

Yin’s Paper

Yin的这篇论文提出了一种叫Bi-CNN-MI的架构，其中Bi-CNN表示两个使用Siamese框架的CNN模型；MI表示多粒度的交互特征。Bi-CNN-MI包含三个部分：

句子分析模型 (CNN-SM)

这部分模型主要使用了上述Kal在2014年提出的模型，针对句子自己提取出四种粒度的特征表示：词、短ngram、长ngram和句子粒度。多种粒度的特征表示是很是必要的，一方面提升模型的性能，另外一方面加强模型的鲁棒性。

句子交互计算模型 (CNN-IM)

这部分模型主要是基于2011年Socher提出的RAE模型，作了一些简化，即仅对同一种粒度下的提取特征作两两比较。

LR或Softmax网络层以适配任务

模型结构

论文提出的模型主要是基于Kal的模型及Socher的RAE模型的结合体，以下图：

经过模型图能够看出模型的主要思想：一方面利用Kal的模型进行多种粒度上的特征提取，另外一方面采起RAE模型的思想，对提取出来的特征进行两两的类似度计算，计算完成的结果经过dynamic pooling的方式进一步提取少许特征，而后各个层次的pooling计算结果平摊为一组向量，经过全链接的方式与LR(或者softmax)层链接，从而适配同义句检测任务自己。

这个模型具体的计算细节再也不赘述了，感兴趣的读者能够直接去看论文。除了提出这种模型结构以外，论文还有一个亮点在于使用了一种相似于语言模型的CNN-LM来对上述CNN部分的模型进行预训练，从而提早肯定模型的参数。CNN-LM的网络结构以下图：

CNN-LM模型的训练预料使用了最终的实验数据集，即MSRP；另外，因为MSRP的数据规模较小，因此做者又增长了100,000个英文句子语料。CNN-LM模型最终可以获得word embedding, 模型权值等参数。须要注意的是，这些参数并非固定的，在以后的句子匹配任务中是会不断更新的。从后面的实验结果中能够看出，CNN-LM的做用是显著的。

实验结果

论文仅使用了一种数据集，即公认的PI (Paraphrase Identification)任务数据集，MSRP。实验结果以下：

能够看出，CNN-LM的预训练效果显著，预训练后的模型性能很强（可是结果上比以前He提出的模型稍差一些）。

本文结束，感谢欣赏。

欢迎转载，请注明本文的连接地址：

http://www.jeyzhang.com/cnn-apply-on-modelling-sentence.html

参考文献

[1] R. Socher, E. H. Huang, and A. Y. Ng. Dynamic pooling and unfolding recursive autoencoders for paraphrase detection. In Advances in NIPS, 2011.

Implementing a CNN for Text Classification in TensorFlow

Kim Y’s Implement: Convolutional Neural Networks for Sentence Classification