胶囊网络(Capsule Network)在文本分类的探索

时间 2019-11-21

原文原文链接

欢迎你们前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~git

本文来自云+社区专栏语言、知识与人工智能，做者腾讯知文实验室github

文本建模方法大体能够分为两类：(1) 忽略词序、对文本进行浅层语义建模（表明模型包括LDA，Earth Mover’s distance等;(2)考虑词序、对文本进行深层语义建模（深度学习算法，表明模型包括LSTM，CNN等）。对于深度神经网络算法，空间模式（spatial patterns）汇总在较低层，有助于表示更高层的概念（concepts）。例如，CNN卷积特征检测器提取来自局部的序列窗口的模式，并使用max-pooling来选择最明显的特征。而后，CNN分层地提取不一样层次的特征模式。然而，CNN在对空间信息进行建模时，须要对特征检测器进行复制，下降了模型的效率。正如（Sabour et al, 2017）所论证的那样，这类方法所需复制的特征检测器的个数或所需的有标签训练数据的数量随数据维度呈指数增加。另外一方面，空间不敏感的方法不可避免地受限于对丰富的文本结构（好比保存单词的位置信息、语义信息、语法结构等）进行有效地编码，缺少文本表达能力。算法

最近，Hinton老师等提出了胶囊网络（capsulenetwork）, 用神经元向量代替传统神经网络的单个神经元节点，以dynamic routing的方式去训练这种全新的神经网络，有效地改善了上述两类方法的缺点。正如在人类的视觉系统的推理过程当中，能够智能地对局部和总体（part-whole）的关系进行建模，自动地将学到的知识推广到不一样的新场景中。微信

到目前为止，并无工做将capsule network应用于天然语言处理中（e.g.,文本分类) 。咱们针对capsule network在文本分类任务上的应用作了深刻研究。对于传统的分类问题，capsule network取得了较好性能（咱们在6个benchmarks上进行了实验，capsulenetwork在其中4个中取得了最好结果）。更重要的是，在多标签迁移的任务上（fromsingle-label to multi-label text classification），capsulenetwork的性能远远地超过了CNN和LSTM。咱们的工做已经发表在arxiv上，论文名为Investigating Capsule Networks withDynamic Routing for Text Classification。更多细节能够参考连接：https://arxiv.org/pdf/1804.00538.pdf。咱们会在论文发表后公开源码。网络

文本主要研究胶囊网络在文本分类任务上的应用，模型的结构图以下：性能

其中，连续两个卷积层采用动态路由替换池化操做。动态路由的具体细节以下：学习

在路由过程当中，许多胶囊属于背景胶囊，它们和最终的类别胶囊没有关系，好比文本里的停用词、类别无关词等等。所以，咱们提出三种策略有减小背景或者噪音胶囊对网络的影响。测试

Orphan类别：在胶囊网络的最后一层，咱们引入Orphan类别，它能够捕捉一些背景知识，好比停用词。在视觉任务加入Orphan类别效果比较有限，由于图片的背景在训练和测试集里每每是多变的。然而，在文本任务，停用词比较一致，好比谓词和代词等。
Leaky-Softmax：除了在最后一层引入Orphan类别，中间的连续卷积层也须要引入去噪机制。对比Orphan类别，Leaky-Softmax是一种轻量的去燥方法，它不须要额外的参数和计算量。
路由参数修正：传统的路由参数，一般用均与分布进行初始化，忽略了下层胶囊的几率。相反，咱们把下层胶囊的几率当成路由参数的先验，改进路由过程。

在ablation test中，咱们对改进的路由和原始路由方法进行对比，以下：ui

此外，为了提高文本性能，咱们引入了两种网络结构，具体以下：编码

数据集：为了验证模型的有效性，咱们在6个文本数据集上作测试，细节以下：

在实验中，咱们和一些效果较好的文本分类算法进行了对比。因为本文的重点是研究capsule network相对已有分类算法（e.g., LSTM, CNN）是否有提高，咱们并没用与网络结构太过复杂的模型进行对比。实验结果以下：

此外，咱们重点进行了多标签迁移实验。咱们将Rueter-21578数据集中的单标签样本做为训练数据，分别在只包含多标签样本的测试数据集和标准测试数据集上进行测试。详细的数据统计以及实验结果以下图所示。从表中咱们能够看出，当咱们用单标签数据对模型进行训练，并在多标签数据上进行测试时，capsule network的性能远远高于LSTM、CNN等。

此外，咱们还作了case study分析，发现路由参数能够表示胶囊的重要性，并对胶囊进行可视化（此处咱们主要可视化3-gram的结果）。具体来讲，咱们删除卷积胶囊层，将primary capsule layer直接连接到fully-connectedcapsule layer，其中primary capsule 表明了N-gram短语在capsule里的形式，capsule之间的链接强度表明了每一个primary capsule在本文类别中的重要性（比较相似并行注意力机制）。由图咱们能够看出，对于Interest Rate类别，months-interbank-rate等3- grams其着重要做用。

致谢：感谢jhui和苏剑林，他们的文章启发了咱们的工做。感谢naturomics和gyang274的开源代码，让咱们开发过程变得高效。

https://jhui.github.io/2017/11/14/Matrix-Capsules-with-EM-routing-Capsule-Network/

https://spaces.ac.cn/archives/4819

https://github.com/bojone/Capsule

https://github.com/naturomics/CapsNet-Tensorflow

问答

误差在神经网络中的做用？

相关阅读

游戏文本关键词提取工做的尝试和探索

深度学习在天然语言处理中的应用

可视化CapsNet，详解Hinton等人提出的胶囊概念与原理

此文已由做者受权腾讯云+社区发布，原文连接：https://cloud.tencent.com/developer/article/1145655?fromSource=waitui

欢迎你们前往腾讯云+社区或关注云加社区微信公众号（QcloudCommunity），第一时间获取更多海量技术实践干货哦~