【文智背后的奥秘】系列篇——情感分类

时间 2019-11-10

标签文智背后的奥秘系列情感分类繁體版

原文原文链接

版权声明：本文由文智原创文章，转载请注明出处:
文章原文连接：https://www.qcloud.com/community/article/92html

来源：腾云阁 https://www.qcloud.com/community算法

情感分类是对带有感情色彩的主观性文本进行分析、推理的过程，即分析对说话人的态度，倾向正面，仍是反面。它与传统的文本主题分类又不相同，传统主题分类是分析文本讨论的客观内容，而情感分类是要从文本中获得它是否支持某种观点的信息。好比，“日媒：认为歼-31可以抗衡F-35，这种说法颇具恭维的意味。”传统主题分类是要将其归为类别为“军事”主题，而情感分类则要挖掘出日媒对于“歼-31可以抗衡F-35”这个观点，持反面态度。这是一项具备较大实用价值的分类技术，能够在必定程度上解决网络评论信息杂乱的现象，方便用户准肯定位所需信息。按照处理文本的粒度不一样,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次。按照处理文本的类别不一样，可分为基于新闻评论的情感分析和基于产品评论的情感分析。微信

文智系统提供了一套情感分类的流程，能够对句子极别的评论进行分析，判断情感的正负倾向。接入业务的用户只须要将待分析文本按照规定的协议上传，就能实时获得情感分析的反馈。若是持续上传不一样时间段的评论、综合分析，还能获得事件的发展趋势，或者产品的情感走势等。网络

一.经常使用分类方法介绍

文本分类方法通常包含以下几个步骤：训练语料准备、文本预处理、特征挖掘、分类算法选择、分类应用。具体的分类流程能够参考另外一篇KM文章《文智背后的奥秘—自动文本分类》。这里，对一些经常使用的特征挖掘和分类算法作简单的介绍。框架

1.1特征挖掘方法

常见的特征选择方法有：TF-IDF、卡方、互信息、信息增益、X2统计量、交叉熵、Fisher判别式等方法，这里介绍一下工业上经常使用的两种方法。iphone

1.1.1 TF-IDF

TF-IDF的主要思想是：若是某个词或短语在一篇文章中出现的频率TF高，而且在其余文章中不多出现，则认为此词或者短语具备很好的类别区分能力，适合用来分类。这里介绍一种对 TF-IDF 的傻瓜理解法：机器学习

TF：词频，表示特征t在文档D中出现的次数，好比一篇谈论乔布斯的文章，可预期“iphone”、“苹果”的TF值为较高。函数

DF：包含特征t的文档数，DF越高，表示特征X对于衡量文档之间的区别做用低。好比“我”、“的”这样的词，DF通常最高。工具

IDF：定义为IDF =log(|D|/DF)，|D|为全部文档数。与DF成反比，IDF值越高，表示特征t对区别文档的意义越大。最终定义：TF-IDF=TF*IDF学习

1.1.2 信息增益

信息增益 (IG) 是公认较好的特征选择方法，它刻画了一个词语在文本中出现与否对文本情感分类的影响，即一个词语在文本中出现先后的信息嫡之差。傻瓜式理解下信息增益：

其中，n是总类别数，P(Ci)是第i类出现的几率，若每类平均出现，则P(Ci)=1/n.

P(t)是出现词语t的文档数除以总文档数，p(t否)=1-p(t).

P(Ci|t)即t出现时，Ci出现的几率，等于出现t且属于Ci的文档数除以全部出现t的文档总数。

p(Ci|t否)即t不出现但属于Ci的几率，等于未出现t但属于Ci的文档总数除以未出现t的全部文档数。

1.2分类算法

常见的分类算法有，基于统计的Rocchio算法、贝叶斯算法、KNN算法、支持向量机方法，基于规则的决策树方法，和较为复杂的神经网络。这里咱们介绍两种用到的分类算法：朴素贝叶斯和支持向量机。

1.2.1朴素贝叶斯

贝叶斯公式：P(C|X)=P(X|C)P(C)/P(X)

先验几率P(C)经过计算训练集中属于每个类的训练样本所占的比例，类条件几率P(X|C)的估计—朴素贝叶斯，假设事物属性之间相互条件独立，P(X|C)=∏P(xi|ci)。

朴素贝叶斯有两用经常使用的模型，几率定义略有不一样，以下：设某文档d=(t1,t2,…,tk)，tk是该文档中出现过的单词，容许重复。

多项式模型：

先验几率P(c)= 类c下单词总数/整个训练样本的单词总数。

条件几率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/( 类c下单词总数+|V|)

伯努利模型：

先验几率P(c)= 类c下文件总数/整个训练样本的文件总数。

条件几率P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)

通俗点解释两种模型不一样点在于：计算后验几率时，对于一个文档d，多项式模型中，只有在d中出现过的单词，才会参与后验几率计算，伯努利模型中，没有在d中出现，可是在全局单词表中出现的单词，也会参与计算，不过是做为“反例”参与的。

1.2.2 支持向量机模型SVM

SVM展开来讲较为复杂，这里借助两张图帮助概念性地解释一下。对于线性可分的数据，能够用一超平面f(x)=w*x+b将这两类数据分开。如何肯定这个超平面呢？从直观上而言，这个超平面应该是最适合分开两类数据的直线。而断定“最适合”的标准就是这条直线离直线两边的数据的间隔最大。

而对于线性不可分的数据，则将其映射到一个更高维的空间里，在这个空间里创建寻找一个最大间隔的超平面。怎么映射呢？这就是SVM的关键：核函数。

如今经常使用的核函数有：线性核，多项式核，径向基核，高斯核，Sigmoid核。若是想对SVM有更深刻的了解，请参考《支持向量机通俗导论（理解SVM的三层境界）》一文。

二.情感分类系统实现

情感分类与主题分类除了第一章提到的挖掘信息不一样外，处理的文本也大不相同。情感分类主要处理一些相似评论的文本，这类文本有如下几个特色：时新性、短文本、不规则表达、信息量大。咱们在系统设计、算法选择时都会充分考虑到这些因素。情感分灰系统分为在线、离线两大流程，在线流程将用户输出的语句进行特征挖掘、情感分类、并返回结果。离线流程则负责语料下载、特征挖掘、模型训练等工做，系统结构如图3-1所示：

2.1 语料库建设

语料的积累是情感分类的基石，特征挖掘、模型分类都要以语料为材料。而语料又分为已标注的语料和未标注的语料，已标注的语料如对商家的评论、对产品的评论等，这些语料可经过星级肯定客户的情感倾向；而未标注的语料如新闻的评论等，这些语料在使用前则须要分类模型或人工进行标注，而人工对语料的正负倾向，又是仁者见仁、智者见智，因此必定要与标注的同窗有充分的沟通，使标注的语料达到基本可用的程度。

迄今，咱们已对涵盖电商、新闻、影视、音乐、APP等类别的20多个站点评论进行抓取，累计已有4亿标注语料，天天新增标注语料200多万。

2.2极性词挖掘

情感分类中的极性词挖掘，有一种方法是“全词表法”，即将全部的词都做为极性词，这样的好处是单词被全面保留，但会致使特征维度大，计算复杂性高。咱们采用的是“极性词表法”，就是要从文档中挖掘出一些可以表明正负极性的词或短语。如已知正面语料“@jjhuang：微信电话本太赞了！能免费打电话，推荐你使用哦~”，这句话中咱们须要挖掘出“赞”、“推荐”这些正极性词。分为如下两步：

1）文本预处理语料中的有太多的噪音，咱们在极性词挖掘以前要先对文本预处理。文本预处理包含了分词、去噪、最佳匹配等相关技术。分词功能向你们推荐腾讯TE199的分词系统，功能强大且全面，拥有短语分词、词性标注等强大功能。去噪须要去掉文档中的无关信息如“@jjhuang”、html标签等，和一些不具备分类意义的虚词、代词如“的”、“啊”、“我”等，以起到降维的做用。最佳匹配则是为了确保提出的特征可以正确地反映正负倾向，如“逍遥法外”一词，若是提取出的是“逍遥”一词，则会被误认为是正面情感特征，而“逍遥法外”自己是一个负面情感词，这里通常能够采用最长匹配的方法。

2）极性词选择文本预处理以后，咱们要从众多词语中选出一些词做为极性词，用以训练模型。咱们对以前介绍的TF-IDF方法略做变化，用以降维。由于咱们训练和处理的文本都过短，DF和TF值大体相同，咱们用一个TF值就能够。另外，咱们也计算极性词在反例中出现的频率，如正极性词“赞”必然在正极性语料中的TF值大于在负极性语料中的TF值，若是两者的差值大于某个域值，咱们就将该特征归入极性词候选集，通过人工审核后，就能够正式做为极性词使用。

目前，咱们已挖掘出12w+ 极性词，经过人工审核的有 8w+ 个，天天仍会从语料中挖掘出100+ 个极性词。

2.3极性判断

极性判断的任务是判断语料的正、负、中极性，这是一个复杂的三分类问题。为了将该问题简化，咱们首先对语料作一个主客观判断，客观语料即为中性语料，主观语料再进行正、负极性的判断。这样，咱们就将一个复杂三分类问题，简化成了两个二分类问题。以下：

在分类器选择中，主客观判断咱们使用了上节介绍的支持向量机模型。而极性判断中，咱们同时使用了朴素贝叶斯和支持向量机模型。其中朴素贝叶斯使用人工审核过的极性词做特征，而支持向量机模型则使用全词表做为特征。两个模型会对输入的语料分别判断，给出正、负极性的几率，最后由决策模块给出语料的极性。

在朴素贝叶斯模型中，咱们比较了多项式模型和伯努力模型的效果。伯努力模型将全语料中的单词作为反例计算，由于评测文本大可能是短文本，致使反例太多。进而伯努力模型效果稍差于多项式模型，因此咱们选择了多项式模型。

支持向量机模型中，咱们使用的是台湾大学林智仁开发的SVM工具包LIBSVM，这是一个开源的软件包，能够解决模式识别、函数逼近和几率密度估计等机器学习基本问题，提供了线性、多项式、径向基和S形函数四种经常使用的核函数供选择。LIBSVM 使用的通常步骤是：

按照LIBSVM软件包所要求的格式准备数据集；
对数据进行简单的缩放操做；
考虑选用RBF 核函数；
采用交叉验证选择最佳参数C与g；
采用最佳参数C与g 对整个训练集进行训练获取支持向量机模型；
利用获取的模型进行测试与预测。

在咱们的模型中，通过几回试验，选用的高斯核，本身调的参数C。文智平台当前情感分类效果：

业界效果：2014 COAE 中文倾向性分析评测

备注：

语料来主要源于3个领域（手机、翡翠、保险）的微博数据；
针对观点句进行情感判断；
测试集是7000篇人工标注微博评论。
垂直领域的情感分类

上述介绍的是咱们通用的情感分类系统，面对的是通用的主观评论语料。但在一些领域中，某些非极性词也充分表达了用户的情感倾向，好比下载使用APP时，“卡死了”、“下载太慢了”就表达了用户的负面情感倾向；股票领域中，“看涨”、“牛市”表达的就是用户的正面情感倾向。因此咱们要在垂直领域中，挖掘出一些特殊的表达，做为极性词给情感分类系统使用：

垂直极性词 = 通用极性词 + 领域特有极性词

该系统即为垂直领域的情感分类系统。目前，咱们已对社会事件、APP、电影几个领域创建了垂直情感分类系统。领域的覆盖正在不断扩大……

2.5页面展现

情感分类系统已于线上正常运行，并为兄弟部门服务天天会对当日热门事件进行舆论分析统计，并给出主流正负面表明评论。移动端展现请观注文智公共号tencentwenzhi，pc页展现请得到权限后登陆http://tdata.oa.com 查看。页面效果以下：

2.6 系统优化

情感分类的工做，咱们还在继续。咱们在如今和将来还能够作更多的工做来优化咱们的情感分类系统：

挖掘更多的极性词(多领域)
尝试不一样的分类器，调优现有的模型
句式识别：否认句，转折句，排比句等……
语料清洗：识别水军评论和用户评论
极性词扩展：采用近义词、反义词等方法，将挖掘的极性词扩展更多

三.总结：

文智平台情感分类系统基于多个领域数、亿标注语料的学习，可对众多评论数据进行倾向性分析，掌握用户舆论走向。尤为是对新闻、影视、产品等领域句子极别的评论数据，倾向性分析更为准确、有效。系统目前已上线运营，并为兄弟部门提供舆论倾向服务。系统使用简单、效果可靠，期待能为其余业务部门提供更为普遍的应用。

欢迎有需求的团队联系咱们，使用腾讯文智天然语言处理。