原文:Mining Text Data Chapter 13: A survey of opinion mining and sentiment analysis Bing Liu, Lei Zhang [2012]node
本篇文章彻底来自上述章节,只是我的学习总结笔记。[zm...]:内为我的评论数组
摘要: 情感分析/意见挖掘能够自动从大量数据中获得人们的见解,同时消解个体的偏向(bias),因此很必要。ide
[zm 这篇主要在讲对review评论的挖掘,着重是说人们对某件事情的见解,意见。我在接触以前,一直觉得情感分析是分析情感,想得比较多的是情绪这个方面。多是由于一直思考对话系统中的情感分析限制了本身的想法,总想分析对方的情绪。若是放在社交媒体上,其实也是同样的,我试图去分析人们的情绪消极或积极,也须要有一个对象,那也就变成了对某件事的见解。不过有一个因果问题,当人们在社交媒体上表达情绪的时候,是由于这个事件而有的情绪,仍是对这个事件表达见解,好像很不同。]学习
第一,什么是opinionui
一个entity (e), 例如手机,或者某个牌子的手机,有许多component(摄像头,屏幕),和一些sub-component(感光元件等)。咱们把这个entity看做一个树,每一个node就是一个细节。对每个(sub)component,可能会有几个attribute,好比摄像头清晰度,摄像头大小等等。这样一棵枝枝桠桠的树🌲,就是opinion target,供人评价的对象。lua
通常来讲,咱们不须要搞这么多层次,直接降维打击,用aspect (a) 来表示那些component+attribut,例如摄像头的像素,这就是一个aspect,一个entity,有许多aspect供人评价(包括entity自己)。除此以外呢,咱们还考虑,谁是发出这个review的人(opinion holder(h)/source)[zm 从这个holder能够延伸出sex,age等等],也能够考虑时间[zm应该主要用于分析某社会事件].spa
这样咱们把这个题定义为数组[e, a, o, h, t]的问题,[zm 哎呀!没想到!], 其中,对于对整个entity评价的评论,咱们将aspect定为GENERAL因此咱们作这种情感分析,作的就是: entity的抽取与分组(同义词放在一块儿), aspect的抽取与分组,抽取意见持有者和事件,把sentiment分类,生成一个上面所说的数组。这样把文本变成告终构化的文本,方便进一步的分析研究。excel
[zm 666,想问题就是要全面,我认为这个defination是整篇最重要的部分了,研究一个sentiment,要考虑到发起人和评价对象,才算一个完整的研究。由于平时作起来粗糙,场景单一,忽视了这个全面的定义。]component
两个其余的问题:主观性(subjectivity)与情感(emotion)。orm
一个橘子很大,是个客观评价。
一个橘子很漂亮,是主观感觉。
subjectivity classification就是用来区分一个句子是主观仍是客观的。主观句子中通常有评价,可是客观句好比:这手机不耐摔,也暗含了评价。评价句不必定是主观句,可是有很大交集。
emotion:joy,anger,fear等等。这些emotion也有时表达了人们对事情的评价:买了这个手机真开心。这种句子被叫作rational evaluation sentences.就是感性评价句。
第二, aspect-based opinion summary
从每一个方面来评价一个entity,最后给个总结。这部分不感兴趣。大概就是综合你们的评价生成一个评价,文本的评价可能会失去一些数量信息,不利于分析,扇形图之类的能够给读者一个比较便于analyse的结果。
把整个文本看做一个总体,以得到对整个entity的评价。
监督学习:能够看做一个三分类(pos,neg,neutral)问题,通常review通常都会有用户本身的评分,一到五星,能够用这个作label来训练。目前的许多方法均可以直接用在这里:unigram的朴素贝叶斯和SVM都能表现不错。
除了用词的occurence,也可用其余特征,例如词频/词性[形容词更重要]/意见词或短语/否认词/句法依赖。基于这些特征,能够改进监督学习模型。
无监督学习:无监督学习通常就用意见词来判断
1.抽取形容词短语
2.计算在全部文档内这样的短语与excellent/poor的PMI,也就是共同出现的频率
3.统计这个文档内全部短语的平均SO(情感倾向)
三:句子主观性判断和情感分析
两个任务:
1. 判断句子主观性,从而过滤掉不表达观点的句子
2. 抽取句子中的aspect并分析so
通常认为一个句子来自同一个opinion holder
[zm 这部分主要在讲一些细节的问题,好比有多个从句的句子处理起来如何如何难,须要作短语级的分析]
根据上面的一些研究,咱们发现关键词是情感分类中最重要的任务,扩展关键词是一项很重要的任务,有如下几种方法。
1.根据词典扩充。种子+用wordnet/hownet之类的词典寻找同义词和反义词
缺点:太general,可能不适应具体文本。
2.根据文本库扩充。在文本库中经过AND/OR/BUT等一些链接词来扩充辞典。(CRF能够用在这里)
缺点:效率低
两个分解任务:
1. 抽取Aspect
2. 情感分类
5.1 首先,情感分类:
用lexicon-based方法来解决这个问题
1. 用pos/neg标记opinion词
2. 解决shifter(not/no)
3. 解决but从句
4. 计算一个句子中每一个aspect的oo(opinion orientation)
5.2 Opinion Rule(?)
opinion rule 就是表示一个opinion是正仍是负
1. opinion word能够直接肯定是正仍是负
2. 这个结果是否是用户预期的结果一样能够表示正负的评价
3. 数量的高低多少一样能够表达见解的正负,例:电视过小了
4. 数量的增长减小也能够,例:吃了这个我头疼减轻了
5. 与正常/期待的不太同样,例:这个药让我血压变低了
6.产生/消耗资源,例:这个太费水了
5.3 Aspect抽取
这个章节介绍了一些无监督的特征抽取方式。第一种方法:
1.找到常出现的名词/名词短语:常出如今人们的评论中,经过计算这个aspect与entity/product class的PMI来肯定是否是个component.
2.经过分析aspect和opinion的关系找到不常见的aspect:经过人们的评价,来找到aspect
CRF, HMM 也能够被用在这里。LDA等TOPIC modeling的方法也能够用在这里[zm在中文短文本上作了实验,效果不怎么样]
5.4 同时作意见词扩充与aspect抽取
经过探索句法特征来同时处理以上两项任务,主要分为如下四个分任务
1. 用opinion word抽取aspect
2. 用已得aspect抽取更多aspect
3.用额外得到的aspect抽取opinion word
4. 用已有的全部opinion word从新扩展opinion word
好玩,主要是用dependency grammar来解决问题
[zm 如下不太感兴趣,今天不看了]
6. 挖掘比较观点
7. 其余问题(entity/holder/extraction 抽取/grouping)
8. 垃圾观点检测
这篇文章对问题的阐述,定义,比较清晰。方法讲的很少,可是问题分析很细致。
Good Representation for Academic Writing:
The task is technically challenging and practically very useful.
Proliferation[增殖] of diverse sites.
Decipher the opinionated text
Research has been done in academia[学术界]
A unified framework
Two terms are used interchangeably.
Quintuple[五部分的]
Opinion, Alligation[陈述], Desire, Belief, Suspicious, Speculation[推断]
Opinion quintuples defined above provide an excellent source of information for generating both qualitative and quantitative summaries.
Some side is crucial
Concise[精确,简练]
Opinion orientation
engineer an effective set of features.
Be instrumental to [积极的,有帮助的]
Two Consecutive[连续的] words