论文:中文情感词典的自动构建及应用 的笔记算法
一.词语级情感分析数据库
1.情感词典的构建方法: 手工标注,基于词典的方法 和 基于语料库的方法。数据结构
手工标注:准确率高,耗费时间和精力。机器学习
基于词典 和 基于语料的方法较多。学习
词语情感分析的难点:1.词语在不一样的环境中产生的情感不一样视频
2. 词语的情感类别分类没有统一的规范。对象
2.句子级情感分析图片
对象:有上下文环境的句子。资源
首要任务:区分 主观句 和 客观句 文档
对于句子的分析方法:1.基于情感词的方法 2.基于机器学习的方法
3.篇章级情感分析
篇章的分析 是综合篇章的词语 和 句子 的情感分析结果的基础上,结合上下文以及该领域相关知识得出结论。
篇章级情感分析方法:基于情感词典的方法 和 基于统计的方法。
基于情感词典的方法:经过分析文档中带有情感色彩来判断文档的极性。
基于统计的方法:将情感分析 做为一个分类问题来考虑
如文献 1:基于监督学习的中文情感分类计数比较研究
文献二:sentiment classification using machine learing techniques
结构化数据: 即行数据,存储在数据库里,能够用二维表结构来逻辑表达实现的数据
非结构化数据:包括全部格式的办公文档,图片,音乐,视频
半结构化数据:如HTML,将自描述的、数据结构和内容混在一块儿,就是介于彻底结构化数据(如关系型数据库、面向对象数据库中的数据)和彻底无结构的数据(如声音、图像文件等)之间的数据。
特征提取的方法:基于互信息、信息增益、X2统计、文档频率,词条强度
结果代表 信息增益 和 X2统计是最有效的特征选择算法
经常使用的语料库:
1.Cornell大学发布的影评数据集
2.UIC的hu和liu 发布的产品领域的评论语料。
3.MPQA 语料,该库取材自535篇通过深度标注的新闻评论语料库。(标注流程在文献34)
4.MIT的 多角度餐馆评论语料
5.中科院发布的大规模的中文酒店评论语料
中文情感词典:
1.知网
2.台湾大学的 NTUSD,有中文简体和繁体两个版本。
3.学生褒贬义词典
4.褒义词词典
5.贬义词词典
情感词典的构建方法: 基于语义词典的方法 和 基于语料的方法
基于语义词典: 给定少许情感词,经过语义词典来判断词语类似度达到扩展词典的目的。 有 WordNet,知网,同义词词林
方法:先收集小规模的带有情感标记的词语集 和 未标注的词表, 经过已有的词典资源,查找词表中词语的同义词和反义词来扩展次词语集。发现的新词语被加入词表中。这个过程会一直迭代到没有新的词语出现。
基于语料的情感词典: 1.经过计算词语间的共现信息计算不一样词语之间的类似度
2.利用词语类似度计算词语语义倾向。
利用词语共现计算词语类似度的技术主要有 : 互信息 和 潜在语义分析。
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
文本特征的表示方法:
1.向量模型。 文档中 某个词的权重。
2.布尔模型。 文档中是否包含某词,包含为1,不包含为2.
3.tf-idf
常见的文本分类算法:
1.统计学习的方法 2.基于规则的方法
文章提出扩充情感词典的方法:文章提出了基于少数情感词自动构建多分类别的中文情感词典。
步骤一:经过句法分析提取文本中特定依存关系中的词语做为情感候选词
步骤二:计算候选词与少许特征词的类似度
步骤三:运用机器学习的方法对词语进行分类获得词语的情感类别,并对结果进行处理。