COMP9414课业解析

COMP9414:情绪分析
假设你被一家大型航空公司聘为数据科学家。你的工做是分析Twitter提要,以肯定客户对你的公司及其竞争对手的情绪。在这项做业中,你将得到一系列关于美国航空公司的推文。这些微博被人为地贴上了情感标签。情绪分为积极、消极或中性。重要提示:不要在互联网上发布这些推文,由于这违反了Twitter的服务条款。您须要使用各类特性和设置来评估各类有监督的机器学习方法,以肯定哪些方法最适合该领域中的情感分类。任务包括两个部分:编写一系列用于情绪分析的模型,以及一份评估模型有效性的报告。编程部分包括开发用于tweet数据预处理的Python代码,以及使用NLP和机器学习工具箱进行方法实验。该报告包括使用各类指标评估和比较模型,并将机器学习模型与基线方法进行比较。您将使用NLTK工具箱进行基本语言预处理,scikit learn用于功能构建和评估机器学习模型。您将得到一个如何使用NLTK和scikit learn来完成此任务的示例(示例.py). 对于情绪分析基线,NLTK包括一个手工制做的(众包)情绪分析工具,VADER,1,因为其使用表情符号和社交媒体文本的其余特征来强化情绪,所以在该领域可能表现良好,然而,维德的准确性很难预测,由于:(i)众包整体上是高度不可靠的,(ii)这个数据集可能不包括太多的情绪和其余情绪标记的使用。数据和方法训练数据集是一个tsv(tab分隔值)文件,其中包含许多tweet,每行有一条tweet,tweet中的换行符被删除。tsv文件的每一行都有三个字段:实例号、tweet文本和情绪(正面、负面或中性)。测试数据集是一个与训练数据集格式相同的tsv文件,只是代码应该忽略情感字段。训练和测试数据集能够从提供的文件中提取数据集.tsv(见下文)。对于除VADER以外的全部模型,将tweet视为单词集合,其中单词是由至少两个字母、数字或符号#、@、$或%组成的字符串,并在删除全部其余字符后(两个字符是scikit learn中CountVectorizer的默认最小字长)。URL应该被视为一个空格,因此要对单词进行分隔。请注意,删除“垃圾邮件”字符可能会建立之前由这些字符分隔的较长单词。使用课堂上讨论的监督学习方法:决策树(DT)、伯努利朴素贝叶斯(BNB)和多项式朴素贝叶斯(MNB)。
情绪分析实际上是一个相对很差量化的内容,每一个人的情绪随着时间与地点的改变一直在进行这起伏变化。就像课业中提到的分析客户对自家公司及竞争对手的情绪变化,目的是什么呢,是寻求到客户对二者的态度以及选择趋向的区别,那么就须要进行大量的平常数据罗列与归类,在归类的同时寻找其中的大范围几率。这也是较难执行的部分
更多讨论能够+V:abby12468编程

相关文章
相关标签/搜索