中文语料的情感分析基本步骤以下:html
开发环境Python-v3(3.6)
:git
gensim==3.0.1 jieba==0.39 scikit-learn==0.19.1 tensorflow==1.2.1 numpy==1.13.1+mkl
示例代码参考Chinese-sentiment-analysis-with-Doc2Vec
https://github.com/lybroman/C...github
在repo中有两个zip文件分别为train.zip
和test.zip
数据,固然你也能够直接在加载语料时将部分数据用做测试数据(详见后文)。函数
preprocess.py
)72_1380108_2006-11-9_1.0.txt
,那么该评分为1.0分(其实就是差评啦)。咱们须要作的是将全部评分划分为一、二、三、4,5档,顾名思义就是评价由坏到好。这里用了一些简单的字符串处理来获取分数并使用round
函数来对分数取整。words_segment.py
)filter_chars = "\r\n,。;!,.:;:、" trans_dict = dict.fromkeys((ord(_) for _ in filter_chars), '') line = line.translate(trans_dict)
main.py:step 1-3
)gensim.models.doc2vec
,该模块提供了将不定长的文本映射到维度大小固定的向量的功能。这对于计算类似度仍是用做后续的CNN分类器训练(后续有时间的话会实现基于TensorFlow的分类器)都是十分有帮助的。main.py:step 4-5
)sklearn
中的分类器(LR、SVM、决策树等等,最新版本的sklearn还提供了NN的实现)。具体参考scikit-learn。train, test, train_label, test_label = ms.train_test_split( train_arrays, train_labels, test_size=0.2)
prediction.py
)