使用python对美团的评论进行贝叶斯模型分类

时间 2019-11-12

标签使用 python 对美评论进行贝叶模型分类栏目 Python 繁體版

原文原文链接

环境配置须要安装的包
pip install pandashtml

pip install jiebapython

pip install sklearngit

1、数据获取
利用python抓取美团的数据集，获取非空的数据，抓取的字段包括店名、评论、评论的打分

2、数据预处理github

导入sklearn的包app

系统默认的包函数

1.数据洗涤
将爬取的数据进行数据洗涤，去除符号以及标点等，将结果按id和对应的评论从新组合在一块儿
造成一条数据一个评分
测试

2.读取数据并作好标签spa

3.读取内容创建训练的字段
apply中的是分词函数，将每一个句子化成词向量进行训练htm

tts分词的模型，test_size是测试集的大小blog

4.构建模型

其中stop_words是停用词

5.保存模型

将模型保存起来并在之后的使用中能够调用

1.导入joblib的包

2.用dump保存起来

3、模型创建

1.初始化使用的分类模型
初始化贝叶斯模型

2.训练模型创建管道保存

4、预测

1.模型预测

算出准确率

2.加载模型训练

3.结果

5、注意

在3.0.x的python版本中sklearn的导入模型有变化，参考我给出的模型包。参考连接很详细，可是导入模型有点旧，有些不能使用训练集的准确率那个包就是如此

6、参考
参考blog：http://blog.sciencenet.cn/blog-377709-1103593.html

最后根据店铺的评论数和评论关键字生成词云