环境配置须要安装的包
pip install pandashtml
pip install jiebapython
pip install sklearngit
1、数据获取
利用python抓取美团的数据集,获取非空的数据,抓取的字段包括店名、评论、评论的打分
2、数据预处理github
导入sklearn的包app
系统默认的包 函数
1.数据洗涤
将爬取的数据进行数据洗涤,去除符号以及标点等,将结果按id和对应的评论从新组合在一块儿
造成一条数据一个评分测试
2.读取数据并作好标签spa
3.读取内容创建训练的字段
apply中的是分词函数,将每一个句子化成词向量进行训练htm
tts分词的模型,test_size是测试集的大小blog
4.构建模型
其中stop_words是停用词
5.保存模型
将模型保存起来并在之后的使用中能够调用
1.导入joblib的包
2.用dump保存起来
3、模型创建
1.初始化使用的分类模型
初始化贝叶斯模型
2.训练模型创建管道保存
4、预测
1.模型预测
算出准确率
2.加载模型训练
3.结果
5、注意
在3.0.x的python版本中sklearn的导入模型有变化,参考我给出的模型包。参考连接很详细,可是导入模型有点旧,有些不能使用训练集的准确率那个包就是如此
6、参考
参考blog:http://blog.sciencenet.cn/blog-377709-1103593.html
最后根据店铺的评论数和评论关键字生成词云