爬取简书网30日热门得到词云续

时间 2021-01-20

原文原文链接

前面所使用的jieba分词中，是自行收集一些不重要的词进行过滤的，效率不是很高，并且带有比较大的主观性（算是优点，也算是缺点）。本次则改为使用中文停用词表来过滤一些词语。代码相对于上一节来说变化的主要是analysis.py 中的analysis函数。代码大致如下： import jieba.analyse def analysis(db_name, collection_name):