“蚁”小见大，数据告诉你《蚁人2》是否值得一看

时间 2019-11-13

标签数据告诉蚁人2 是否值得一看繁體版

原文原文链接

并无成功爬到全部的短评，一波三折，最终只爬到了500条，固然这也是豆瓣目前可见的最大数量，本文将细致分析爬虫的整个过程，并对爬到的数据加以分析，蚁小见大。python

整篇文章共包含爬和文本分析两部分，由于爬到的数据包含信息较少，因此分析过程相对简单，包含描述统计分析、情感分析和分词词云，主要代码在各部分给出，须要完整代码和爬到的数据请在后台回复"蚁人2爬虫"，能够直接运行。工具

1. 爬虫部分blog

首先说明一下目标和工具selenium

软件：python3.6后台

packages：selenium jieba snownlp wordcloud软件

后三个是以后文本分析用的。im

目标网址：统计

https://movie.douban.com/subject/26636712/comments?status=P数据

豆瓣上的影评分两种，一种是长篇大论的影评，还有一种是短评，相似上图中，此次爬虫的目标就是上图中红色框线中的短评，信息包括用户名，星级评价，日期，有用数，评论正文，虽然说主页显示45576条，但其实可见的只有500条，每页是20条短评，多一条都不给，手动去点，点到25页以后就没有任何信息了。dcloud