并无成功爬到全部的短评,一波三折,最终只爬到了500条,固然这也是豆瓣目前可见的最大数量,本文将细致分析爬虫的整个过程,并对爬到的数据加以分析,蚁小见大。python
整篇文章共包含爬和文本分析两部分,由于爬到的数据包含信息较少,因此分析过程相对简单,包含描述统计分析、情感分析和分词词云,主要代码在各部分给出,须要完整代码和爬到的数据请在后台回复"蚁人2爬虫",能够直接运行。工具
1. 爬虫部分blog
首先说明一下目标和工具selenium
软件:python3.6后台
packages:selenium jieba snownlp wordcloud软件
后三个是以后文本分析用的。im
目标网址:统计
https://movie.douban.com/subject/26636712/comments?status=P数据
豆瓣上的影评分两种,一种是长篇大论的影评,还有一种是短评,相似上图中,此次爬虫的目标就是上图中红色框线中的短评,信息包括用户名,星级评价,日期,有用数,评论正文,虽然说主页显示45576条,但其实可见的只有500条,每页是20条短评,多一条都不给,手动去点,点到25页以后就没有任何信息了。dcloud