“蚁”小见大,数据告诉你《蚁人2》是否值得一看

2172396fb4e14ac3c00d2f35776fde041670e93c
并无成功爬到全部的短评,一波三折,最终只爬到了500条,固然这也是豆瓣目前可见的最大数量,本文将细致分析爬虫的整个过程,并对爬到的数据加以分析,蚁小见大。python

整篇文章共包含爬和文本分析两部分,由于爬到的数据包含信息较少,因此分析过程相对简单,包含描述统计分析、情感分析和分词词云,主要代码在各部分给出,须要完整代码和爬到的数据请在后台回复"蚁人2爬虫",能够直接运行。工具

1. 爬虫部分blog

首先说明一下目标和工具selenium

软件:python3.6后台

packages:selenium jieba snownlp wordcloud软件

后三个是以后文本分析用的。im

目标网址:统计

https://movie.douban.com/subject/26636712/comments?status=P数据

3914a64a364e66a28bea945632b402efbe54bc95

豆瓣上的影评分两种,一种是长篇大论的影评,还有一种是短评,相似上图中,此次爬虫的目标就是上图中红色框线中的短评,信息包括用户名,星级评价,日期,有用数,评论正文,虽然说主页显示45576条,但其实可见的只有500条,每页是20条短评,多一条都不给,手动去点,点到25页以后就没有任何信息了。dcloud

相关文章
相关标签/搜索