爬取博客园首页数据进行数据分析

前言

以前折腾了一小段时间scrapy,以为使用起来异常简单,而后打算练练手。目标选取了博客园,爬取了首页的前200页文章,可是数据放在那一直没去分析。趁着如今有闲心,来分析分析。javascript

声明:全部爬取的数据皆为公开数据。为了不对博客园形成压力,爬虫代码不公开。数据分析软件使用的是Tableau。若是你认为本文侵犯了你的权益,请联系做者删除。html

注:数据来源是2017年05月17日至8月17的博客园首页文章。前文都是数据分析的图片展现,想要博主或文章的连接,请拉至最后。前端

谁是博客园最爱的用户

最爱的用户,在这里是按文章上首页的数量来判断的。java

top_main

可见,小火柴的蓝色理想才是博客园最爱的用户。python

让咱们换个角度看看

top-main-relative

小火柴的蓝色理想貌似已经独孤求败了,远远的拉开了第二名。(做者注:很是推荐他的博客,后面会给出连接)linux

最值得推荐的文章是哪些

top-recommand

访问量最多的文章是哪些

top-visit

评论最多的文章是哪些

top-comm

哪天上首页的文章比较多

top-day

你们之后能够看好时机发表文章了。程序员

各种连接

博客园最爱的用户

最多推荐

最多访问

最多评论

感谢你的阅读。文章首发于前端进阶指南微信公众号,想要获取更多知识,就快快关注吧。面试

前端进阶指南

咱们也是有交流群的,660112451。sql

相关文章
相关标签/搜索