这里是在2017-05-20晚上爬取按照积分排名前3000位的博主,本文是在3000条博主的用户信息,23万条博主的活动信息的基础上进行数据分析的,此数据基于学习的目的,不用于商业目的;框架
原本打算对具体动态信息作个排名,不过考虑到可能会涉及隐私,因此放弃,全文分析均为宏观分析;学习
3000位博主中,只有546位填了家乡,比例为18%;博客
能够看的出来,湖北和河南的人数最多,广东四川北京山东属于第二梯队;数据分析
3000位博主中,只有802位填了如今的居住地,比例为27%;基础
能够发现,这个时候,博主的工做地点变成了IT比较发达的省份,像是北京,广东,浙江,上海,四川;软件
大部分在博客园的时间在4-12年的时间,其中5年最多腾讯
206人填了信息,比例为7%软件工程
这里取的是排名前20位的职位,其中由于描述的不一样致使结果存在些许不一样,但能够发现其中软件工程师居多方法
116人填了信息,5个腾讯,2个Autodesk,2个武汉大学,其他均不重复,其中100人在工做,16人在大学im
1258个日子,最近一天为2017-05-20,最远一天为2005-04-14
其中越靠后代表上一次发布博客的时间离如今越近,不过不难发现依然存在挺多的人上次发布博客的时间离如今比较远。
395人,此方法是按照出生地不等于如今居住地计算得出
107人填了信息,占总体比例为4%
单身比例最高,占了将近2/3,已婚次之
发表话题和博客占用比例大致至关
以300为单位
能够发现,前300名大幅拉开和后面的差距
博客数量和分数并非一个线性关系,代表并非发表的博客数量越高分数就越高,不过貌似粉丝数量和分数存在些许关系。
这个项目是我在工做之余花了一周的时间一变学习一边写出来的,其利用Scrapy爬虫框架来实现,过程当中也走了些弯路,基本都是靠不停的查找资料来解决问题。项目并不困难,数据分析也比较简单,在后面能够加上词频分析等等,不过由于最近要开始找工做了,因此暂时要放置一段时间了。
文中若是有错误,请及时指出。