简书上有哪些优质用户?有多少大V粉丝数上万,获赞数上万?小透明的本身能排到多少位?大V之间相互关注状况如何?签约做者有多少人......学习
我想要了解这些问题,因而便有了本文。url
以《简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化》项目里获取的,贡献了1916篇热门文章的共计799名用户的ID,做为种子ID,爬取各自关注列表里的用户信息,再爬取关注者的关注者,如此几层下去,便能获取到几十万乃至上百万条用户信息及彼此的关注状况。3d
因为简书官方对数据有所保护和限制,仅能获取单个用户的900名关注者(粉丝亦然)。对于关注数小于900的天然能所有获取;而大于900的就只有不完整的数据。cdn
在经过2-3层数据爬取后,共得到261277条用户信息,具体数据有:用户名、主页url、是否为签约做者、粉丝数、获赞数、关注数、文章数、总字数等等:blog
爬取799个种子ID(记为第0层,图中因为数量级偏小,因此看不到出来柱形图的图案)各自的关注者,获得第1层47601条总ID数据(含重复ID),新增19526个净ID;再根据第1层新增的净ID,爬取其关注者,获得第2层1239366(约124w+)条总ID数据,新增189921个净ID;再根据第2层新增的净ID,爬取了部分ID的关注者,获得第3层391762条总ID数据,新增53677个净ID。get
因为时间限制,没有再继续爬取下去,仅获取了上述共261277条数据。由上图可知,虽然一层层的爬取关注者,总ID数在第2层便突破了百万级别,但新增的用户ID增加并无那么快,这说明被关注的用户重复出现,他/她们得到了普遍的关注,于是能够视为较优质的用户。it
有了26万多条数据后,先来看看这些用户各自都有多少粉丝,借此来看看每个人大概的排名是多少。io
绘制成金字塔图后可知,这26w+用户里:粉丝数大于10w+的有5人,依次为:@刘淼、@简黛玉、@彭小六、@简书播客、@江昭和,均是万中挑一的人物;其余各梯度人数看图便可,再也不赘述。值得一提的是粉丝数10-100区间的人数占比最大,为40.38%,而非0粉或1粉的用户,这进一步说明了本次本次爬取的数据较为优质。与《爬取张佳玮138w+知乎关注者:数据可视化》一文中张佳玮138w+知乎关注者中0粉占比29.18%,1-10粉占比55.49%,二者相加用户数已超过116w+,两相对比,更能说明上述问题:ast
另外这26w+用户里0粉的有784人,论理本次爬取时能被爬取到的都起码有一个粉丝,要否则不符合上述爬取的思路,但这里却发现不只有0粉的,甚至有十来个用户粉丝数为负数,不知道是否是简书的BUG,去他们的主页查看,发现确实显示的是负数,可是又明明有粉丝???class
知道了各个梯度(区间)用户的数量和占比,天然也就能知道每一个人的大体排名。以我自身为例,粉丝数480人,排名4140,为前1.6%。还有很大的努力空间。再将全部用户粉丝分布状况绘制成瀑布图,更能给全部奋笔疾书、努力写做和输出的人不断涨粉后跃迁、上升的直观感受。
接下来再看看各类TOP 10的榜单:
所有用户平均粉丝数为79人。全靠下面的大V带飞。
一、刘淼:178262;二、简黛玉:177047;
三、彭小六:139994;四、简书播客:138836;
五、江昭和:133940;六、简叔:89629;
七、韩大爷的杂货铺:88845;八、Sir电影:88840;
九、饱醉豚:86540;十、我带爸爸看世界:77153;
所有用户平均获赞数为102个。大V每天见。
一、彭小六:222734;二、韩大爷的杂货铺:131250;
三、简黛玉:124723;四、Sir电影:83485;
五、衷曲无闻:81205;六、怀左同窗:80567;
七、剽悍一只猫:79558;八、安梳颜:74808;
九、顾一宸:69015;十、陶瓷兔子:66527;
活捉十只关注狂魔!所有用户平均关注数为25人。拖后腿系列
一、临川人:12878;二、桐子树下:10624;
三、阿立斯本:7807;四、陈三白:6651;
五、WEFG_jakerfenG:174;六、欣悦生化:6168;
七、Athena79:5434;八、曾培然:5107;
九、有领uullnn:5086;十、MasterKang:5035;
全部用户平均文章数为14篇。恰好达标。
一、絕塵:2150;二、幸运的贝壳:1834;
三、孤鸟差鱼:1731;四、淡定之龍的傳人:1587;
五、Sir电影:1582;六、郭相麟:1455;
七、鸭梨山大哎:1364;八、炫彬:1360;
九、葡萄喃喃呓语:1354;十、军旗猎猎:1330;
全部用户平均总字数为16750。emmmmmm.
一、爱可可_爱生活:5953371;二、絕塵:4357012;
三、Sir电影:3948118;四、王邑尘:3566126;
五、Sting:3412810;六、诗之源:3337821;
七、优雅爱敌:2716884;八、柳志儒:2512482;
九、掘金官方:2483024;十、军旗猎猎:2429342;
3.6 获赞数/文章数前十
一、一棵花白:7517.5;二、冰冷钻戒:4650;
三、Gosmy:3917;四、该号已废:3751;
五、二十初仲夏的树:3616.85;六、米洛在波士顿:3483;
七、Gibson:2973;八、Mr楠先生:2540;
九、南调北征:2419;十、她好酷的:2391;
不少人都以成为签约做者做为本身写做努力的方向,那么简书到底有多少名签约做者呢?在这26w+较优质用户里,共有126人的主页上明确地挂有“签约做者”的标签。为何这么说呢,是签约做者就是,不是就不是,难道主页上没有标签的用户也多是“签约做者”不成?!
这个好像还真的有可能。具体有待探究。后续会继续研究下“签约做者”这个群体。目前已经另外爬取@签约做者文章合集专题里的3141篇文章,发现该专题里签约做者依旧小于150人,其中很多人目前主页上并无显示标签。去掉和上面126名重复的用户后也不到200人,所以推测简书总共的签约做者不到200人,虽然根据爬取的数据显示,不少人的粉丝数、喜欢数、文章数等都已经符合申请要求了。
一、后续会继续研究下“签约做者”这一群体;
二、学习下用D3.js怎么绘制大V们相互关注的状况;
三、一样的会用《爬取张佳玮138w+知乎关注者:数据可视化》中获取的较优质的用户ID做为种子ID,用本文相同的爬取思路,去获取更多知乎大V的数据。