【伪大数据】对QQ空间指定好友2017年说说数据的分析

没错,我准备用我高考60分的数学水平以及小学生都不如的表达水平加上只会HELLO WORLD的编程水平来一次关于QQ空间动态的分析。git

1、概况

本次爬虫的对象为我学校的一个“表白墙”(如下简称墙墙)在2017年发表的全部的说说。github

1.1 总体状况

首先先来看一下我此次抓了多少数据:算法

爬虫启动于2017年12月31日 15:30编程

因故障中止于2017年12月31日 23:30 - 2018年01月01日 00:30 之间(原谅我忘记在爬虫日志里加上时间了,因此具体啥时候停的我也不知道)网络

最先一条数据是 2016/11/6 23:01:21 的一条说说ide

最晚数据是 2017/12/31 15:26:09 的一条回复网站

这次总共抓取了 17,229 条说说, 629,012 条点赞, 167,617 条回复spa

删去2016年的数据后,剩余 说说15,311条 ,回复163637条.net

能够看到,墙墙在2017年发表了 17,229 条说说,共收到 167,617 条回复,所发表说说总共被点赞了 629,012 次,全部说说总共被浏览了  30,907,875 次。日志

1.2 单条数据

看完了总体的数据,下面就是单条说说的数据:

1240

单条说说的最多与平均值

 

*单条说说浏览量最大值为 9970 次,嗯,比我从玩qq开始到如今的说说浏览量都大,不愧是咱们学校的大V啊。

最有意思的是,平均每条说说浏览量为 2018 这彷佛预示着什么~

2、说说分析

2.1 内容

2.1.1 总体

对于墙墙2017年发布的 17,229 条说说都是什么内容,相信你们都很好奇。(注1)

别着急,我也很好奇,因此我对全部的说说内容进行了整合作了词频分析,获得了以下结果:

1240

词频统计1

1240

词频统计2

嗯,能够看到我作了两个不一样的词频分析,其中一个是国内公司提供的(图2,分词较好,但词组过少),另一个是国外公司提供的(图1,分词较差,但数据比较好看)。

作成词云仍是蛮好看的:

1240

说说词云 (注2)

能够看到,说说内容大多数是关于咨询问题、寻物、吐槽的。

表白墙已经变成了“询问墙”。

2.1.2 标签

墙墙发表说说时通常都会带上标签,诸如 【墙友询问】、【墙友表白】之类的。

因而我也对墙墙说说的TAG进行了统计,结果以下:

 

1240

TAG统计

除去无标签的和一些数量极少的标签,获得的结果如图。

“墙友询问” 这个“大佬”占了全部说说的一半,剩下的则被 “寻物”、“招领”、“吐槽”, 所瓜分。

而做为墙墙名字来源的“表白”只能屈居于第4位,前三名都没有挤进去。

因此说,表白墙虽然名为表白实际倒是借着表白的幌子为人民服务(#滑稽

2.2 发表时间

2.2.1 每个月

1240

月发表说说

能够看到月发表说提及伏较大,可是结合实际来看的话就不难想象为啥会这样了:

1-2 月正是放假的时候,因此这两月的说说发表量达到了一年中最低的时候。

而一样做为假期的7-8月却比1-2月说说多,我想是由于7-8月有不少大一新生,相应的问题就会变得多,因此说说发表量对应的就多一点。

而一样是上学期间的3-6月与9-12月说说发表量差距如此之大,除了下半年是大一新学期外,我想示由于下半年有话题性的节日比较多,且临近跨年,因此你们都比较骚动,所以你懂的。

至于11月为何会达到顶峰,我也想不明白...也许对11月的说说内容分析一下就知道了吧,有兴趣的能够本身分心一下,我在此就不麻烦了。

 

1240

日发表说说

为何一个月中天天说说发表数量起伏这么大?恕我直言,我也不知道,可是能够明显的看到的是,从每个月月初到月底总体的说说数量的趋势是呈降低趋势的。也许是由于不是每月都有31天?

 

2.2.2 周与日

1240

说说发表时段

1240

周发表说说

每周发表的说说数量相对来讲比较平稳,可是在周末时会出现大幅度的降低,至于为啥不用说你们也明白。

而天天说说发表的时间也是比较平稳(除掉睡觉时间的话),而后,每次小高潮都是在下课时间(10:00、12:00、16:00、18:00)......原来我校学生上课不多玩手机啊。

至于 22:00 达到了一天中的最高潮,我想是由于21点下课(自习)后回宿舍折腾一阵后就想发发牢骚吧。

 

3、回复

3.1 内容

和说说同样,我也对全部的回复内容进行了整合以后作了词频分析,结果就不放上来了(涉及到大量隐私),直接上词云(其实我词云都不想放的)!

 

1240

回复词云

是否是被这个大大的 e400824 吓到了?猜猜这是什么?提示一下,这是一个emoji代码哦。

除开这个emoji,最显目的就是满屏的哈哈哈哈哈哈哈哈哈哈哈哈哈哈了!

哈哈~看来咱学校都是爱笑的孩子啊(实际上是分词的问题了)

终于在这个图里看到了“喜欢”、“表白”等字眼了,看来表白墙的初衷没被忘记啊。

3.2 时间

1240

回复时间段

看来回复的时间趋势和发表说说的时间趋势很是相像啊。所不一样的是,回复大可能是在晚上21点之后,也许是大伙白天都忙于学业没法自拔,只有晚上才有时间刷刷动态吧。

特别须要指出的是,回复在0点还有很大的数据,1点后才逐渐趋于无,而咱们学校是23:30熄灯,也就是说,即便熄灯了仍是有不少人选择玩手机而不是睡觉。

而一天中回复开始上升的时候是从6点开始的,也就是说咱学校的学生都喜欢早起,而且会在起来后刷刷空间醒醒瞌睡。

4、点赞

4.1 时间

 

1240

月点赞数据

和说说发表的时间趋势差很少,点赞的高潮和低谷依然是分别在学期和假期,所以在此就很少说了。

4.2 点赞用户

(注3)

4.2.1 性别

1240

点赞性别

在剔除没有标明性别的人后,男女点赞比例约为 6.5:3.5 ,这与我在开学时对咱们学校大一新生的男女比例作的统计差很少,也就是说,点赞与性别没有太大的关系。

4.2.2 星座

1240

点赞者的星座

在剔除了没有标记星座的用户后,获得了如上图的数据。

没想到我巨蟹座竟然是倒数第二个。我还觉得只有我一我的不喜欢胡乱点赞呢,看来是巨蟹座的通病??

4.2.4 城市

1240

点赞者地图

一样的,和我开学时对大一新生作的地址分析状况差很少,大多数点赞这是山西或附近城市的,南方的城市有量少但密集的分布,而北方正相反,量大而较为稀疏。

与我开学时作的分析相悖的是在南方竟然出现了柳州、贵阳、昆明等城市的“点赞狂魔”,要知道,这些城市的学生并非不少。

下面带你们来看一看点赞者城市排名:

 

1240

点赞地址排名

不出意外,前三全是山西省的。

而第五名的 卡洛 ,我查了一下,是爱尔兰的一个城市...

将它剔除后,前五都是山西的,哦不!前九都是山西的...

而根据我开学时的统计,大一新生中,来自山西运城的最多,而从上图也体现出了这一点,果真仍是人多力量大啊。

 

5、墙墙最TOP

声明:该项只为娱乐,其中数据没法保证准确性。

若有不当言论请联系我删除。

1.“点赞是一种态度”

点赞,网络用语,表示“赞同”、“喜好”。该网络语来源于网络社区的“赞”功能。送出和收获的赞的多少、赞的给予偏好等,在某种程度能反映出你是怎样的人以及处于何种状态。 --百度百科

是时候揪出真正的“点赞狂魔”了!

 

1240

点赞狂魔

从图中能够看到,2017年点赞最多的用户竟然在一年内点赞了 11,936 次,平均每小时点赞 1.36 次。这绝对是墙墙真爱啊!

下面咱们来看看点赞超过 5k 的用户有哪些:

 

1240

点赞狂魔,5k以上

因此,荣获 “点赞是一种态度” 奖的是:

516939***  (N***-旗舰店)

小声嘀咕:原来是打广告的啊,怪不得点赞这么勤快

2.“我不发表点意见就浑身难受”

评论,针对于事物进行主观或客观的自我印象阐述。评论易让人听到不利于本身的一面,所以评论的话语容易产生对方的逆反心理。但因为能够较快的表达本身的想法及感觉,广为被大众所使用,实则是说者过瘾,听者闹心。

“我不一样意你的观点,但我誓死捍卫你说话的权利”     --伊夫林·比阿特丽斯·霍尔

因此,就让咱们揪出最喜欢评论的大佬,捍卫它的权利吧!

 

1240

回复数据,竖轴为QQ号,被当成数字处理了,因此是xxM

因此,最喜欢发表评论的人在2017年总共评论了 1,130 次,而2017年参与墙墙说说的讨论的全部人平均只评论了 20.53 次。也就是说,这我的评论次数是平均值的57倍!

再看,评论了 500 次以上的人有13个!看来咱学校果真人才济济啊,看到啥都喜欢“批判一番”。

1240

回复数据(500以上)

所以,荣获 “我不发表点意见就浑身难受” 奖的是:

75423**** (******表白墙)   

怪不得这么勤奋,原来是本尊啊......

3.“我是最尽职的墙墙”

其实,表白墙是学校的一个神秘组织所负责的,并不仅是一我的。

而他们通常都是以手机标志来区分不一样的成员的。

因此,就让咱们找出最尽职的墙墙吧!(此项数据存在较大的争议性,由于尽职与否应该是从多方面来考虑的,而我只考虑了发表说说的数量。虽然发表说说的数量能从必定程度上反映出不一样负责人的值班时间的长短,但并不能客观反映是否尽职)

 

1240

手机标志数量统计

从上面的图中可以很明显的看到,有不少标志其实是重复的,应该就是同一我的,因此我将疑似重复的数据合并后获得下面的数据:

 

1240

合并后的数据统计

这下就清楚多了,第一名竟然一我的就发了 2,550 条说说,是第二名的两倍多!实乃最负责之首啊!而平均每一个负责人发表的说说数量是100条左右,按照每一个人有5个标志来算的话,也就是说“墙墙”这个神秘组织大概有30个负责人,果真是一个庞大神秘组织,要知道我班也就差很少30我的而已。

最终, “我是最尽职的墙墙” 奖是属于 梦幽吟风墙 的!

 

4.“我是最受欢迎的”

说说是QQ空间包含的一项及时发表心情,言论功能,必须在能够链接Internet的状况下使用且有字数格式限制。  --百度百科

关于怎么界定最受欢迎的说说,我思考了好久(其实也就不到5s就草率的决定了)终于得出了个人算法,至于怎么算的,先别急,咱们先来看看一些数据。

 

1240

说说top榜

以上数据中的那串“乱码”是说说id,后面数字是相应的数值。

也就是说,如今可以用来判断的参数有4个,分别是 转发、回复、浏览、点赞。而什么算最受欢迎的呢?我以为应该综合这5个数据来判断,可是也不能简单的求和或求平均值。那么怎么办?

固然是按照重要性来加权了!

按照个人想法,转发>回复>点赞>浏览。

ok,按照这样算后,获得以下数据:

1240

最受欢迎的说说

由于前三项数据比较接近,因此我决定 “我是最受欢迎的” 奖的获奖说说有三个:

1:14c1f42c041ac559be8c0000

 

1240

第一名

2:14c1f42c398f25594fbf0900

 

1240

第二名

3:14c1f42caf5e295a256a0e00

1240

第三名

至此,本次分析结束!

 

注意:

1.由于墙墙发的说说基本上都是发的聊天截图,而文字只有大体的梗概,因此说说内容的分析并不许确,应该将截图通过OCR后提出完整数据再分析,可是由于某些缘由我并无这样作。

2.此词云使用的是国外的网站提供的服务,因此分词数据不太准确,可是这样看起来更加美观,因此词云我没有选用更为准确的国内版,而是用的如今这个。

3.关于文中提到的我开学时作的新生数据分析,由于涉及到新生隐私,因此我并无公开,只是在几个好友中小范围传播过。说到这我仍是得批判一下学校,竟然把新生数据就这样公开到了网上!彻底不顾咱们学生的隐私,一开始我还觉得全部学校都是这样的,直到有一天我准备爬爬基友所在学校的新生数据,我才发现他所在学校的新生数据并无公开,并且查询其余东西也得登录才能查,我还觉得他们学校是个例,因而我又看了基友B的学校...基友C的学校...我去!原来个人学校才是个例,竟然只有个人学校公开了数据!

4.由于个人技术不够,且数学水平不够,因此可以分析的只有这些数据,更多高深的内容我也不懂,也弄不出来,若是各位大佬有什么好的建议但愿能不吝赐教~多的不说了,为了折腾这个我已经弄了好几天了,下周就考试了,而我还没开始预习...再不预习怕是高数要考10分了~

 

词云&词频分析:https://timdream.org/wordcloud/ 

图表制做:Tableau、Excel

须要QQ空间说说爬虫的请至个人Github获取:QQzone_crawler

equationl 制做。

 

 

联系我:admin@likehide.com

原文发表于 2018.01.02 

稍后将补充对爬虫的分析以及如何爬取的教程。

请关注个人博客及时获取信息。

转载于:https://my.oschina.net/equationl/blog/1618059