经过Scrapy抓取QQ空间

毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结如下:

首先是模拟登陆的问题:

因为Tencent对模拟登陆比较讨厌,各个防备,而本人能力有限,因此作的最简单的,手动登陆后,得到Cookie信息,而后携带访问。数据库

其次是数据接口:

经过对QQ空间的网页分析,数据主要是经过Json的形式返回。选择了两个数据接口进行数据抓取json

每一个QQ的详细信息接口: "http://user.qzone.qq.com/p/base.s8/cgi-bin/user/cgi_userinfo_get_all?uin="+str(self.currentQQ)+"&vuin=QQ&fupdate=1&rd=0.007898919197098397&g_tk="+GTK网络

每一个QQ的说说信息接口:"http://taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin="+str(self.currentQQ)+"&ftype=0&sort=0&pos=0&num=40&replynum=100&g_tk="+str(self.getOldGTK(self.skey))+"&callback=_preloadCallback&code_version=1&format=json&need_private_comment=1"ui

最后使用Scrapy完成网络请求,并将数据存入数据库

最终进行了简单的统计:

figure_1figure_2figure_3figure_4

相关文章
相关标签/搜索