我用爬虫一天时间“偷了”知乎一百万用户php
只为证实PHP是世界上最好的语言
看了很多朋友圈里推荐的Python爬虫文章, 都以为过小儿科,处理内容原本就是PHP的强项,Python惟一的好处估计也就天生的Linux自带,和Perl同样,这点以为挺不够意思的 Linux,仍是Mac厚道,天生就自带了Python、Perl、PHP、Ruby,固然我也很讨厌讨论一门语言的好坏,每门语言存在就必定有它的道 理,反正PHP是全世界最好用的语言,你们都懂的!java
前几天比较火的是一我的,用C#写了一个多线程爬虫程序,抓取了QQ空间3000万QQ用户,其 中有300万用户是有QQ号、昵称、空间名称等信息的,也就是说,有详情也就300万,跑了两周,这没什么,为了证实PHP是全世界最好的语言,虽然你们 都懂的^_^,我用PHP写了一个多进程爬虫程序,只用了一天时间,就抓了知乎100万用户,目前跑到第8圈(depth=8)互相有关联(关注了和关注 者)的用户。golang
爬虫程序设计redis
由于知乎须要登陆才能获取到关注者页面,因此从chrome登陆以后把cookie拷贝下来给curl程序模拟登陆。chrome
使用两大独立循环进程组(用户索引进程组、用户详情进程组),用的是php的pcntl扩展,封装了一个很是好用的类,使用起来和golang的携程也差很少了。数据库
下面是用户详情的截图,用户索引代码相似缓存
这里插个题外话,通过测试,个人8核的Macbook,跑16进程的速度最快,而16核的Linux服务器,竟然是跑8进程最快,这点有点让我莫名其妙了,不过既然测试出最后进程数,就按照最后设置就好啦。服务器
一、 用户索引进程组先以一个用户为起点,抓取这个用户的关注了和关注者,而后合并入库,由于是多进程,因此当有两个进程在处理同一个用户入库的时候就会出现重 复的用户,因此数据库用户名字段必定要创建惟一索引,固然也能够用redis这些第三方缓存来保证原子性,这个就见仁见智了。微信
经过步骤一以后,咱们就获得下面的用户列表:cookie
二、用户详情进程组按照时间正序,拿到最早入库的用户抓取详情,而且把更新时间更新为当前时间,这样就能够变成一个死循环,程序能够无休止的跑,不断的循环更新用户信息。
程序稳定运行到次日,忽然没有新数据了,检查了一下发现知乎改规则了,不知是为了防我,仍是碰巧,反正给我返回的数据是这样的
第一感受就是胡乱给我输出数据让我采集不到,换了IP、模拟假装了些数据,都没用,忽然感受这个很熟悉,会不会是gzip?抱着怀疑的态度,试了试gzip,首先固然是告诉知乎不要给我gzip压缩过的数据
把 ”Accept-Encoding: gzip,deflate\r\n”; 改为 ”Accept-Encoding:deflate\r\n”; 去掉了 gzip,然并卵!
看来知乎是强制要给我gzip压缩数据了,既然如此,那我就解压呗,查了一下php解压gzip,发现就一个函数gzinflate,因而把获取到得内容加上:
$content = substr($content, 10);
$content = gzinflate($content));
这里我真想说,PHP真的是全世界最好的语言,就两个函数,就完全解决了问题,程序又欢快的跑起来了。
在匹配内容的时候,知乎的细心也是给了我无数的帮助,例如我要分清用户性别:
哈哈开玩笑的拉,实际上是样式里面有 icon-profile-female 和 icon-profile-male ^_^
我蛋疼的抓了它那么多用户,到底有什么用呢?
其实没什么用,我就是闲的蛋疼 ^_^
有了这些信息,其实就能够作一些别人开头闭口就乱吹一通的大数据分析拉。最多见的固然是:性别分布、地域分布、职业分布、每一个职业的男女比例。
固然,按照关注人数、浏览人数、提问数、回答数等排序,看看人民都在关注什么,民生、社会、地理、政治,整个互联网都一览无余拉。
也许,你还能够把头像拿来分析,用开源的验黄程序,把色情的筛选出来,而后去拯救东莞? ^_^而后,你还能够看看那些大学出来的人,最后都干了什么。
有了这些数据,是否是能够打开脑洞 ^_^
下面是利用这些数据作出来的一些有趣的图表,实时图表数据能够去 http://www.epooll.com/zhihu/ 上看
来源:杨泽涛
java学习 (ID: java4fun)(←长按复制)
专一于 Java 技术分享。
(复制微信号,搜索公众号便可关注)
如何关注
一、将微信升级到最新版本,长按二维码,选择“识别图中二维码”便可关注。
二、若没法识别二维码,在微信界面“添加朋友”项进入“查找公众号”,输入“java学习”,亦可关注。
三、为了你们能够更好的交流java技术,能够加入qq群:432784980 “java学习”。
推荐文章:
《招聘一个靠谱的iOS》—参考答案(上)
点击阅读原文查看