糗事百科全站爬虫

以前看到有人写糗事百科的爬虫,就爬了几个页面,感受太少,一个专业的段子手怎么能忍; 本文中使用多进程加多线程,段子用户id保存至redis数据库,用户数据及段子内容存储至mongodb; 本人本身的代理池前段时间没了,这里用的是阿布云代理,说的是每秒支持并行5个代理,其实没有这么多,买了三个帐号连续爬一天,总共爬到30多万个用户数据,段子200多万个 阿布云帐号一小时一块钱 数据库: 段子: 这是
相关文章
相关标签/搜索