以前在知乎看到一位大牛(二胖)写的一篇文章:python爬取知乎最受欢迎的妹子(大概题目是这个,具体记不清了),可是这位二胖哥没有给出源码,而我也没用过python,正好顺便学一学,因此我决定本身动手搞一搞.
爬取已经完成,文末有 python的源码和妹子图片的百度云地址html
爬虫仍是要用python(以前用过一个国人大牛写的java爬虫框架 webmagic),因此花了点时间看了下网上python的教程,语法什么的(固然什么都没记住~),而后看了看scrapy这个爬虫框架,大概了解了其中各个组件的做用,每一个组件的做用和爬取数据的几个步骤.java
知乎二胖哥的思路大体以下:python
知乎妹子爆照合集
的收藏夹我存储图片的目录是按照 问题id/回答id
的格式存放的.mysql
程序员
指定的问题:
基本上这些问题都是妹子爆照多的话题,有很多妹子照片.

目录结构:
web
面试


ajax
爬取网页(知乎)信息大概分为如下几个步骤:sql
python scrapy爬虫框架概念介绍(我的理解总结为一张图)
python scrapy 登陆知乎过程
使用python scrapy爬取知乎提问信息
python scrapy爬取知乎问题和收藏夹下全部答案的内容和图片数据库
若是有同窗对python的爬虫代码和妹子图片感兴趣,
我已上传,关注微信公众号:程序员灯塔 (code12306)
回复 '知乎源码',获取python源码
回复 '知乎美女',获取12G图片资源的百度网盘地址.
程序员灯塔,关注互联网+大数据技术. 分享面试攻略+技术干货!