requests模块html
代理ip:面试
线程池:ajax
scrapy正则表达式
下载中间件:redis
拦截请求:浏览器
UA假装:cookie
代理ip的设置:网络
request.meta['proxy'] = 'http://ip:port'else:
request.meta['proxy'] = 'https://ip:port'
分布式并发
- 爬取肯德基餐厅位置信息:http://www.kfc.com.cn/kfccda/index.aspx - 爬取药监总局:http://125.35.6.84:81/xk/ - 爬取糗事百科图片:https://www.qiushibaike.com/pic/ - 下载免费简历模板:http://sc.chinaz.com/jianli/free.html - 煎蛋网图片爬取:http://jandan.net/ooxx - 解析城市名称:https://www.aqistudy.cn/historydata/ - 古诗文网:https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx - 网易新闻:https://news.163.com/