requests进阶内容
- session处理cookie
- proxies参数设置请求代理ip
- 基于线程池的数据爬取
引入html
有些时候,咱们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”我的主页数据)时,若是使用以前requests模块常规操做时,每每达不到咱们想要的目的,例如:python
一.基于requests模块的cookie操做web
- 结果发现,写入到文件中的数据,不是张三我的页面的数据,而是人人网登录的首页面,why?首先咱们来回顾下cookie的相关概念及做用:ajax
- cookie概念:当用户经过浏览器首次访问一个域名时,访问的web服务器会给客户端发送数据,以保持web服务器与客户端之间的状态保持,这些数据就是cookie。浏览器
- cookie做用:咱们在浏览器中,常常涉及到数据的交换,好比你登陆邮箱,登陆一个页面。咱们常常会在此时设置30天内记住我,或者自动登陆选项。那么它们是怎么记录信息的呢,答案就是今天的主角cookie了,Cookie是由HTTP服务器设置的,保存在浏览器中,但HTTP协议是一种无状态协议,在数据交换完毕后,服务器端和客户端的连接就会关闭,每次交换数据都须要创建新的连接。就像咱们去超市买东西,没有积分卡的状况下,咱们买完东西以后,超市没有咱们的任何消费信息,但咱们办了积分卡以后,超市就有了咱们的消费信息。cookie就像是积分卡,能够保存积分,商品就是咱们的信息,超市的系统就像服务器后台,http协议就是交易的过程。缓存
- 通过cookie的相关介绍,其实你已经知道了为何上述案例中爬取到的不是张三我的信息页,而是登陆页面。那应该如何抓取到张三的我的信息页呢?服务器
思路:cookie
1.咱们须要使用爬虫程序对人人网的登陆时的请求进行一次抓取,获取请求中的cookie数据session
2.在使用我的信息页的url进行请求时,该请求须要携带 1 中的cookie,只有携带了cookie后,服务器才可识别此次请求的用户信息,方可响应回指定的用户信息页数据app
二.基于requests模块的代理操做
- 什么是代理
-
代理就是第三方代替本体处理相关事务。例如:生活中的代理:代购,中介,微商......
-
-
爬虫中为何须要使用代理
-
一些网站会有相应的反爬虫措施,例如不少网站会检测某一段时间某个IP的访问次数,若是访问频率太快以致于看起来不像正常访客,它可能就会会禁止这个IP的访问。因此咱们须要设置一些代理IP,每隔一段时间换一个代理IP,就算IP被禁止,依然能够换个IP继续爬取。
-
-
代理的分类:
-
正向代理:代理客户端获取数据。正向代理是为了保护客户端防止被追究责任。
-
反向代理:代理服务器提供数据。反向代理是为了保护服务器或负责负载均衡。
-
-
免费代理ip提供网站
-
http://www.goubanjia.com/
-
西祠代理
-
快代理
-
-
代码
三.基于multiprocessing.dummy线程池的数据爬取
- 需求:爬取梨视频的视频信息,并计算其爬取数据的耗时
- 普通爬取
- 基于线程池的爬取
- 普通爬取