为何要使用 cookie 信息来进行爬虫呢?作后端的朋友们都知道,通常状况下,在服务器上发布接口都是要设置身份信息验证,验证的方式就是经过 cookie 信息中包含的身份认证来进行验证。在身份验证经过以后,才能获取到响应接口的信息,因此,掌握这一点在爬虫过程当中也是极为必要,否则只能爬取一些不须要验证的公开信息,话很少说,咱们进入实战环节。python
一、导入依赖的第三方扩展库后端
1# -*- coding: UTF-8 -*- 2 3# 导入 urllib 库,对请求参数进行编码 4import urllib 5 6# 导入 urllib2 库,完成网络请求 7import urllib2 8 9# 导入 cookielib 库,用于操做 cookie 信息 10import cookielib
二、登陆网站并提取 cookie 信息进行保存服务器
1# 设置文件路径 2filename = u'usr/load/cookie.txt' 3 4# 建立 MozillaCookieJar 对象用于操做 cookie 信息 5cookie_obj = cookielib.MozillaCookieJar(filename) 6# 构建 opener 对象 7opener_obj = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie_obj)) 8 9# 构建用户名、密码,并进行 encode 编码 10params = urllib.urlencode({ 11 'account': '000000', 12 'passwd': '000000' 13}) 14 15# 定义网站登陆地址 16login_url = 'http://wefd.com/login' 17 18# 向服务器发送请求、实现用户名/密码登陆 19result = opener_obj.open(url=login_url, data=params) 20 21# 保存 cookie 信息 22cookie_obj.save(ignore_discard=True, ignore_expires=True)
三、提取保存的 cookie 信息并使用 cookie 信息完成登陆微信
1# 建立 MozillaCookieJar 实例对象用于操做 cookie 信息 2cookie_obj = cookielib.MozillaCookieJar() 3 4# 设置文件路径 5filename = u'usr/load/cookie.txt' 6 7# 加载 cookie 信息到 MozillaCookieJar 对象 8cookie_obj.load(filename, ignore_discard=True, ignore_expires=True) 9 10# 定义网站登陆地址 11login_url = 'http://wefd.com/login' 12 13# 建立 Request 请求 14request = urllib2.Request(login_url) 15 16# 构建 opener 对象,并加入 cookie 信息 17opener_obj = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie_obj)) 18 19# 执行登陆请求 20response = opener_obj.open(request) 21print response.read()
更多精彩前往微信公众号【Python 集中营】,专一于 python 技术栈,资料获取、交流社区、干货分享,期待你的加入~cookie