爬虫基础入门（二）

时间 2019-12-05

原文原文链接

1 爬虫之Cookie的使用

1 Opener
2 Cookielib
cookielib模块的主要做用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块很是强大，咱们能够利用本模块的CookieJar类的对象来捕获cookie并在后续链接请求时从新发送，好比能够实现模拟登陆功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。
它们的关系：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar
1）获取Cookie保存到变量
2）保存Cookie到文件
3）从文件中获取Cookie并访问
4）利用cookie模拟网站登陆
以学校的教育系统为例，利用cookie实现模拟登陆，并将cookie信息保存到文本文件中
建立一个带有cookie的opener，在访问登陆的URL时，将登陆后的cookie保存下来，而后利用这个cookie来访问其余网址。
1.3设置Headers
agent就是请求的身份，若是没有写入请求身份，那么服务器不必定会响应，因此能够在headers中设置agent,

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
values = {'username' : 'cqc',  'password' : 'XXXX' }  
headers = { 'User-Agent' : user_agent }

这样，咱们设置了一个headers，在构建request时传入，在请求时，就加入了headers传送，服务器若识别了是浏览器发来的请求，就会获得响应。另外，咱们还有对付”反盗链”的方式，对付防盗链，服务器会识别headers中的referer是否是它本身，若是不是，有的服务器不会响应，因此咱们 还能够在headers中加入本身的referer,以下所示：正则表达式

headers = { 'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  ,
                        'Referer':'http://www.zhihu.com/articles' }

同上面的方法，在传送请求时把headers传入Request参数里，这样就能应付防盗链了。
另外headers的一些属性，下面的须要特别注意一下：json

User-Agent : 有些服务器或 Proxy 会经过该值来判断是不是浏览器发出的请求
Content-Type : 在使用 REST 接口时，服务器会检查该值，用来肯定 HTTP Body 中的内容该怎样解析。
application/xml ： 在 XML RPC，如 RESTful/SOAP 调用时使用
application/json ： 在 JSON RPC 调用时使用
application/x-www-form-urlencoded ： 浏览器提交 Web 表单时使用
在使用服务器提供的 RESTful 或 SOAP 服务时， Content-Type 设置错误会致使服务器拒绝服务

2 爬虫正则表达式
正则表达式是对字符串操做的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正则表达式的大体匹配过程是：
1.依次拿出表达式和文本中的字符比较，
2.若是每个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。
3.若是表达式中有量词或边界，这个过程会稍微有一些不一样。
下面是Python中正则表达式的一些匹配规则，图片资料来自CSDN