爬虫相关概念和https加密

时间 2019-11-21

标签爬虫相关概念 https 加密栏目网络爬虫繁體版

原文原文链接

1、爬虫的相关概念

1.什么是爬虫

互联网：由网络设备（网线，路由器，交换机，防火墙）和一台台计算机链接而成，像一张网同样。html

互联网创建目的：互联网的核心价值在与数据的共享/传递：数据是存放在一台台机器上，将计算机联到一块儿的目的为了能方便彼此之间的数据共享/传递，不然你只能拿U盘去别人的计算机上拷贝数据。正则表达式

爬虫概念

爬虫就是经过编写程序模拟浏览器上网，而后让其去互联网上抓取数据的过程。算法

爬虫分类

通用爬虫：爬取整个页面源码数据，抓取数据数据库
聚焦爬虫：爬取一个页面中局部的数据（数据解析），也就是有用的数据json
增量式爬虫：用于检测网站数据更新的状况，从而爬取网站中最新更新出来的数据浏览器

爬虫意义

互联网中最有价值的即是数据，好比天猫商城的商品信息，链家网的租房信息，雪球网的证券投资信息等等，这些数据都表明了各个行业的真金白银，能够说，谁掌握了行业内的第一手数据，谁就成了整个行业的主宰。安全

robots.txt协议

若是本身的门户网站中的指定页面中的数据不想让爬虫程序爬取到的话，那么则能够经过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取。robots协议的编写格式能够观察淘宝网的robots（访问www.taobao.com/robots.txt便可）。服务器

可是须要注意的是，该协议只是至关于口头的协议，并无使用相关技术进行强制管制，因此该协议是防君子不防小人。可是咱们在学习爬虫阶段编写的爬虫程序能够先忽略robots协议。cookie

反爬虫

门户网站经过相应的策略和技术手段，防止爬虫程序进行网站数据的爬取。网络

反反爬虫

爬虫程序经过相应的策略和技术手段，破解门户网站的反爬虫手段，从而爬取到相应的数据。

2.爬虫的基本流程

1.发起请求：

使用http库向目标站点发起请求，即发送一个request，包含：请求头、请求体

2.获取相应内容：

若是服务器能正常响应，则会获得一个Response，包含：html，json，图片，视频

3.解析内容：

解析html数据：正则表达式，第三方解析库如Beautiful，xpath，pyquery等。

解析json数据：json模块

解析二进制数据：以b的方式写入文件

4.保存数据

数据库，文件

3.request请求

1.请求方式

经常使用请求方式：GET，POST

其余请求方式：HEAD，PUT，DELETE，OPTHONS

post与get请求最终都会拼接成这种形式：k1=xxx&k2=yyy&k3=zzz

post请求的参数放在请求体内：可用浏览器查看，存放于form data内。
get请求的参数直接放在url后。

2.请求url

url全称统一资源定位符，如一个网页文档，一张图片，一个视频等均可以用url惟一来肯定。

网页的加载过程是：加载一个网页，一般都是先加载document文档，在解析document文档的时候，遇到连接，则针对超连接发起下载图片的请求。

3.请求头

User-Agent：请求载体的身份标识

Connection：close链接方式

content-type：响应数据类型

Referer：上一次的跳转路径

4.请求体

若是是get方式，请求体没有内容。

若是是post方式，请求体是format data。

登陆窗口，文件上传等，信息都会被附加到请求体内
登陆，输入错误的用户名密码，而后提交，就能够看到post，正确登陆后页面一般会跳转，没法捕捉到post

4.Response响应

1.响应状态

200：表明成功
301：表明跳转
404：文件不存在
403：权限
502：服务器错误

2.Response header

location：跳转
set-cookie：可能有多个，告诉浏览器，把cookie保存下来

3.preview

最主要的部分，包含了请求资源的内容，如html，图片等

这里就简单回顾一下。

1.http协议

1.官方概念：HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。听烂了的概念

2.自述概念：HTTP协议就是服务器（Server）和客户端（Client）之间进行数据交互（相互传输数据）的一种形式。

2.http协议工做原理

HTTP协议工做于客户端-服务端架构为上。浏览器做为HTTP客户端经过URL向HTTP服务端即WEB服务器发送全部请求。Web服务器根据接收到的请求后，向客户端发送响应信息。

3.http之url

HTTP使用统一资源标识符（Uniform Resource Identifiers, URI）来传输数据和创建链接。URL是一种特殊类型的URI，包含了用于查找某个资源的足够的信息

URL,全称是UniformResourceLocator, 中文叫统一资源定位符,是互联网上用来标识某一处资源的地址。如下面这个URL为例，介绍下普通URL的各部分组成：http://www.aspxfans.com:8080/news/index.asp?boardID=5&ID=24618&page=1#name

从上面的URL能够看出，一个完整的URL包括如下几部分：

协议部分：该URL的协议部分为“http：”，这表明网页使用的是HTTP协议。在Internet中可使用多种协议，如HTTP，FTP等等本例中使用的是HTTP协议。在"HTTP"后面的“//”为分隔符

域名部分：该URL的域名部分为“www.aspxfans.com”。一个URL中，也可使用IP地址做为域名使用

端口部分：跟在域名后面的是端口，域名和端口之间使用“:”做为分隔符。端口不是一个URL必须的部分，若是省略端口部分，将采用默认端口

虚拟目录部分：从域名后的第一个“/”开始到最后一个“/”为止，是虚拟目录部分。虚拟目录也不是一个URL必须的部分。本例中的虚拟目录是“/news/”

文件名部分：从域名后的最后一个“/”开始到“？”为止，是文件名部分，若是没有“?”,则是从域名后的最后一个“/”开始到“#”为止，是文件部分，若是没有“？”和“#”，那么从域名后的最后一个“/”开始到结束，都是文件名部分。本例中的文件名是“index.asp”。文件名部分也不是一个URL必须的部分，若是省略该部分，则使用默认的文件名

锚部分：从“#”开始到最后，都是锚部分。本例中的锚部分是“name”。锚部分也不是一个URL必须的部分

参数部分：从“？”开始到“#”为止之间的部分为参数部分，又称搜索部分、查询部分。本例中的参数部分为“boardID=5&ID=24618&page=1”。参数能够容许有多个参数，参数与参数之间用“&”做为分隔符。

3、https协议相关

1.https协议

1.官方概念：HTTPS (Secure Hypertext Transfer Protocol)安全超文本传输协议，HTTPS是在HTTP上创建SSL加密层，并对传输数据进行加密，是HTTP协议的安全版。

2.自述概念：加密安全版的http协议

2.https加密技术

1.ssl对称加密技术

SSL采用的加密技术叫作“共享密钥加密”，也叫做“对称密钥加密”。

加密过程：

客户端向服务器发送一条信息，首先客户端会采用已知的算法对信息进行加密，好比MD5或者Base64加密，接收端对加密的信息进行解密的时候须要用到密钥，中间会传递密钥，（加密和解密的密钥是同一个），密钥在传输中间是被加密的。

缺点：

这种方式看起来安全，可是仍有潜在的危险，一旦被窃听，或者信息被挟持，就有可能破解密钥，而破解其中的信息。所以“共享密钥加密”这种方式存在安全隐患

2.非对称加密技术