爬虫之初识爬虫

时间 2019-11-29

原文原文链接

1,爬虫的介绍:php

引入

咱们都知道,咱们当前所处的环境是一个大数据的时代,油漆是互联网,数掌握了数据,谁就掌握了市场的先机,要想掌控数据,就得先获取数据,而爬虫就可让咱们获取到数据源,而且这些数据源考科一根据咱们的目的进行采集java

优酷的火星情报局就是基于网络爬虫和数据分析制做完成的,其中每期的节目话题都是从相关热门的互动平台进行相关数据的爬取,而后对爬取的数据进行数据分析而得来的,而另外一方面优酷根据用户实时观看视频的前进,后退等行为,可以推测出计算出冠照片那个的兴趣点和爱好点,这样有助于节目的剪辑和后期节目方案的编写.python

今日头条做为一个新闻推荐类的应用,器内部的新闻数据都是经过爬虫程序在各个新闻网站进行新闻数据的爬取,而后经过处理和运算将用户感兴趣的新闻话题推送到用户的手机上c++

爬虫简介
爬虫分类
robots协议
反爬机制
反反爬策略

本节内容:web

什么是爬虫:
- 爬虫就是经过编写程序模拟浏览器上网,而后让其去互联网撒花姑娘抓取数据的过程
那些语言能够实现爬虫
1. php:能够实现爬虫,可是php在实现爬虫中支持多线程和多进程的当面作的很差
2. java:能够实现爬虫,java能够很是好的处理和实现爬虫,是惟一能够与python并驾齐驱且是python的头号劲敌,可是java实现爬虫代码较为臃肿,重构成本较大
3. c,c++能够实现爬虫,可是使用这种方式实现爬虫纯粹是技术大牛的能力的体现,却不是明智和合理的选择
4. python: 能够实现爬虫,Python实现和处理爬虫语法简单,代码优美,支持的模块繁多,学习成本低,具备很是强大的框架(scrapy框架)
爬虫的分类
1. 通用爬虫:通用爬虫是搜索引擎(Baidu,Google, Yahoo)"抓取系统"的重要组成部分.主要目的是将互联网的网下载到本地,造成一个互联网内容的镜像备份,简单来说简单来说就是尽量的;把互联网上全部的网页下载下来,放到本地服务器里造成备份,在对这些网页作相关处理(处理关键字,去掉广告),而后提供一个用户检索接口
  - 搜索引擎抓取互联网上的网站数据
  - 门户网站主动向搜索引擎公司提供其网站的url
  - 搜索引擎公司与DNS服务商合做, 获取网站的url
  - 门户网站主动挂靠在一些知名网站的友情链接中
2. 聚焦爬虫:聚焦爬虫是根据指定的需求抓取网络上指定的数据.列如:获取豆瓣电影的名称和影评,而不是获取整张页面中全部的数据值
  - robots.txt协议:若是本身的门户网站中的指定页面中的数据不想让爬虫程序爬到的话,name则能够经过编写一个robots.txt的协议文件来约束爬虫程序的数据爬取.robots协议的编写格式能够观察淘宝网的robots(www.taobao.com/robots.txt).可是须要注意的是,该协议执行只是至关于口头的协议,并无使用相关技术轻质进行技术的管制,所以,该协议是防君子,不放小人
  - 反爬虫:门户网站经过相应的策略和技术手段,防止爬虫程序进行网站数据的爬取
  - 反反爬策略:爬虫程序经过相应的策略和技术手段,破解门户网站的反爬手段,从而爬取到相应的数据

2,python爬虫的http协议和https算法

官方概念:HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,适用于万维网(www:World Wide Web)服务器传输超文本到本地浏览器的传输协议
白话概念:HTTP协议就是该服务器(Server)和客户端(Client)之间进行数据交互(相互传输数据)的一种形式,咱们能够将Server和Client进行拟人化,那么该协议就是Server和Client这俩兄弟间进行指定的一种沟通方式.
HTTP工做原理:HTTP协议工做与客户端-服务端架构上.浏览器做为HTTP服务器接web服务器发送请求,web服务器根据收到的请求后,向客户端发送响应信息
HTTP四点注意事项:
1. HTTP容许传输任意类型的数据对象,正在传输的类型由Content-Type加以标记
2. HTTP是无链接的,无链接的含义是限制每次链接值处理一个请求,服务器处理完客户的请求,并受到客户的应答后,即断开链接.采用这种方式能够节省传输时间
3. HTTP是媒体独立的,这意味着,只要客户端和服务器知道如何处理数据的内容,任何类型的数据均可以经过HTTP发送,客户端以及服务器指定使用适合的MIME-type.
4. HTTP是无状态的:HTTP协议是无状态协议,无状态协议对于事物处理没有记忆能力,缺乏状态意味着若是后续处理须要前面的信息,则它必须重传,这样可能致使每次链接传输的数据量增大.另外一方面,在服务器不须要先前信息时它的应答就较快
5. HTTP值url:HTTP使用统一资源标识符(Uniform Resource Identifiers, URL)来传输数据和创建链接,URL是一种特殊的URL,包含了用于查找某个资源的足够到的信息
URL:全称是UniformResourceLocator,中文叫统一资源定位符,是互联网上用来标识某一处资源地址,一下面这个url为例,介绍下普通url各组成部分: https://i.cnblogs.com/EditDiary.aspx?postid=10296205从这个url能够看出包含如下几部分:
- 协议部分:该url的协议部分为"https":,这个网页表明使用的是HTTP协议,在Internet中农可使用多种协议,如HTTPS,FTP等,本例使用的是HTTPS协议 ,在HTTPS后边的"//"表示分隔符
- 域名部分:跟在域名后端的是端口.域名和端口之间用":"做为分隔,端口不是一个URL必须的部分,若是省略端口部分 ,则采用默认端口
- 虚拟目录部分:从域名后的第一个"/"开始到最后一个为止"/"是虚拟目录部分,虚拟目录也不是一个URL必须的部分,本例的虚拟部分是i.cnblogs.com
- 文件名部分:从域名后的最后一个"/"开始到"?"为止,是文件名部分,若是没有"?",则是从域名的最后一个"/"开始到"#"为止,是文件部分,若是没有"?"和"#",那么从域名后的最后一个"/"开始到结束,都是文件名的部分,本例中是:EditDiary.aspx
- 锚部分:从"#"开始到最后,都是锚部分,本例中的锚部分是:没有,锚部分也不是一个url的必须部分
- 参数部分"从"?"开始到"#"为止之间的部分为参数部分,又称搜索部分,查询部分,本例的参数部分是:postid=10296205
HTTP之Request:

- 客户端发送的一个HTTP请求到服务器的请求消息,包括如下组成部分:

报文头:常被叫作请求体,请求体中存储的是将要传输/发送给服务器的数据信息
HTTP之Response:

服务器传回一个HTTP响应都客户端的响应信息包括如下几部分:

状态码:以清晰的语言告诉客户端本次请求的处理结果.后端

HTTP响应状态码由5段组成:
- 1xx消息,通常是告诉客户端,请求已经收到了,正在处理,别急...
- 2xx处理成功,通常表示:请求收悉,我明白你要的,请求已受理,已经处理完信息等
- 3xx重定向到其余地方,他让客户端再发起一个请求以完成处理结果
- 4xx 处理发生错误,责任在客户端,如客户端的一个请求不存在的资源,客户端未被受权,禁止访问等
- 5xx处理发生错误,责任在服务器,如服务端抛出异常,路由出错,HTTP版本不支持等
HTTP响应的详解:
- 100 Continue: 客户端应当继续发送请求这个临时响应是用来通知客户端它的部分请求已经被服务器接收到了,且仍未被拒绝,客户端应该当继续发送请求的剩余部分,或者若是请求已经完成,忽略这个响应.服务器必须在请求完成后向客户端发送一个最终响应
- 101 Switich Protocols: 服务器已经了解了客户端的请求,并将经过Upgrade消息头通知客户端采用不一样的协议来完成这个请求在发送完这个响应
- 102 Processing:由WebDAV(RFC2518)扩展的状态码,表明处理将继续执行
- 200 OK: 请求成功,请求所但愿的响应头或数据体将随此响应返回,出现此状态码表示正常状态.
- 201 Created: 请求已经被实现,并且有一个新的资源已经依据请求的须要而创建,且器url已经随Location头信息返回,加入须要的资源,没法及时创建,返回的是"202 Accepted"
- 202 Accepted: 服务器已经接受请求,但还没有处理.正如他可能被拒绝同样,最终该请求可能会可能不会被执行,在异步操做的场合下,没有比发这个状态码更方便的了, 返回202状态的响应的目的是容许服务器接收其余过程的请求(列如某个天天只执行一次的基于批处理的操做)而没必要让客户一致保持与服务器链接直到操做所有完成,在接收请求处理并返回202状态码的响应应当在返回的实体中包含一些指示处理当前状态的信息,以及指向处理状态预测的指针,以便用户可以估计操做是否已经完成
- 203 Non-Authoritative Information: 服务器已经处理了请求,但返回的实体头部包括元信息不是在原始服务器上有效的肯定集合,而是来自本地或者第三方的拷贝,当前的信息多是原始版本的子集或者超集.列如,包含资源的元数据可能致使原始服务器知道元信息的超集.但用此状态码不是必须的,并且只有响应不使用此状态便会返回200 ok的状况下才是合适的.
- 204 No Content: 服务器成功处理了请求, 但不须要返回任何实体内容,而且但愿返回更新了的元信息.响应可能经过实体头部的形状返回新的或更新后的元信息,若是存在这些头部信息,则应当与所请求的变量相呼应.,若是客户端是浏览器的话,那么用户浏览器应保留发送了该请求的页面,而不产生任何文档视图上的变化,即便按照规范新的或更新后的元信息应当被运用到用户浏览器活动视图中的文档
- 205 Reset Content: 服务器成功处理了请求,且没有返回任何内容,可是与204响应不一样,返回此状态码的响应要求请求者重置文档视图,该响应主要是被用于接收用户输入后,当即重置表单,以便可以轻松地开始另外一次输入
- 206 Partial Content: 服务器已经成功处理了部分GET请求,相似于flashGet或者迅雷这类的HTTP下载
  具都是使用此类响应实现断点续传或者将一个大文档分解为多个下载段同时下载。
  
  该请求必须包含 Range 头信息来指示客户端但愿获得的内容范围，而且可能包含 If-Range 来做为请求条件。
  
  响应必须包含以下的头部域：
  
  Content-Range 用以指示本次响应中返回的内容的范围；若是是 Content-Type 为 multipart/byteranges 的多段下载，则每一 multipart 段中都应包含 Content-Range 域用以指示本段的内容范围。假如响应中包含 Content-Length，那么它的数值必须匹配它返回的内容范围的真实字节数。
  
  Date
  
  ETag 和/或 Content-Location，假如一样的请求本应该返回200响应。
  
  Expires, Cache-Control，和/或 Vary，假如其值可能与以前相同变量的其余响应对应的值不一样的话。
  
  假如本响应请求使用了 If-Range 强缓存验证，那么本次响应不该该包含其余实体头；假如本响应的请求使用了 If-Range 弱缓存验证，那么本次响应禁止包含其余实体头；这避免了缓存的实体内容和更新了的实体头信息之间的不一致。不然，本响应就应当包含全部本应该返回200响应中应当返回的全部实体头部域。
  
  假如 ETag 或 Last-Modified 头部不能精确匹配的话，则客户端缓存应禁止将206响应返回的内容与以前任何缓存过的内容组合在一块儿。
- 207 Multiple Choices:
  被请求的资源有一系列可供选择的回馈信息，每一个都有本身特定的地址和浏览器驱动的商议信息。用户或浏览器可以自行选择一个首选的地址进行重定向。
  
  除非这是一个 HEAD 请求，不然该响应应当包括一个资源特性及地址的列表的实体，以便用户或浏览器从中选择最合适的重定向地址。这个实体的格式由 Content-Type 定义的格式所决定。浏览器可能根据响应的格式以及浏览器自身能力，自动做出最合适的选择。固然，RFC 2616规范并无规定这样的自动选择该如何进行。
  
  若是服务器自己已经有了首选的回馈选择，那么在 Location 中应当指明这个回馈的 URI；浏览器可能会将这个 Location 值做为自动重定向的地址。此外，除非额外指定，不然这个响应也是可缓存的。
- 301 Moved Permanently :
  被请求的资源已永久移动到新位置，而且未来任何对此资源的引用都应该使用本响应返回的若干个 URI 之一。若是可能，拥有连接编辑功能的客户端应当自动把请求的地址修改成从服务器反馈回来的地址。除非额外指定，不然这个响应也是可缓存的。
  
  新的永久性的URI 应当在响应的 Location 域中返回。除非这是一个 HEAD 请求，不然响应的实体中应当包含指向新的 URI 的超连接及简短说明。
  
  若是这不是一个 GET 或者 HEAD 请求，所以浏览器禁止自动进行重定向，除非获得用户的确认，由于请求的条件可能所以发生变化。
  
  注意：对于某些使用 HTTP/1.0 协议的浏览器，当它们发送的 POST 请求获得了一个301响应的话，接下来的重定向请求将会变成 GET 方式。
- Moved temporarily:
  请求的资源临时从不一样的 URI响应请求。因为这样的重定向是临时的，客户端应当继续向原有地址发送之后的请求。只有在Cache-Control或Expires中进行了指定的状况下，这个响应才是可缓存的。
  
  上文有说起。
  
  若是这不是一个 GET 或者 HEAD 请求，那么浏览器禁止自动进行重定向，除非获得用户的确认，由于请求的条件可能所以发生变化。
  
  注意：虽然RFC 1945和RFC 2068规范不容许客户端在重定向时改变请求的方法，可是不少现存的浏览器将302响应视做为303响应，而且使用 GET 方式访问在 Location 中规定的 URI，而无视原先请求的方法。状态码303和307被添加了进来，用以明确服务器期待客户端进行何种反应。
- 303 See Other:
  对应当前请求的响应能够在另外一个 URL 上被找到，并且客户端应当采用 GET 的方式访问那个资源。这个方法的存在主要是为了容许由脚本激活的POST请求输出重定向到一个新的资源。这个新的 URI 不是原始资源的替代引用。同时，303响应禁止被缓存。固然，第二个请求（重定向）可能被缓存。
  
  注意：许多 HTTP/1.1 版之前的浏览器不能正确理解303状态。若是须要考虑与这些浏览器之间的互动，302状态码应该能够胜任，由于大多数的浏览器处理302响应时的方式偏偏就是上述规范要求客户端处理303响应时应当作的。
- 304 Not Modified:
  若是客户端发送了一个带条件的 GET 请求且该请求已被容许，而文档的内容（自上次访问以来或者根据请求的条件）并无改变，则服务器应当返回这个状态码。304响应禁止包含消息体，所以始终以消息头后的第一个空行结尾。
  
  该响应必须包含如下的头信息：
  
  Date，除非这个服务器没有时钟。假如没有时钟的服务器也遵照这些规则，那么代理服务器以及客户端能够自行将 Date 字段添加到接收到的响应头中去（正如RFC 2068中规定的同样），缓存机制将会正常工做。
  
  ETag 和/或 Content-Location，假如一样的请求本应返回200响应。
  
  Expires, Cache-Control，和/或Vary，假如其值可能与以前相同变量的其余响应对应的值不一样的话。
  
  假如本响应请求使用了强缓存验证，那么本次响应不该该包含其余实体头；不然（例如，某个带条件的 GET 请求使用了弱缓存验证），本次响应禁止包含其余实体头；这避免了缓存了的实体内容和更新了的实体头信息之间的不一致。
  
  假如某个304响应指明了当前某个实体没有缓存，那么缓存系统必须忽视这个响应，而且重复发送不包含限制条件的请求。
  
  假如接收到一个要求更新某个缓存条目的304响应，那么缓存系统必须更新整个条目以反映全部在响应中被更新的字段的值。
- 305 Use Proxy:
  被请求的资源必须经过指定的代理才能被访问。Location 域中将给出指定的代理所在的 URI 信息，接收者须要重复发送一个单独的请求，经过这个代理才能访问相应资源。只有原始服务器才能创建305响应。
  
  注意：RFC 2068中没有明确305响应是为了重定向一个单独的请求，并且只能被原始服务器创建。忽视这些限制可能致使严重的安全后果。
- 306 Switch Proxy: 在最新版的规范中，306状态码已经再也不被使用。
- 307 Temporary Redirect:
  请求的资源临时从不一样的URI 响应请求。
  
  新的临时性的URI 应当在响应的 Location 域中返回。除非这是一个HEAD 请求，不然响应的实体中应当包含指向新的URI 的超连接及简短说明。由于部分浏览器不能识别307响应，所以须要添加上述必要信息以便用户可以理解并向新的 URI 发出访问请求。
  
  若是这不是一个GET 或者 HEAD 请求，那么浏览器禁止自动进行重定向，除非获得用户的确认，由于请求的条件可能所以发生变化。
- 400 Bad Request:
  一、语义有误，当前请求没法被服务器理解。除非进行修改，不然客户端不该该重复提交这个请求。
  
  二、请求参数有误。
- 401 Unauthorized: 当前请求须要用户验证。该响应必须包含一个适用于被请求资源的 WWW-Authenticate 信息头用以询问用户信息。客户端能够重复提交一个包含恰当的 Authorization 头信息的请求。若是当前请求已经包含了 Authorization 证书，那么401响应表明着服务器验证已经拒绝了那些证书。若是401响应包含了与前一个响应相同的身份验证询问，且浏览器已经至少尝试了一次验证，那么浏览器应当向用户展现响应中包含的实体信息，由于这个实体信息中可能包含了相关诊断信息。参见RFC 2617。
- 402 Payment Required: 该状态码死为了未来可能的需求而预留的
- 403 Forbidden :服务器已经理解请求，可是拒绝执行它。与401响应不一样的是，身份验证并不能提供任何帮助，并且这个请求也不该该被重复提交。若是这不是一个 HEAD 请求，并且服务器但愿可以讲清楚为什么请求不能被执行，那么就应该在实体内描述拒绝的缘由。固然服务器也能够返回一个404响应，假如它不但愿让客户端得到任何信息。
- 404 Not Found:请求失败，请求所但愿获得的资源未被在服务器上发现。没有信息可以告诉用户这个情况究竟是暂时的仍是永久的。假如服务器知道状况的话，应当使用410状态码来告知旧资源由于某些内部的配置机制问题，已经永久的不可用，并且没有任何能够跳转的地址。404这个状态码被普遍应用于当服务器不想揭示到底为什么请求被拒绝或者没有其余适合的响应可用的状况下。出现这个错误的最有可能的缘由是服务器端没有这个页面。
- 405 Method Not Allowed:
  请求行中指定的请求方法不能被用于请求相应的资源。该响应必须返回一个Allow 头信息用以表示出当前资源可以接受的请求方法的列表。
  
  鉴于 PUT，DELETE 方法会对服务器上的资源进行写操做，于是绝大部分的网页服务器都不支持或者在默认配置下不容许上述请求方法，对于此类请求均会返回405错误。
- Not Acceptable :
  请求的资源的内容特性没法知足请求头中的条件，于是没法生成响应实体。
  
  除非这是一个 HEAD 请求，不然该响应就应当返回一个包含可让用户或者浏览器从中选择最合适的实体特性以及地址列表的实体。实体的格式由 Content-Type 头中定义的媒体类型决定。浏览器能够根据格式及自身能力自行做出最佳选择。可是，规范中并无定义任何做出此类自动选择的标准。
- 407 Proxy Authentication Required: 与401响应相似，只不过客户端必须在代理服务器上进行身份验证。代理服务器必须返回一个 Proxy-Authenticate 用以进行身份询问。客户端能够返回一个 Proxy-Authorization 信息头用以验证。参见RFC 2617
- 408 Request Timeout: 请求超时。客户端没有在服务器预备等待的时间内完成一个请求的发送。客户端能够随时再次提交这一请求而无需进行任何更改。
- 409 Conflict :
  因为和被请求的资源的当前状态之间存在冲突，请求没法完成。这个代码只容许用在这样的状况下才能被使用：用户被认为可以解决冲突，而且会从新提交新的请求。该响应应当包含足够的信息以便用户发现冲突的源头。
  
  冲突一般发生于对 PUT 请求的处理中。例如，在采用版本检查的环境下，某次 PUT 提交的对特定资源的修改请求所附带的版本信息与以前的某个（第三方）请求向冲突，那么此时服务器就应该返回一个409错误，告知用户请求没法完成。此时，响应实体中极可能会包含两个冲突版本之间的差别比较，以便用户从新提交归并之后的新版本。
- 410 Gone:
  被请求的资源在服务器上已经再也不可用，并且没有任何已知的转发地址。这样的情况应当被认为是永久性的。若是可能，拥有连接编辑功能的客户端应当在得到用户许可后删除全部指向这个地址的引用。若是服务器不知道或者没法肯定这个情况是不是永久的，那么就应该使用404状态码。除非额外说明，不然这个响应是可缓存的。
  
  410响应的目的主要是帮助网站管理员维护网站，通知用户该资源已经再也不可用，而且服务器拥有者但愿全部指向这个资源的远端链接也被删除。这类事件在限时、增值服务中很广泛。一样，410响应也被用于通知客户端在当前服务器站点上，本来属于某个我的的资源已经再也不可用。固然，是否须要把全部永久不可用的资源标记为'410 Gone'，以及是否须要保持此标记多长时间，彻底取决于服务器拥有者
- 500 Internal Server Error: 服务器遇到了一个不曾预料的情况，致使了它没法完成对请求的处理。通常来讲，这个问题都会在服务器端的源代码出现错误时出现。
- 501 Not Implemented: 服务器不支持当前请求所须要的某个功能。当服务器没法识别请求的方法，而且没法支持其对任何资源的请求
- 502 Bad Gateway: 做为网关或者代理工做的服务器尝试执行请求时，从上游服务器接收到无效的响应
- 503 Server Unavaiable: 因为临时的服务器维护或者过载，服务器当前没法处理请求。这个情况是临时的，而且将在一段时间之后恢复。若是可以预计延迟时间，那么响应中能够包含一个 Retry-After 头用以标明这个延迟时间。若是没有给出这个 Retry-After 信息，那么客户端应当以处理500响应的方式处理它
- 504 Gateway Timeout:
  做为网关或者代理工做的服务器尝试执行请求时，未能及时从上游服务器（URI标识出的服务器，例如HTTP、FTP、LDAP）或者辅助服务器（例如DNS）收到响应。
  
  注意：某些代理服务器在DNS查询超时时会返回400或者500错误
- 505 HTTP Version Not Supported: 服务器不支持，或者拒绝支持在请求中使用的 HTTP 版本。这暗示着服务器不能或不肯使用与客户端相同的版本。响应中应当包含一个描述了为什么版本不被支持以及服务器支持哪些协议的实体。

详情访问网址:https://baike.baidu.com/item/HTTP%E7%8A%B6%E6%80%81%E7%A0%81/5053660?fr=aladdin浏览器

3,HTTPS协议:缓存

官方概念:HTTPS(secure Hypertext Transder Protocol)安全超文本传输协议,HTTPS是在HTTP上创建ssl加密层,并对传输数据进行加密,HTTP协议的安全版
普通理解:加了密钥版的HTTP协议
HTTPS采用的加密技术
- SSL加密技术:SSL采用的加密技术叫"共享密钥加密",也叫做"对称密钥加密",这种加密方法是这样的,好比客户端向服务器发送一条消息,首先客户端会采用已知的算法进行加密,好比md5或者base64加密,接收端加密的信息进行解密的时候须要用到密钥,中间会传递密钥,(加密和解密的密钥是同一个),密钥在传输过程当中是被加密的,这种方式看起来安全,可是仍有潜在的危险,一旦被窃听,或者信息被挟持,就有可能破解密钥,从而破解其中的信息.所以"共享密钥加密"这种方式存在安全隐患:
- 非对称密钥加密技术:"非对称密钥加密"使用的时候有2把锁,一把叫作"公有私钥"一把是"公开密钥",使用非对象加密方式的时候,服务器首先告诉客户端按照本身给定的公开密钥进行加密处理,客户端按照公开密钥加密之后,服务器接收到信息再经过本身的私有密钥进行解密,这样作的好处就是解密的密钥根本不会进行传输,所以也就避免了被挟持的风险,就算公开密钥被窃听或者拿了,它也很难进行破解,由于解密过程是对离散对数求值,这可不是垂手可得就能作到的事.安全
- 可是非对称密钥加密也存在以下缺点:
- 第一个就是:如何保证接收端向发送端发出公开密钥的时候,发送端确保收到的是预先要发送的,而不会被挟持,只要是发送密钥,就有可能被挟持的可能
- 第二个是:非对称加密的方式效率比较低,它处理起来更复杂,通讯过程当中使用就有必定的效率问题而影响通讯速度
HTTPS的证书机构,在上面咱们讲了非对称加密的缺点,其中第一个就是公钥极可能存在被挟持的状况,没法保证客户端收到公开密钥就是服务器发行的公开密钥,此时就引出了公开密钥证书机制,数字证书认证机构是客户端与服务器均可信赖的第三方机构.证书的具体传播过程以下:
1. 服务器的开发者携带公开密钥,向数字证书认证机构提出公开密钥的申请,数字证书认证机构在认清申请者的身份,审核经过后,会对开发申请的公开密钥作数字签名,而后分配这个已签名的公开密钥,并将密钥放在证书里,绑定在一块儿.
2. 服务器将这份数字证书发送给客户端,由于客户端也承认证书机构,客户端能够经过数字证书签名来验证公钥的真伪,来确保服务器传过来的公开密钥是真实的,通常状况下证书的数字签名是很难伪造的,这取决于证书机构的公信力.一旦确认无误后,客户端会经过公钥对报文进行加密发送.服务器接收到之后用本身的私钥进行解密.