TCP/IP 详解卷一之 HTTP协议

时间 2019-12-18

标签 tcp 详解 http 协议栏目系统网络繁體版

原文原文链接

HTTP协议

简介

超文本传输协议（HypertextTransfer Protocol，简称HTTP）是应用层协议。HTTP 是一种请求/响应式的协议，即一个客户端与服务器创建链接后，向服务器发送一个请求；服务器接到请求后，给予相应的响应信息。html

HTTP在TCP/IP协议栈中的位置

HTTP协议一般承载于TCP协议之上，有时也承载于TLS或SSL协议层之上，这个时候，就成了咱们常说的HTTPS。以下图所示：
web

默认HTTP的端口号为80，HTTPS的端口号为443。浏览器

HTTP 请求报文

HTTP 请求报文由请求行、请求头部、空行和请求包体 4 个部分组成，以下图所示：缓存

下面对请求报文格式进行简单的分析：安全

1. 请求行：请求行由方法字段、URL 字段和HTTP 协议版本字段 3 个部分组成，他们之间使用空格隔开。经常使用的 HTTP 请求方法有 GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE、CONNECT；服务器

GET：当客户端要从服务器中读取某个资源时，使用GET 方法。GET 方法要求服务器将URL 定位的资源放在响应报文的数据部分，回送给客户端，即向服务器请求某个资源。使用GET 方法时，请求参数和对应的值附加在 URL 后面，利用一个问号（“?”）表明URL 的结尾与请求参数的开始，传递参数长度受限制。例如，/index.jsp?id=100&op=bind。
POST：当客户端给服务器提供信息较多时可使用POST 方法，POST 方法向服务器提交数据，好比完成表单数据的提交，将数据提交给服务器处理。GET 通常用于获取/查询资源信息，POST 会附带用户数据，通常用于更新资源信息。POST 方法将请求参数封装在HTTP 请求数据中，以名称/值的形式出现，能够传输大量数据；

2. 请求头部：请求头部由关键字/值对组成，每行一对，关键字和值用英文冒号“:”分隔。请求头部通知服务器有关于客户端请求的信息，典型的请求头有：cookie

User-Agent：产生请求的浏览器类型；
Accept：客户端可识别的响应内容类型列表；星号 “ * ” 用于按范围将类型分组，用 “ */* ” 指示可接受所有类型，用“ type/* ”指示可接受 type 类型的全部子类型；
Accept-Language：客户端可接受的天然语言；
Accept-Encoding：客户端可接受的编码压缩格式；
Accept-Charset：可接受的应答的字符集；
Host：请求的主机名，容许多个域名同处一个IP 地址，即虚拟主机；
connection：链接方式（close 或 keepalive）；
Cookie：存储于客户端扩展字段，向同一域名的服务端发送属于该域的cookie；
……

3. 空行：最后一个请求头以后是一个空行，发送回车符和换行符，通知服务器如下再也不有请求头；网络

4. 请求包体：请求包体不在 GET 方法中使用，而是在POST 方法中使用。POST 方法适用于须要客户填写表单的场合。与请求包体相关的最常使用的是包体类型 Content-Type 和包体长度 Content-Length；session

HTTP 响应报文

HTTP 响应报文由状态行、响应头部、空行和响应包体 4 个部分组成，以下图所示：多线程

下面对响应报文格式进行简单的分析：

1. 状态行：状态行由 HTTP 协议版本字段、状态码和状态码的描述文本 3 个部分组成，他们之间使用空格隔开；

a) 状态码由三位数字组成，第一位数字表示响应的类型，经常使用的状态码有五大类以下所示：

1xx：表示服务器已接收了客户端请求，客户端可继续发送请求；
2xx：表示服务器已成功接收到请求并进行处理；
3xx：表示服务器要求客户端重定向；
4xx：表示客户端的请求有非法内容；
5xx：表示服务器未能正常处理客户端的请求而出现意外错误

b) 状态码描述文本有以下取值：

200 OK：表示客户端请求成功；
400 Bad Request：表示客户端请求有语法错误，不能被服务器所理解；
401 Unauthonzed：表示请求未经受权，该状态代码必须与 WWW-Authenticate 报头域一块儿使用；
403 Forbidden：表示服务器收到请求，可是拒绝提供服务，一般会在响应正文中给出不提供服务的缘由；
404 Not Found：请求的资源不存在，例如，输入了错误的URL；
500 InternalServer Error：表示服务器发生不可预期的错误，致使没法完成客户端的请求；
503 ServiceUnavailable：表示服务器当前不可以处理客户端的请求，在一段时间以后，服务器可能会恢复正常；

2. 响应头部：响应头可能包括：

1) Location：Location响应报头域用于重定向接受者到一个新的位置。例如：客户端所请求的页面已不存在原先的位置，为了让客户端重定向到这个页面新的位置，服务器端能够发回Location响应报头后使用重定向语句，让客户端去访问新的域名所对应的服务器上的资源；

2) Server：Server 响应报头域包含了服务器用来处理请求的软件信息及其版本。它和 User-Agent 请求报头域是相对应的，前者发送服务器端软件的信息，后者发送客户端软件(浏览器)和操做系统的信息。

3) Vary：指示不可缓存的请求头列表；

4) Connection：链接方式；

a) 对于请求来讲：close（告诉 WEB 服务器或者代理服务器，在完成本次请求的响应后，断开链接，不等待本次链接的后续请求了）。keepalive（告诉WEB服务器或者代理服务器，在完成本次请求的响应后，保持链接，等待本次链接的后续请求）；

b) 对于响应来讲：close（链接已经关闭）； keepalive（链接保持着，在等待本次链接的后续请求）； Keep-Alive：若是浏览器请求保持链接，则该头部代表但愿WEB 服务器保持链接多长时间（秒）；例如：Keep-Alive：300；

5) WWW-Authenticate：WWW-Authenticate响应报头域必须被包含在401 (未受权的)响应消息中，这个报头域和前面讲到的Authorization 请求报头域是相关的，当客户端收到 401 响应消息，就要决定是否请求服务器对其进行验证。若是要求服务器对其进行验证，就能够发送一个包含了Authorization 报头域的请求；

3. 空行：最后一个响应头部以后是一个空行，发送回车符和换行符，通知服务器如下再也不有响应头部。

4. 响应包体：服务器返回给客户端的文本信息；

HTTP 工做原理

HTTP 协议采用请求/响应模型。客户端向服务器发送一个请求报文，服务器以一个状态做为响应。

如下是 HTTP 请求/响应的步骤：

1. 客户端链接到web服务器：HTTP 客户端与web服务器创建一个 TCP 链接；

2. 客户端向服务器发起 HTTP 请求：经过已创建的TCP 链接，客户端向服务器发送一个请求报文；

3. 服务器接收 HTTP 请求并返回 HTTP 响应：服务器解析请求，定位请求资源，服务器将资源副本写到 TCP 链接，由客户端读取；

4. 释放 TCP 链接：若connection 模式为close，则服务器主动关闭TCP 链接，客户端被动关闭链接，释放TCP 链接；若connection 模式为keepalive，则该链接会保持一段时间，在该时间内能够继续接收请求；

5. 客户端浏览器解析HTML内容：客户端将服务器响应的 html 文本解析并显示；

例如：在浏览器地址栏键入URL，按下回车以后会经历如下流程：

1. 浏览器向 DNS 服务器请求解析该 URL 中的域名所对应的 IP 地址；

2. 解析出 IP 地址后，根据该 IP 地址和默认端口 80，和服务器创建 TCP 链接；

3. 浏览器发出读取文件（URL 中域名后面部分对应的文件）的HTTP 请求，该请求报文做为 TCP 三次握手的第三个报文的数据发送给服务器；

4. 服务器对浏览器请求做出响应，并把对应的 html 文本发送给浏览器；

5. 释放 TCP 链接；

6. 浏览器将该 html 文本并显示内容;

HTTP 无状态性

HTTP 协议是无状态的（stateless）。也就是说，同一个客户端第二次访问同一个服务器上的页面时，服务器没法知道这个客户端曾经访问过，服务器也没法分辨不一样的客户端。HTTP 的无状态特性简化了服务器的设计，使服务器更容易支持大量并发的HTTP 请求。

HTTP 持久链接

HTTP1.0 使用的是非持久链接，主要缺点是客户端必须为每个待请求的对象创建并维护一个新的链接，即每请求一个文档就要有两倍RTT 的开销。由于同一个页面可能存在多个对象，因此非持久链接可能使一个页面的下载变得十分缓慢，并且这种短链接增长了网络传输的负担。HTTP1.1 使用持久链接keepalive，所谓持久链接，就是服务器在发送响应后仍然在一段时间内保持这条链接，容许在同一个链接中存在屡次数据请求和响应，即在持久链接状况下，服务器在发送完响应后并不关闭TCP 链接，而客户端能够经过这个链接继续请求其余对象。

HTTP/1.0 每次请求都须要创建新的TCP链接，链接不能复用。HTTP/1.1 新的请求能够在上次请求创建的TCP链接之上发送，链接能够复用。优势是减小重复进行TCP三次握手的开销，提升效率。

Cookie和Session

Cookie和Session都为了用来保存状态信息，都是保存客户端状态的机制，它们都是为了解决HTTP无状态的问题而所作的努力。

Session能够用Cookie来实现，也能够用URL回写的机制来实现。用Cookie来实现的Session能够认为是对Cookie更高级的应用。

Cookie和Session的比较

Cookie和Session有如下明显的不一样点：

1）Cookie将状态保存在客户端，Session将状态保存在服务器端；

2）Cookies是服务器在本地机器上存储的小段文本并随每个请求发送至同一个服务器。Cookie最先在RFC2109中实现，后续RFC2965作了加强。网络服务器用HTTP头向客户端发送cookies，在客户终端，浏览器解析这些cookies并将它们保存为一个本地文件，它会自动将同一服务器的任何请求缚上这些cookies。Session并无在HTTP的协议中定义；

3）Session是针对每个用户的，变量的值保存在服务器上，用一个sessionID来区分是哪一个用户session变量,这个值是经过用户的浏览器在访问的时候返回给服务器，当客户禁用cookie时，这个值也可能设置为由get来返回给服务器；

4）就安全性来讲：当你访问一个使用session 的站点，同时在本身机子上创建一个cookie，建议在服务器端的SESSION机制更安全些.由于它不会任意读取客户存储的信息。

Session机制

Session机制是一种服务器端的机制，服务器使用一种相似于散列表的结构（也可能就是使用散列表）来保存信息。

当程序须要为某个客户端的请求建立一个session的时候，服务器首先检查这个客户端的请求里是否已包含了一个session标识 - 称为 session id，若是已包含一个session id则说明之前已经为此客户端建立过session，服务器就按照session id把这个 session检索出来使用（若是检索不到，可能会新建一个），若是客户端请求不包含session id，则为此客户端建立一个session而且生成一个与此session相关联的session id，session id的值应该是一个既不会重复，又不容易被找到规律以仿造的字符串，这个 session id将被在本次响应中返回给客户端保存。

Session的实现方式

一、使用Cookie来实现

服务器给每一个Session分配一个惟一的JSESSIONID，并经过Cookie发送给客户端。

当客户端发起新的请求的时候，将在Cookie头中携带这个JSESSIONID。这样服务器可以找到这个客户端对应的Session。

流程以下图所示：

二、使用URL回写来实现

URL回写是指服务器在发送给浏览器页面的全部连接中都携带JSESSIONID的参数，这样客户端点击任何一个连接都会把JSESSIONID带回服务器。

若是直接在浏览器输入服务端资源的url来请求该资源，那么Session是匹配不到的。

Tomcat对Session的实现，是一开始同时使用Cookie和URL回写机制，若是发现客户端支持Cookie，就继续使用Cookie，中止使用URL回写。若是发现Cookie被禁用，就一直使用URL回写。jsp开发处理到Session的时候，对页面中的连接记得使用response.encodeURL() 。

三、在J2EE项目中Session失效的几种状况

1）Session超时：Session在指定时间内失效，例如30分钟，若在30分钟内没有操做，则Session会失效，例如在web.xml中进行了以下设置：

<session-config>
<session-timeout>30</session-timeout> //单位：分钟
</session-config>

2）使用session.invalidate()明确的去掉Session。

四、与Cookie相关的HTTP扩展头

1）Cookie：客户端将服务器设置的Cookie返回到服务器；

2）Set-Cookie：服务器向客户端设置Cookie；

3）Cookie2 (RFC2965)）：客户端指示服务器支持Cookie的版本；

4）Set-Cookie2 (RFC2965)：服务器向客户端设置Cookie。

五、Cookie的流程

服务器在响应消息中用Set-Cookie头将Cookie的内容回送给客户端，客户端在新的请求中将相同的内容携带在Cookie头中发送给服务器。从而实现会话的保持。

流程以下图所示：

缓存的实现原理

一、什么是Web缓存

WEB缓存(cache)位于Web服务器和客户端之间。

缓存会根据请求保存输出内容的副本，例如html页面，图片，文件，当下一个请求来到的时候：若是是相同的URL，缓存直接使用副本响应访问请求，而不是向源服务器再次发送请求。

HTTP协议定义了相关的消息头来使WEB缓存尽量好的工做。

二、缓存的优势

1) 减小相应延迟：由于请求从缓存服务器（离客户端更近）而不是源服务器被相应，这个过程耗时更少，让web服务器看上去相应更快。

2) 减小网络带宽消耗：当副本被重用时会减低客户端的带宽消耗；客户能够节省带宽费用，控制带宽的需求的增加并更易于管理。

三、与缓存相关的HTTP扩展消息头

1) Expires：指示响应内容过时的时间，格林威治时间GMT

2) Cache-Control：更细致的控制缓存的内容

3) Last-Modified：响应中资源最后一次修改的时间

4) ETag：响应中资源的校验值，在服务器上某个时段是惟一标识的。

5) Date：服务器的时间

6) If-Modified-Since：客户端存取的该资源最后一次修改的时间，同Last-Modified。

7) If-None-Match：客户端存取的该资源的检验值，同ETag。

四、客户端缓存生效的常见流程

服务器收到请求时，会在200OK中回送该资源的Last-Modified和ETag头，客户端将该资源保存在cache中，并记录这两个属性。当客户端须要发送相同的请求时，会在请求中携带If-Modified-Since和If-None-Match两个头。两个头的值分别是响应中Last-Modified和ETag头的值。服务器经过这两个头判断本地资源未发生变化，客户端不须要从新下载，返回304响应。常见流程以下图所示：

五、Web缓存机制

HTTP/1.1中缓存的目的是为了在不少状况下减小发送请求，同时在许多状况下能够不须要发送完整响应。前者减小了网络回路的数量；HTTP利用一个“过时（expiration）”机制来为此目的。后者减小了网络应用的带宽；HTTP用“验证（validation）”机制来为此目的。

HTTP定义了3种缓存机制：

1）Freshness：容许一个回应消息能够在源服务器不被从新检查，而且能够由服务器和客户端来控制。例如，Expires回应头给了一个文档不可用的时间。Cache-Control中的max-age标识指明了缓存的最长时间；

2）Validation：用来检查以一个缓存的回应是否仍然可用。例如，若是一个回应有一个Last-Modified回应头，缓存可以使用If-Modified-Since来判断是否已改变，以便判断根据状况发送请求；

3）Invalidation：在另外一个请求经过缓存的时候，经常有一个反作用。例如，若是一个URL关联到一个缓存回应，可是其后跟着POST、PUT和DELETE的请求的话，缓存就会过时。

断点续传和多线程下载的实现原理

1) HTTP协议的GET方法，支持只请求某个资源的某一部分；

2) 206 Partial Content 部份内容响应；

3) Range 请求的资源范围；

4) Content-Range 响应的资源范围；

5) 在链接断开重连时，客户端只请求该资源未下载的部分，而不是从新请求整个资源，来实现断点续传。

分块请求资源实例：

Eg1：Range:bytes=306302- ：请求这个资源从306302个字节到末尾的部分；

Eg2：Content-Range: bytes306302-604047/604048：响应中指示携带的是该资源的第306302-604047的字节，该资源共604048个字节；

客户端经过并发的请求相同资源的不一样片断，来实现对某个资源的并发分块下载。从而达到快速下载的目的。目前流行的FlashGet和迅雷基本都是这个原理。

多线程下载的原理：

1) 下载工具开启多个发出HTTP请求的线程；

2) 每一个http请求只请求资源文件的一部分：Content-Range: bytes 20000-40000/47000；

3) 合并每一个线程下载的文件。

http代理

http代理服务器

代理服务器英文全称是ProxyServer，其功能就是代理网络用户去取得网络信息。形象的说：它是网络信息的中转站。

代理服务器是介于浏览器和Web服务器之间的一台服务器，有了它以后，浏览器不是直接到Web服务器去取回网页而是向代理服务器发出请求，Request信号会先送到代理服务器，由代理服务器来取回浏览器所须要的信息并传送给你的浏览器。并且，大部分代理服务器都具备缓冲的功能，就好象一个大的Cache，它有很大的存储空间，它不断将新取得数据储存到它本机的存储器上，若是浏览器所请求的数据在它本机的存储器上已经存在并且是最新的，那么它就不从新从Web服务器取数据，而直接将存储器上的数据传送给用户的浏览器，这样就能显著提升浏览速度和效率。

更重要的是：ProxyServer(代理服务器)是Internet链路级网关所提供的一种重要的安全功能，它的工做主要在开放系统互联(OSI)模型的对话层。

http代理服务器的主要功能

主要功能以下：

1）突破自身IP访问限制，访问国外站点。如：教育网、169网等网络用户能够经过代理访问国外网站；

2）访问一些单位或团体内部资源，如某大学FTP(前提是该代理地址在该资源的容许访问范围以内)，使用教育网内地址段免费代理服务器，就能够用于对教育网开放的各种FTP下载上传，以及各种资料查询共享等服务；

3）突破中国电信的IP封锁：中国电信用户有不少网站是被限制访问的，这种限制是人为的，不一样Serve对地址的封锁是不一样的。因此不能访问时能够换一个国外的代理服务器试试；

4）提升访问速度：一般代理服务器都设置一个较大的硬盘缓冲区，当有外界的信息经过时，同时也将其保存到缓冲区中，当其余用户再访问相同的信息时，则直接由缓冲区中取出信息，传给用户，以提升访问速度；

5）隐藏真实IP：上网者也能够经过这种方法隐藏本身的IP，免受攻击。

http代理图示

http代理的图示见下图：

对于客户端浏览器而言，http代理服务器至关于服务器。

而对于Web服务器而言，http代理服务器又担当了客户端的角色。

虚拟主机的实现

一、什么是虚拟主机

虚拟主机：是在网络服务器上划分出必定的磁盘空间供用户放置站点、应用组件等，提供必要的站点功能与数据存放、传输功能。

所谓虚拟主机，也叫“网站空间”就是把一台运行在互联网上的服务器划分红多个“虚拟”的服务器，每个虚拟主机都具备独立的域名和完整的Internet服务器（支持WWW、FTP、E-mail等）功能。一台服务器上的不一样虚拟主机是各自独立的，并由用户自行管理。但一台服务器主机只可以支持必定数量的虚拟主机，当超过这个数量时，用户将会感到性能急剧降低。

二、虚拟主机的实现原理

虚拟主机是用同一个WEB服务器，为不一样域名网站提供服务的技术。Apache、Tomcat等都可经过配置实现这个功能。