【原】http缓存与cdn相关技术

时间 2019-11-10

标签 http 缓存 cdn 相关技术栏目 HTTP/TCP 繁體版

原文原文链接

摘要：最近要作这个主题的组内分享，因此准备了一个星期，查了比较多的资料。准备的过程虽然很烦很耗时间，不过由于须要查不少的资料，所以整个过程下来，对这方面的知识影响更加深入。来来来，接下来总结总结javascript

一 http缓存

1.1缓存的分类：

http中具备缓存功能的是：一、浏览器缓存、二、缓存代理服务器。css

1.2 什么是缓存：

http缓存的是指:当Web请求抵达缓存时，若是本地有“已缓存的”副本，就能够从本地存储设备而不是从原始服务器中提取这个文档。java

1.3 缓存的好处有：

1. 减小了冗余的数据传输，节省了网费。web

2. 减小了服务器的负担，大大提升了网站的性能浏览器

3. 加快了客户端加载网页的速度。优化用户体验缓存

1.4 缓存示意图：

第一次请求：服务器

第一次请求，不管是静态文件仍是其余文件，都是从服务器那里读取的。所以没有缓存之说。等第一次请求完，浏览器就有缓存了，而后整个的加载过程就彻底不同了。看下图：网络

浏览器再次请求并发

　流程图解释：app

浏览器再次请求，状况就不同了。首先会读取缓存，而后判断缓存是否过时，若是不过时，就直接读取缓存。

不然，判断浏览器返回的头部信息是否存在Etag,若是存在，浏览器会像服务器发送带有If-None-Match的请求头，来和服务器返回的Etag作对比，

若是if-None-Match和Etag相等。说明缓存没有更新，服务器返回304，浏览器继续从缓存读取相应的内容。若是if-None-Match和Etag不等，则服务器返回200，浏览器从新需

要从服务器获取内容。

　　若是服务器的返回信息里面没有Etag，则判断浏览器的返回信息里是否有Last-Modified。若是有，浏览器会像服务器发送一个if-Modified-Since的请求头。而后if-Modified-

Since的值会和Last-Modified的值作对比，若是if-Modified-Since的值大于等于Last-Modified，则服务器返回304，文件没有更新，直接读取缓存便可。若是if-Modified-Since

的值小于Last-Modified。则说明浏览器的缓存不是最新的，须要从服务器从新读取。

　　若是服务器返回的头部信息既没有Etag，又没有Last-Modified,则缓存已经失效了，从新服务器抓取。

若是第一次接触浏览器缓存的同窗，可能会晕掉。说的是什么鬼东西，头都晕了，尼玛。好的，接下来就解释一下上面说的那些概念。

2、Http缓存概念解析

2.1 Expires策略

　　Expires是web服务器响应消息头字段，在响应http请求时告诉浏览器在过时时间前，浏览器能够直接从浏览器缓存读取数据，而无需再次请求，它的值对应一个GMT（格林尼治时间），好比“Mon, 22 Jul 2012 11:15:08 GMT”来告诉浏览器资源缓存过时时间，若是还没过该时间点则不发请求。

咱们可使用meta标签来告知页面。不过值对ie有效。以下：

<meta http-equiv="expires" content="sun, 19 apr 2016 14:30:00 GMT">

　　不过Expires是HTTP 1.0的东西。如今浏览器都是默认HTTP 1.1的了。因此基本能够忽略它。Expires有一个缺点，就是它的过时时间是服务器的时间，好比个人客户端时间和服务器时间相差很大，那偏差就很大。好比服务器返回的是2016年7月16号过时，个人电脑时间被我修改了，快了一天为2016年7月17号，那客户端缓存就过时了。因此它被Cache-Control：max-age=秒替代了。

2.2 Cache-control策略

Cache-Control与Expires的做用一致，都是指明当前资源的有效期，控制浏览器是否直接从浏览器缓存取数据仍是从新发请求到服务器取数据。

只不过Cache-Control的选择更多，设置更细致，若是同时设置的话，其优先级高于Expires。

Cache-Control可拥有以下值：

Public
任何状况下都得缓存该资源。

Private
指示对于单个用户的整个或部分响应消息，不能被共享缓存处理。缓存只开放给某些特定的用户，好比服务器的用户，其余用户则不能缓存这些数据。

no-cache
指示请求或响应消息不能缓存，该选项并非说能够设置”不缓存“，容易望文生义~。要求向服务器发起新鲜度检验

no-store
用于防止重要的信息被无心的发布。在请求消息中发送将使得请求和响应消息都不使用缓存，彻底不存下來。主要用于一些机密文件

max-age
指示客户端该端时间内缓存都是最新的。以秒为单位。好比：Cache-Control：max-age=120 表示2分钟以后过时。

min-fresh
指示客户端但愿获取一个在小于指定的时间内被更新过的资源，单位为秒：例如：Cache-Control：min-fresh =120 。向服务器获取2分钟内被更新过的资源

max-stale
指示客户端能够接收超出超时期间的响应消息。例如：Cache-Control：max-stale =120 ，向服务器获取超过缓存时间2分钟的资源。

例：

Cache-Control:max-age=645672
指定页面645672秒（7.47天）后过时。

2.3 Last-Modified/If-Modified-Since （Last-Modified/If-Modified-Since要配合Cache-Control使用。）

Last-Modified：

　　标示这个响应资源的最后修改时间，web服务器在响应请求时，告诉浏览器资源的最后修改时间。

If-Modified-Since：

　　当资源过时时（也就是 Cache-Control:max-age=0，），发现资源具备Last-Modified声明，则再次向web服务器请求时带上头 If-Modified-Since，表示请求时间。web服

务器收到请求后发现有头If-Modified-Since 则与被请求资源的最后修改时间进行比对。若Last-Modified的时间较新，说明最后修改时间较新，说明资源又被改动过，则响应整

的资源从新从服务器读取，而不是读取缓存，返回200状态吗；若If-Modified-Since的时间比Last-Modified新或者相等，说明服务器的内容没有更新，直接读取缓存便可，

返回304状态码，告知浏览器继续使用所保存的cache。

以下图，用fidder读取博客园的缓存：

If-Modified-Since的时间等于Last-Modified，直接读取缓存，返回304状态码

Last-Modified的时间较新，资源有改动，不读取缓存，从新从服务器获取资源，返回200状态码

2.4 Etag/If-None-Match：(Etag/If-None-Match也要配合Cache-Control使用。)

Etag：

　　web服务器响应请求时，告诉浏览器当前资源在服务器的惟一标识（生成规则由服务器决定）。因此咱们不用管它是怎么生成的。

它就像一个哈希或者指纹，每一个文件都有一个单独的标志，只要这个文件发生了改变，这个标志就会发生变化。

Apache中，ETag的值，默认是对文件的索引节（INode），大小（Size）和最后修改时间（MTime）进行Hash后获得的。

If-None-Match：

　　当资源过时时（也就是 Cache-Control:max-age=0），若是客户端发现服务端返回的头部信息具备Etage声明，则客户端会再次向web服务器请求时带上头If-None-

Match （Etag的值）。web服务器收到请求后发现有头If-None-Match 则与被请求资源的相应校验串进行比对，决定返回200或304。

若是Etag的值和If-None-Match的值相等，说明服务器的资源没有更新，返回304状态码，客户端直接读取缓存便可。若是Etag的值和If-None-Match的值不等，说明服务器的资

源有更新，返回200状态码，不读取缓存，从新从服务器获取资源。

实例以下：

读到这里，是否是有个小小的疑问，为啥Last-Modified已经能够判断了，那还要Etag来干吗？是否是画蛇添足了。答案：非也

Etag 主要为了解决 Last-Modified 没法解决的一些问题。

一、一些文件也许会周期性的更改，可是他的内容并不改变(仅仅改变的修改时间)，这个时候咱们并不但愿客户端认为这个文件被修改了，而从新GET;

二、某些文件修改很是频繁，好比在秒如下的时间内进行修改，(比方说1s内修改了N次)，If-Modified-Since能检查到的变化时秒为单位的，这种修改没法判断。所以须要Etag来判断。

三、某些服务器不能精确的获得文件的最后修改时间；

若是Last-Modified与ETag一块儿使用时，服务器会优先验证ETag。而Last-Modified的优先级又高于Expires

也就是优先级：ETag>Last-Modified>Expires

Last-Modified与ETag是能够一块儿使用的，服务器会优先验证ETag，一致的状况下，才会继续比对Last-Modified，最后才决定是否返回304。

3、cdn相关技术

本文仍是主要介绍缓存，其实cdn穿插进来不知道会不会很很差，不过本文是根据作分享的文件来总结的，因此也顺便总结一下cdn啦

3.1 cdn是什么？

　　CDN也叫内容分发网络，是一个经策略性部署的总体系统，包括分布式存储、负载均衡、网络请求的重定向和内容管理4个要件。而其中呢，内容管理和全局的网络流量管理是CDN的核心所在。经过用户就进行和服务器负载的判断，CDN确保内容以一种极为高效的方式为用户的请求提供服务。

3.2 CDN的好处：

（1）CDN节点解决了跨运营商和跨地域访问的问题，访问延时大大下降；

（2）大部分请求在CDN边缘节点完成，CDN起到了分流做用，减轻了源站的负载，解决网站高流量、大并发的问题

　　我国的网络是划江而治的格局，由于利益之争，各网络服务商之间并非通力协做，而是采起各类手段相互限制。

这就致使各网之间的互联互通存在很大的问题，具体表现为：电信的用户访问放置在网通机房的服务器，响应时间特别长，反之亦然。

使用CDN技术，可让电信的用户访问电信的内容缓存服务器，网通的用户访问网通的内容缓存服务器。经过这样一种策略，绕开了网络运

营商之间人为设置的障碍。

　　此外，还有如下的几个案例，使用CDN技术也很好的解决了下面所遇到的问题

　　1.一个企业的网站服务器在北京，运营商是电信，在广东的联通用户访问企业网站时，由于跨地区，跨运营商的缘由，网站打开速度就会比

北京当地的电信客户访问速度慢不少，很容易形成这个企业的客户流失
　　
　　2.一个网站的服务器性能比较差，承载能力有限，有时面临突发流量，招架不住，直接致使服务器崩溃，网站打不开，好比淘宝的双十一期，

由于这种状况网站打不开，那损失必然很大。而CDN也很好的解决了这一问题。

　　3.再好比一些中小企业租用的虚拟主机，由于跟好几个网站共用一台服务器，每一个网站所分带宽有限，带宽太小常常致使流量稍微一多，

网站打开速度就很慢，甚至打不开。这些也是CDN能够解决的问题

3.3 CDN的限制：

一、CDN 对于不常常访问的资源是无效的。一般只有在 CDN缓存过时前有至少两次访问的资源才算有效。

二、CDN 对于不断变化的资源不适用。

三、CDN 对于不想公开资源多是一个糟糕的选择。

3.4 CDN的机制和缓存机制：

cdn机制：

　　通常来讲，互联网更快速度地数据传输与源数据和客户端有密切关系。将源数据的缓存副本放置得与客户端比较接近，当用户须要访问数据时，从最接近的位置检索它将比从原

始结点检索会更快儿些。这种作法一般称为分布式缓存，这也是CDN 的做用所在。

　　具体地说，咱们将关注是经过 HTTP 访问的文件。虽然全部用户看到相同的 URL文件，不一样的用户将被路由到不一样的 CDN 节点。这是 CDN的要点：将请求路由到就近的

CDN 节点，以提升响应速度。

　　如图所示：

cdn的缓存机制：

　　CDN边缘节点缓存策略因服务商不一样而不一样，但通常都会遵循http标准协议，经过http响应头中的Cache-control: max-age的字段来设置CDN边缘节点数据缓存时间。当客

户端向CDN节点请求数据时，CDN节点会判断缓存数据是否过时，若缓存数据并无过时，则直接将缓存数据返回给客户端；不然，CDN节点就会向源站发出回源请求，从源站拉

取最新数据，更新本地缓存，并将最新数据返回给客户端。因此，若是咱们修改了内容，最好加个版本号，来容CDN从新获取资源，从而减小没必要要的麻烦，好比 :

app.js?v=20160717 或者 style.css?v=2016071701

　　CDN服务商通常会提供基于文件后缀、目录多个维度来指定CDN缓存时间，为用户提供更精细化的缓存管理。CDN缓存时间会对“回源率”产生直接的影响。若CDN缓存时间较

短，CDN边缘节点上的数据会常常失效，致使频繁回源，增长了源站的负载，同时也增大的访问延时；若CDN缓存时间太长，会带来数据更新时间慢的问题。开发者须要增对特定的业务，来作特定的数据缓存时间管理。

小小总结，有误指出，欢迎指出