CDN技术详解

CDN,全称为Content DeliveryNetwork,中文意为“内容分发网络“”。经过将网络内容发布到最靠近用户的『边缘节点』,使不一样地区的用户在访问相同页面、图片或视频时就能够就近获取。算法

这样可以减轻服务器的负载,也能够减小整个网络中流量分布不均的问题,既可以下降互联网公司的成本(硬件开销、能耗和管理成本),也能有效改善整个网络的性能。后端

 


所谓“边缘节点”指的是CDN服务商通过精心选择的距离用户距离最近的服务器节点,即在各地均有机房集群分布,变得仅是“一跳”距离(traceroute命令后查看通过路由的个数),也就是说用户在访问时不须要通过多个路由器,能够有效提升访问时间。缓存

 

咱们来看以下图示:服务器

 


 

 从上图咱们能够看到,在对某个须要CDN的域名解析时,是由智能CDN负载均衡系统选定的某个边缘节点的IP。用户利用这个IP地址访问边缘节点,而后经过该节点经过其内部DNS解析获得源服务器IP并发出请求来获取用户所需的页面或资源。若请求成功,边缘点会将此资源缓存(cache)下来,下次用户再访问时能够直接读取,而不须要每次都去访问源服务器。网络

 

CDN架构架构

 

可使用第三方CDN平台,若是有须要也能够自建平台,平台资源用不了再拿出来卖,阿里云等就是这个样子发展的。并发

 

那么咱们此次就举例说明淘宝的CDN平台是如何架构的。负载均衡

 

淘宝网的CDN主要用户来支持用户购物,好比双11光棍节,有海量的图片请求。分布式

 

它的图片存储于后端的TFS集群中,CDN系统将这些图片缓存到用户最近的边缘节点。性能

 

CDN系统采用2级缓存:L1和L2级缓存。用户在访问淘宝网的图片时,经过全局调度系统调度到某个L1级缓存节点,若是L1缓存命中,那么就直接将图片数据返回给用户;不然,即请求L2级缓存,并将返回的图片数据缓存到L1缓存节点。若是L2缓存节点被命中,直接将图片数据返回给L1级缓存节点。

 

若是都没有命中,最后请求源图片服务器集群。此集群为一个个的Nginx的Web 服务器,它也会在本地作图片缓存,当本地缓存不命中再去请求后端的TFS集群。图片服务器集群和TFS集群会同时部署在同一个数据中心内。以下图:

 

 

淘宝网CDN总体架构

 

针对于每一个CDN节点,其内部经过LVS+HAProxy的方式进行负载均衡。也能够适当使用Keepalived等进行处理。

 

LVS是四层负载均衡软件,可以支持灵活的负载均衡策略。经过其有机的结合二者,能够将不一样的图片请求调度到不一样的squid服务器。

 

LVS一般vip+master+backup三类机器组成,其中vip是控制机器,其接收外界访问。master与backup为工做与热备节点。其能够实现下面Haproxy机器的健康检测与负载均衡,完成IP层的转发后,交给一台健康且相对负载较轻的Haproxy机器。

 

Haproxy:7层负载均衡技术,将请求转发到真正的Web服务器上。除此以外,还有:

  • Haproxy优化-支持长连接;

  • Haproxy调度算法优化-一致性哈希,根据访问内容(URL)来得出分配的机器

 

每台图片服务器本质是一我的的Squid服务器,用来缓存图片的二进制数据。用户请求按照必定的策略发送到某台squid服务器,若是命中即返回,不然squid再去源服务器快取一份图片再缓存到本地,接着再把该图片数据返回给用户。

 

数据经过一致性哈希分布到不一样的squid服务器中,使得增长/删除服务器,只须要移动1/n(squid服务器总数)的对象。

 

小结 

 

CDN本质是一种分布式缓存系统,无需考虑数据持久化,若是缓存服务器出现问题,在缓存集群中标记为删除便可。

 

淘宝网CDN采用了分级存储,在Squid服务器上使用了SSD + SAS + SATA混合存储,图片随着热点变化而迁移,最热的图片存储在SSD上,中等热度的存储到SAS,轻热度的存储到SATA。经过此种方式,可以很好的结合几种存储介质的成本与优点。

顺应摩尔定律,硬件技术的不断发展,SSD价格快速降低,大部分CDN缓存节点开始大规模配备SSD设备。

 

另外,CDN缓存服务属于IO密集型,而非CPU密集型的服务,使用ATOM芯片可以有效总体下降功耗。

 

须要咱们注意的是,缓存系统访问量较大,更新、删除较少,但须要留意缓存与源服务器之间内容的一致性。好比源服务器更换了一张图片,或者删除了一个数据,须要可以相对实时的推送到CDN缓存节点。

 

本文由21CTO社区原创

相关文章
相关标签/搜索