MemCache 基础介绍与工做原理

时间 2019-11-08

原文原文链接

一、什么是MemCache

官方说明：html

MemCache是一个自由、源码开放、高性能、分布式的分布式内存对象缓存系统，用于动态Web应用以减轻数据库的负载。它经过在内存中缓存数据和对象来减小读取数据库的次数，从而提升了网站访问的速度。MemCaChe是一个存储键值对的HashMap，在内存中对任意的数据（好比字符串、对象等）所使用的key-value存储，数据能够来自数据库调用、API调用，或者页面渲染的结果。MemCache设计理念就是小而强大，它简单的设计促进了快速部署、易于开发并解决面对大规模的数据缓存的许多难题，而所开放的API使得MemCache能用于Java、C/C++/C#、Perl、Python、PHP、Ruby等大部分流行的程序语言。算法

补充：数据库

MemCache是一个高性能的分布式的内存对象缓存系统，用于各类动态应用以减轻数据库负担。它经过在内存中缓存数据和对象，来减小读取数据库的次数，从而提升动态、数据库驱动应用速度。MemCache会在内存中开辟一块空间，创建一个统一的巨大的hash表，hash表可以用来存储各类格式的数据，包括图像、视频、文件以及数据库检索的结果等。　数组

MemCache 和 MemCached：缓存

MemCache是这个项目的名称，而MemCached是服务器端的主程序名称。安全

二、MemCached使用场景

一般，咱们会在访问量高的Web网站和应用中使用MemCache，用来缓解数据库的压力，而且提高网站和应用的响应速度。服务器

在应用程序中，咱们一般在如下节点来使用MemCached：网络

访问频繁的数据库数据（身份token、首页动态）
访问频繁的查询条件和结果
做为Session的存储方式（提高Session存取性能）
页面缓存
更新频繁的非重要数据（访客量、点击次数）
大量的hot数据

经常使用工做流程（以下图）：多线程

客户端请求数据
检查MemCached中是否有对应数据
有的话直接返回，结束
没有的话，去数据库里请求数据
将数据写入MemCached，供下次请求时使用
返回数据，结束

（注意：缓存到MemCached中的数据库数据，在更新数据库时要注意同时更新MemCached）架构

三、MemCached工做原理

MemCached采用了C/S架构，在Server端启动后，以守护程序的方式，监听客户端的请求。启动时能够指定监听的IP（服务器的内网ip/外网ip）、端口号（因此作分布式测试时，一台服务器上能够启动多个不一样端口号的MemCached进程）、使用的内存大小等关键参数。一旦启动，服务就会一直处于可用状态。
为了提升性能，MemCached缓存的数据所有存储在MemCached管理的内存中，因此重启服务器以后缓存数据会清空，不支持持久化。

（1）Memcached内存管理

内存结构

slab_class里，存放的是一组组chunk大小相同的slab
每一个slab里面包含若干个page，page的默认大小是1M，若是slab大小100M，就包含100个page
每一个page里面包含若干个chunk，chunk是数据的实际存放单位，每一个slab里面的chunk大小相同

内存分配方式

Memcached利用slab allocation机制来分配和管理内存，它按照预先规定的大小，将分配的内存分割成特定长度的内存块，再把尺寸相同的内存块分红组，数据在存放时，根据键值大小去匹配slab大小，找就近的slab存放，因此存在空间浪费现象。而传统的内存管理方式是，使用完经过malloc分配的内存后经过free来回收内存，这种方式容易产生内存碎片并下降操做系统对内存的管理效率。
存放数据时，首先slab要申请内存，申请内存是以page为单位的。因此在放入第一个数据的时候，不管大小为多少，都会有1M大小的page被分配给该slab。申请到page后，slab会将这个page的内存按chunk的大小进行切分，这样就变成了一个chunk数组，最后从这个chunk数组中选择一个用于存储数据。

示例：

MemCache中的value存放位置是由value的大小决定，value会被存放到与chunk大小最接近的一个slab中，好比slab[1]的chunk大小为88字节、slab[2]的chunk大小为112字节、slab[3]的chunk大小为144字节（默认相邻slab内的chunk基本以1.25为比例进行增加，MemCache启动时能够用-f指定这个比例），那么一个100字节的value，将被放到2号slab中。

内存回收方式

当数据容量用完MemCached分配的内存后，就会基于LRU(Least Recently
Used)算法清理失效的缓存数据（放入数据时可设置失效时间），或者清理最近最少使用的缓存数据，而后放入新的数据。
在LRU中，MemCached使用的是一种Lazy
Expiration策略，本身不会监控存入的key/vlue对是否过时，而是在获取key值时查看记录的时间戳，检查key/value对空间是否过时，这样可减轻服务器的负载。
须要注意的是，若是若是MemCache启动没有追加-M，则表示禁止LRU，这种状况下内存不够会报Out Of Memory错误。

针对MemCache的内存分配及回收算法，总结三点：

MemCache的内存分配chunk里面会有内存浪费，88字节的value分配在128字节（紧接着大的用）的chunk中，就损失了30字节，可是这也避免了管理内存碎片的问题
MemCache的LRU算法不是针对全局的，是针对slab的
应该能够理解为何MemCache存放的value大小是限制的，由于一个新数据过来，slab会先以page为单位申请一块内存，申请的内存最多就只有1M，因此value大小天然不能大于1M了

（2）MemCached分布式

为了提高MemCached的存储容量和性能，咱们应用的客户端可能会对应多个MemCached服务器来提供服务，这就是MemCached的分布式。

分布式实现原理

MemCached的目前版本是经过C实现，采用了单进程、单线程、异步I/O，基于事件(event_based)的服务方式.使用libevent做为事件通知实现。多个Server能够协同工做，但这些 Server 之间保存的数据各不相同，并且并不通讯（与之造成对比的，好比JBoss Cache，某台服务器有缓存数据更新时，会通知集群中其余机器更新缓存或清除缓存数据），每一个Server只是对本身的数据进行管理。

Client端经过IP地址和端口号指定Server端，将须要缓存的数据是以key->value对的形式保存在Server端。key的值经过hash进行转换，根据hash值把value传递到对应的具体的某个Server上。当须要获取对象数据时，也根据key进行。首先对key进行hash，经过得到的值能够肯定它被保存在了哪台Server上，而后再向该Server发出请求。Client端只须要知道保存hash(key)的值在哪台服务器上就能够了。

当向MemCached集群存入/取出key/value时，MemCached客户端程序根据必定的算法计算存入哪台服务器，而后再把key/value值存到此服务器中。也就是说，存取数据分二步走，第一步，选择服务器，第二步存取数据。

分布式算法解析

余数算法：
先求得键的整数散列值（也是就键string的HashCODE值什么是HashCode），再除以服务器台数，根据余数肯定存取服务器，这种方法计算简单，高效，但在memcached服务器增长或减小时，几乎全部的缓存都会失效。
散列算法：
先算出MemCached服务器的散列值，并将其分布到0到2的32次方的圆上，而后用一样的方法算出存储数据的键的散列值并映射至圆上，最后从数据映射到的位置开始顺时针查找，将数据保存到查找到的第一个服务器上，若是超过2的32次方，依然找不到服务器，就将数据保存到第一台MemCached服务器上。若是添加了一台MemCached服务器，只在圆上增长服务器的逆时针方向的第一台服务器上的键会受到影响。

（3）MemCached线程管理

MemCached网络模型是典型的单进程多线程模型，采用libevent处理网络请求，主进程负责将新来的链接分配给work线程，work线程负责处理链接，有点相似与负载均衡，经过主进程分发到对应的工做线程。

MemCached默认有7个线程，4个主要的工做线程，3个辅助线程，线程可划分为如下4种：

主线程，负责MemCached服务器初始化，监听TCP、Unix Domain链接请求；
工做线程池，MemCached默认4个工做线程，可经过启动参数修改，负责处理TCP、UDP，Unix域套接口链路上的请求；
assoc维护线程，MemCached内存中维护一张巨大的hash表，该线程负责hash表动态增加；
slab维护线程，即内存管理模块维护线程，负责class中slab的平衡，MemCached启动选项中可关闭该线程。

更多见：MemCache-网络线程模型-原码分析

四、MemCached特性与限制

MemCache中能够保存的item数据量是没有限制的，只要内存足够
MemCache单进程在32位机中最大使用内存为2G，这个以前的文章提了屡次了，64位机则没有限制
Key最大为250个字节，超过该长度没法存储
单个item最大数据是1MB，超过1MB的数据不予存储
MemCache服务端是不安全的，好比已知某个MemCache节点，能够直接telnet过去，并经过flush_all让已经存在的键值对当即失效，因此MemCache服务器最好配置到内网环境，经过防火墙制定可访问客户端
不可以遍历MemCache中全部的item，由于这个操做的速度相对缓慢且会阻塞其余的操做
MemCached的高性能源自于两阶段哈希结构：第一阶段在客户端，经过Hash算法根据Key值算出一个节点；第二阶段在服务端，经过一个内部的Hash算法，查找真正的item并返回给客户端。从实现的角度看，MemCache是一个非阻塞的、基于事件的服务器程序
MemCache设置添加某一个Key值的时候，传入expiry为0表示这个Key值永久有效，这个Key值也会在30天以后失效，见memcache.c的源代码：

#define REALTIME_MAXDELTA 60*60*24*30
static rel_time_t realtime(const time_t exptime) {
       if (exptime == 0) return 0;
       if (exptime > REALTIME_MAXDELTA) { 
              if (exptime <= process_started) 
                     return (rel_time_t)1; 
              return (rel_time_t)(exptime - process_started); 
       } else { 
              return (rel_time_t)(exptime + current_time); 
       }
}