Redis的字符串对象笔记

字符串对象

字符串数据类型是Redis里最经常使用的类型了,它的键和值都是字符串,使用起来很是的方便。虽然字符串数据类型的值都统称为字符串了,可是在实际存储时会根据值的不一样自动选择合适的编码。字符串对象的编码一共有三种:intrawembstrc++

Redis对象

Redis用统一的数据结构来表示一个对象,具体定义以下:面试

typedef struct redisObject {
    unsigned type:4;
    unsigned encoding:4;
    // 当内存超限时采用LRU算法清除内存中的对象
    unsigned lru:LRU_BITS; /* LRU time (relative to global lru_clock) or * LFU data (least significant 8 bits frequency * and most significant 16 bits access time). */
    // 该对象被引用数
    int refcount;
    // 对象的值指针
    void *ptr;
} robj;
复制代码

其中type字段表明对象的类型,取值一共有7种:redis

/* A redis object, that is a type able to hold a string / list / set */

/* The actual Redis Object */
#define OBJ_STRING 0 /* 字符串对象. */
#define OBJ_LIST 1 /* 列表对象. */
#define OBJ_SET 2 /* 集合对象. */
#define OBJ_ZSET 3 /* 有序集合对象. */
#define OBJ_HASH 4 /* 哈希对象. */

/* The "module" object type is a special one that signals that the object * is one directly managed by a Redis module. In this case the value points * to a moduleValue struct, which contains the object value (which is only * handled by the module itself) and the RedisModuleType struct which lists * function pointers in order to serialize, deserialize, AOF-rewrite and * free the object. * * Inside the RDB file, module types are encoded as OBJ_MODULE followed * by a 64 bit module type ID, which has a 54 bits module-specific signature * in order to dispatch the loading to the right module, plus a 10 bits * encoding version. */
#define OBJ_MODULE 5 /* 模块对象. */
#define OBJ_STREAM 6 /* 流对象. */
复制代码

而后是encoding字段,表明着对象值的实际编码类型,取值一共有11种:算法

/* Objects encoding. Some kind of objects like Strings and Hashes can be * internally represented in multiple ways. The 'encoding' field of the object * is set to one of this fields for this object. */
#define OBJ_ENCODING_RAW 0 /* 简单动态字符串 */
#define OBJ_ENCODING_INT 1 /* long类型的整数 */
#define OBJ_ENCODING_HT 2 /* 字典 */
#define OBJ_ENCODING_ZIPMAP 3 /* 压缩字典 */
#define OBJ_ENCODING_LINKEDLIST 4 /* 再也不使用的旧列表,使用双端链表. */
#define OBJ_ENCODING_ZIPLIST 5 /* 压缩列表 */
#define OBJ_ENCODING_INTSET 6 /* 整数集合 */
#define OBJ_ENCODING_SKIPLIST 7 /* 跳跃表和字典 */
#define OBJ_ENCODING_EMBSTR 8 /* embstr编码的简单动态字符串 */
#define OBJ_ENCODING_QUICKLIST 9 /* 编码为ziplist的列表 */
#define OBJ_ENCODING_STREAM 10 /* 编码为listpacks的基数树 */
复制代码

前面已经提到字符串对象只用到了long类型的整数简单动态字符串embstr编码的简单动态字符串这三种编码。数据库

OBJ_ENCODING_INT

当字符串对象的值是一个整数且能够用long来表示时,字符串对象的编码就会是OBJ_ENCODING_INT编码。数组

能够看到,当值很是大的时候仍是用OBJ_ENCODING_RAW来存储的。数据结构

OBJ_ENCODING_RAW

当字符串对象的值是一个字符串且长度大于44字节时,字符串对象的编码就会是OBJ_ENCODING_RAW编码。具体结构在下文。ide

OBJ_ENCODING_EMBSTR

当字符串对象的值是一个字符串且长度小于等于44字节时,字符串对象的编码就会是OBJ_ENCODING_EMBSTR编码。OBJ_ENCODING_EMBSTR编码和OBJ_ENCODING_RAW编码的区别主要有如下几点:学习

  • OBJ_ENCODING_RAW编码的对象在分配内存时会分配两次,分别建立redisObject对象和SDS对象。而OBJ_ENCODING_EMBSTR编码则是一次就分配好。
  • 一样的,OBJ_ENCODING_RAW编码的对象释放内存也须要两次,OBJ_ENCODING_EMBSTR编码则是一次。
  • OBJ_ENCODING_EMBSTR编码的数据都存储在连续的内存上,OBJ_ENCODING_RAW编码则不是。
/* Create a string object with EMBSTR encoding if it is smaller than * OBJ_ENCODING_EMBSTR_SIZE_LIMIT, otherwise the RAW encoding is * used. * * The current limit of 44 is chosen so that the biggest string object * we allocate as EMBSTR will still fit into the 64 byte arena of jemalloc. */
#define OBJ_ENCODING_EMBSTR_SIZE_LIMIT 44
robj *createStringObject(const char *ptr, size_t len) {
    if (len <= OBJ_ENCODING_EMBSTR_SIZE_LIMIT)
        return createEmbeddedStringObject(ptr,len);
    else
        return createRawStringObject(ptr,len);
}
复制代码

SDS

字符串是Redis里很是常见的类型,而用C实现的RedisJava不同。在C里字符串是用长度为N+1的字符数组实现的,且使用空字符串'\0'做为结束符号。获取字符串的长度须要遍历一遍,找到空字符串'\0'才知道字符串的长度,复杂度是O(N)优化

若是有一个长度很是大的字符串,单线程的Redis获取它的长度就可能会阻塞好久,这是不能接受的,因此Redis须要一种更高效的字符串类型。

Redis实现了一个叫SDS(simple dynamic string)的字符串类型,其中有两个变量来分别表明字符串的长度和字符数组未使用的字符数量,这样就能够用O(1)的复杂度来获取字符串的长度了,并且一样也是使用空字符串'\0'做为结束符号。

struct sdshdr {
    // 字符串长度
    int len;
    // 字符数组未使用的字符数量
    int free;
    // 保存字符串的字符数组
    char buf[];
}

复制代码

扩容机制

SDS在字符数组空间不足于容纳新字符串的时候会自动扩容。

若是把一个C字符串拼接到一个SDS后面,当字符数组空间不足时,SDS会先扩容到恰好能够容纳新字符串的长度,而后再扩充新字符串的空字符长度,最终SDS的字符数组长度等于 2 * 新字符串 + 1(结束符号'\0')。不过当新字符串的大小超过1MB后,扩充的空字符长度大小会固定为1MB

之因此会有这个机制,是由于Redis做为一个NoSQL数据库,会频繁的修改字符串,扩容机制至关于给SDS作了一个缓冲池。把SDS连续增加N次字符串须要内存重分配N次优化成了SDS连续增加N次字符串最多须要内存重分配N次,这其实和Java里的StringBuilder实现思想是同样的。

后记

我看过两本关于Redis的书,里面都是讲Redis如何实战的,并无讲Redis的设计和实现。这也就致使了面试很尴尬,由于面试官最喜欢问原理相关的东西了,因此之后学习技术的时候不要从实战类的书籍开始了,仍是先看懂原理比较好。

参考资料

这是《Redis设计与实现》里字符串一节的总结。

相关文章
相关标签/搜索