分析redis key大小的几种方法

时间 2019-12-04

标签分析 redis key 大小几种方法栏目 Redis 繁體版

原文原文链接

当redis被用做缓存时，有时咱们但愿了解key的大小分布，或者想知道哪些key占的空间比较大。本文提供了几种方法。html

一. bigKeys

这是redis-cli自带的一个命令。对整个redis进行扫描，寻找较大的key。例：python

redis-cli -h b.redis -p 1959 --bigkeys

输出git

# Scanning the entire keyspace to find biggest keys as well as
# average sizes per key type.  You can use -i 0.1 to sleep 0.1 sec
# per 100 SCAN commands (not usually needed).

[00.00%] Biggest hash   found so far 's_9329222' with 3 fields
[00.00%] Biggest string found so far 'url_http://mini.eastday.com/mobile/170722090206890.html?qid=sgllq&ch=east_sogou_push&pushid=13' with 8 bytes
[00.00%] Biggest string found so far 'foo' with 40 bytes
[00.00%] Biggest hash   found so far 's_9329084' with 4 fields
[00.23%] Biggest zset   found so far 'region_hot_菏泽地' with 625 members
[00.23%] Biggest zset   found so far 'region_hot_葫芦岛' with 914 members
[00.47%] Biggest string found so far 'top_notice_list' with 135193 bytes
[00.73%] Biggest zset   found so far 'region_hot_自贡' with 2092 members
[01.90%] Biggest hash   found so far 'uno_facet_2018-12-20' with 59 fields
[11.87%] Biggest zset   found so far 'region_hot_上海' with 2233 members
[27.05%] Biggest set    found so far 'blacklist_set_key' with 31832 members
[73.87%] Biggest string found so far 'PUSH_NEWS' with 3104237 bytes
[86.18%] Biggest zset   found so far 'region_hot_北京' with 2688 members

-------- summary -------

Sampled 4263 keys in the keyspace!
Total key length in bytes is 174847 (avg len 41.02)

说明：github

该命令使用scan方式对key进行统计，因此使用时无需担忧对redis形成阻塞。
输出大概分为两部分，summary之上的部分，只是显示了扫描的过程。summary部分给出了每种数据结构中最大的Key。
统计出的最大key只有string类型是以字节长度为衡量标准的。list,set,zset等都是以元素个数做为衡量标准，不能说明其占的内存就必定多。因此，若是你的Key主要以string类型存在，这种方法就比较适合。

正则表达式

二. debug object key

redis的命令，能够查看某个key序列化后的长度。
例：redis

链接上redis后执行以下命令

b.redis:1959> hmset myhash k1 v1 k2 v2 k3 v3
OK
b.redis:1959> debug object myhash
Value at:0x7f005c6920a0 refcount:1 encoding:ziplist serializedlength:36 lru:3341677 lru_seconds_idle:2

关于输出的项的说明：算法

Value at：key的内存地址
refcount：引用次数
encoding：编码类型
serializedlength：序列化长度
lru_seconds_idle：空闲时间

几个须要注意的问题
serializedlength是key序列化后的长度(redis在将key保存为rdb文件时使用了该算法)，并非key在内存中的真正长度。这就像一个数组在json_encode后的长度与其在内存中的真正长度并不相同。不过，它侧面反应了一个key的长度，能够用于比较两个key的大小。
serializedlength会对字串作一些可能的压缩。若是有些字串的压缩比特别高，那么在比较时会出现问题。好比下列：shell

b.redis:1959> set str1 aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
OK
b.redis:1959> set str2 abcdefghijklmnopqrstuvwxyz1234
OK
b.redis:1959> debug object str1
Value at:0x7f007c035b80 refcount:1 encoding:embstr serializedlength:12 lru:3342615 lru_seconds_idle:13
b.redis:1959> debug object str2
Value at:0x7f00654df400 refcount:1 encoding:embstr serializedlength:31 lru:3342622 lru_seconds_idle:7

两个字串的实际长度都是30, 但str1的serializedlength为12， str2的为31。json

redis的官方文档不是特别建议在客户端使用该命令，可能由于计算serializedlength的代价相对高。因此若是要统计的key比较多，就不适合这种方法。
三. redis rdb tools
这是一个redis rdb file的分析工具，能够根据rdb file生成内存报告。数组

3.1 安装
须要python2.4以上版本和pip。

pip install rdbtools

3.2 生成内存报告

首先咱们须要有一份rdb文件，若是你在配置中开启了rdb，那么redis会自动生成rdb文件。若是没有，能够手动执行bgsave。若是是线上机器，执行时要考虑机器负载等问题。拿到rdb文件后，咱们就能够生成内存报告了。命令以下：

rdb -c memory file

　　例：

rdb -c memory /tmp/dump.rdb 
database,type,key,size_in_bytes,encoding,num_elements,len_largest_element,expiry
0,hash,data:index_flow_yingshi,10492,hashtable,1,8992,2019-01-14T08:20:10.236000
0,hash,data:index_movie,22068,hashtable,7,2896,2019-01-14T07:29:19.685000
0,string,block:index_module_novel,8296,string,7694,7694,2019-01-13T00:27:46.128000
0,string,block:index_bottom_baike_aikan,8296,string,7632,7632,2019-01-14T02:27:11.850000
0,string,block:index_bottom_tools,5224,string,4549,4549,2019-01-13T01:02:09.171000
0,string,block:index_module_travel,7272,string,6408,6408,2019-01-13T00:43:39.478000
...

输出了db，数据类型，key, 大小, 编码等多列信息。至于分析数据，你能够用shell，也能够保存成csv用excel排序，或者干脆存到db里，想怎么排怎么排。

若是只要知道最大的N个key, 可使用-l选项。例：

[@sjs_73_171 ~]$ rdb -c memory -l 3 /tmp/dump.rdb  
database,type,key,size_in_bytes,encoding,num_elements,len_largest_element,expiry
0,hash,city_tong,724236,hashtable,3113,216,2019-01-14T01:10:59.407000
0,hash,iplocsearch,406292,hashtable,383,180190,2019-01-30T05:37:56.082000
0,hash,weather_tong3,583844,hashtable,319,1658,2019-01-07T10:22:33.742000

3.3 查看单个key

若是咱们只须要查询单个key所使用的内存能够没必要依赖rdb file, 使用redis-memory-for-key命令便可。
例：

[@sjs_73_171 WEB-INF]$ redis-memory-for-key -s b.redis -p 1959 myhash
Key                             myhash
Bytes                           83
Type                            hash
Encoding                        ziplist
Number of Elements              3
Length of Largest Element       2

[@sjs_73_171 WEB-INF]$ redis-memory-for-key -s b.redis -p 1959 str1
Key                             str1
Bytes                           80
Type                            string

[@sjs_73_171 WEB-INF]$ redis-memory-for-key -s b.redis -p 1959 str2
Key                             str2
Bytes                           80
Type                            string

3.4 更多
工具得出的内存值为近似值，这点能够参看做者的说明。“Why doesn’t reported memory match actual memory used?”
工具经过分析rdb file中的key及value，反算出该kv在内存中的大小。计算时充分考虑了数据类型的影响，key自己长度的影响，内存分配等多种因素。虽然得出的大小不是真实值，但用于key大小的比较是彻底能够的。
rdb的功能不只于此，它还能够将kv导成json格式，也能够按正则表达式只导出部分key，
更多使用方法能够查看
rdb --help
也能够查看git上的帮助文档。

四. 总结
若是想粗略的看下最大key, 可使用bigKeys。
若是查询的key很少，key的压缩比又没有明显差别，可使用debug object key。
若是不介意安装个工具，那么redis rdb tools彷佛是最佳选择。

github地址：

https://github.com/sripathikrishnan/redis-rdb-tools

参考地址：

https://blog.csdn.net/yanyan19880509/article/details/79325191