跳表(skip List)是一种随机化的数据结构,基于并联的链表,实现简单,插入、删除、查找的复杂度均为O(logN)。跳表的具体定义,html
请参考参考维基百科 点我,中文版。跳表是由William Pugh发明的,这位确实是个大牛,搞出一些很不错的东西。简单说来跳表也是前端
链表的一种,只不过它在链表的基础上增长了跳跃功能,正是这个跳跃的功能,使得在查找元素时,跳表可以提供O(log n)的时间复杂node
度。红黑树等这样的平衡数据结构查找的时间复杂度也是O(log n),而且相对于红黑树这样的平衡二叉树skiplist的优势是更好的支持并git
发操做,可是要实现像红黑树这样的数据结构并不是易事,可是只要你熟悉链表的基本操做,再加之对跳表原理的理解,实现一个跳表数据github
结构就是一个很天然的事情了。
redis
此外,跳表在当前热门的开源项目中也有不少应用,好比LevelDB的核心数据结构memtable是用跳表实现的,redis的sorted set数据算法
结构也是有跳表实现的。数组
先从链表开始,若是是一个简单的链表(不必定有序),那么咱们在链表中查找一个元素X的话,须要将遍历整个链表直到找到元素X为止。数据结构
如今咱们考虑一个有序的链表:dom
从该有序表中搜索元素 {13, 39} ,须要比较的次数分别为 {3, 5},总共比较的次数为 3 + 5 = 8 次。咱们想下有没有更优的算法? 咱们想到了对于
有序数组查找问题咱们可使用二分查找算法,但对于有序链表却不能使用二分查找。这个时候咱们在想下平衡树,好比BST,他们都是经过把一些
节点取出来做为其节点下某种意义的索引,好比父节点通常大于左子节点而小于右子节点。所以这个时候咱们想到相似二叉搜索树的作法把一些
节点提取出来,做为索引。获得以下结构:
在这个结构里咱们把{3, 18, 77}提取出来做为一级索引,这样搜索的时候就能够减小比较次数了,好比在搜索39时仅比较了3次(经过比较3,18,39)。
固然咱们还能够再从一级索引提取一些元素出来,做为二级索引,这样更能加快元素搜索。
这基本上就是跳表的核心思想,实际上是一种经过“空间来换取时间”的一个算法,经过在每一个节点中增长了向前的指针(即层),从而提高查找的效率。
跳跃列表是按层建造的。底层是一个普通的有序链表。每一个更高层都充当下面列表的「快速跑道」,这里在层 i 中的元素按某个固定的几率 p (一般
为0.5或0.25)出如今层 i+1 中。平均起来,每一个元素都在 1/(1-p) 个列表中出现, 而最高层的元素(一般是在跳跃列表前端的一个特殊的头元素)
在 O(log1/p n) 个列表中出现。
一个跳表,应该具备如下特征:
1,一个跳表应该有几个层(level)组成;
2,跳表的第一层包含全部的元素;
3,每一层都是一个有序的链表;
4,若是元素x出如今第i层,则全部比i小的层都包含x;
5,每一个节点包含key及其对应的value和一个指向同一层链表的下个节点的指针数组
如图所示。
跳表基本数据结构
定义跳表数据类型:
其中level是当前跳表最大层数,head是指向跳表的头节点如上图。
跳表的每一个节点的数据结构:
对于这个结构体重点说说,struct node *next[1] 其实它是个柔性数组,主要用于使结构体包含可变长字段。咱们能够经过以下方法获得包含可变
层数(n)的Node *类型的内存空间:
#define new_node(n)((Node*)malloc(sizeof(Node)+n*sizeof(Node*)))
经过上面咱们能够根据层数n来申请指定大小的内存,从而节省了没必要要的内存空间(好比固定大小的next数组就会浪费大量的内存空间)。
跳表节点的建立
跳表的建立
列表的初始化须要初始化头部,并使头部每层(根据事先定义的MAX_LEVEL)指向末尾(NULL)
跳表插入操做
咱们知道跳表是一种随机化数据结构,其随机化体如今插入元素的时候元素所占有的层数彻底是随机的,层数是经过随机算法产生的:
至关与作一次丢硬币的实验,若是遇到正面(rand产生奇数),继续丢,遇到反面,则中止,用实验中丢硬币的次数level做为元素占有的层数。
显然随机变量 level 知足参数为 p = 1/2 的几何分布,level 的指望值 E[level] = 1/p = 2. 就是说,各个元素的层数,指望值是 2 层。
因为跳表数据结构总体上是有序的,因此在插入时,须要首先查找到合适的位置,而后就是修改指针(和链表中操做相似),而后更新跳表的
level变量。 跳表的插入总结起来须要三步:
1:查找到待插入位置, 每层跟新update数组;
2:须要随机产生一个层数;
3:从高层至下插入,与普通链表的插入彻底相同;
好比插入key为25的节点,以下图。
对于步骤1,咱们须要对于每一层进行遍历并保存这一层中降低的节点(其后继节点为NULL或者后继节点的key大于等于要插入的key),以下图,
节点中有白色星花标识的节点保存到update数组。
对于步骤2咱们上面已经说明了是经过一个随机算法产生一个随机的层数,可是当这个随机产生的层数level大于当前跳表的最大层数时,咱们
此时须要更新当前跳表最大层数到level之间的update内容,这时应该更新其内容为跳表的头节点head,想一想为何这么作,呵呵。而后就是更
新跳表的最大层数。
对于步骤3就和普通链表插入同样了,只不过如今是对每一层链表进行插入节点操做。最终的插入结果如图所示,由于新插入key为25的节点level随机
为4大于插入前的最大层数,因此此时跳表的层数为4。
实现代码以下:
跳表删除节点操做
删除节点操做和插入差很少,找到每层须要删除的位置,删除时和操做普通链表彻底同样。不过须要注意的是,若是该节点的level是最大的,
则须要更新跳表的level。实现代码以下:
跳表的查找操做
跳表的优势就是查找比普通链表快,其实查找操已经在插入、删除操做中有所体现,代码以下:
跳表的销毁
上面分别介绍了跳表的建立、节点插入、节点删除,其中涉及了内存的动态分配,在使用完跳表后别忘了释放所申请的内存,否则会内存泄露的。
很少说了,代码以下:
完整代码及其测试: https://github.com/ustcdane/skiplist/ , 接下来能够尝试着分析Redis 源代码中skiplist相关的数据结构了。
参考:
https://www.cs.auckland.ac.nz/software/AlgAnim/niemann/s_skl.htm
http://www.cnblogs.com/xuqiang/archive/2011/05/22/2053516.html
本文转载自:http://blog.csdn.net/daniel_ustc/article/details/20218489?utm_source=tuicool