漫谈Linux内核哈希表(1)

时间 2019-12-09

标签漫谈 linux 内核哈希栏目 Linux 繁體版

原文原文链接

关于哈希表，在内核里设计两个很重要的数据结构:
哈希链表节点： css

点击(此处)折叠或打开 node

/*Kernel Version : 3.4.x [include/linux/types.h]*/
struct hlist_node {
struct hlist_node *next, **pprev;
};

能够看到哈希节点和内核普通双向链表的节点惟一的区别就在于，前向节点 pprev 是个两级指针，至于为何这样设计而不采用 struct list_head{} 来做为哈希链表的节点，咱们后面会详细介绍。另一个重要的数据结构是，哈希链表的表头。

哈希链表表头：

点击(此处)折叠或打开 linux

/*Kernel Version : 3.4.x [include/linux/types.h]*/
struct hlist_head {
struct hlist_node *first;
};

由于哈希链表并不须要 双向循环 的技能，它通常适用于单向散列的场景。因此，为了减小开销，并无用 struct hlist_node{} 来表明哈希表头，而是从新设计 struct hlist_head{} 这个数据结构。此时，一个哈希表头就只须要 4Byte 了，相比于 struct hlist_node{} 来讲，存储空间已经减小了一半。这样一来，在须要大量用到哈希链表的场景，其存储空间的节约是很是明显的，特别是在嵌入式设备领域。

接下来，咱们来重点回答一下哈希节点里那个两级指针的问题。先讲个小插曲，记得本人当年刚参加工做时，导师给安排了一个活儿，那时候年轻气盛、血气方刚，没一下子功夫，三下五除二就搞定了。而后拿着本身的“杰做”去师傅看，师傅瞄了一眼说，你这函数简直是一坨shi(和乔老爷当年骂另一个程序员的用词、语气差很少)，谁让你函数入参传个三级指针进去的？这段代码TM能维护么？谁看得懂？完了以后感受本身还受了莫大的委屈同样，不过谁的人生没有那么点波澜壮阔的过往呢，就像有句名言说的：程序写出来是给人看的，顺带能在机器上运行。OK，那这个故事跟咱们要介绍的哈希节点的关系在哪儿呢？没错，就是struct hlist_node{}里那个前向的两级指针的存在乎义。

关于两级指针的目的与意义，让咱们采用反证法来看看，若是struct hlist_node{}被设计成以下一级指针的样子，会发生什么：
程序员

点击(此处)折叠或打开数据结构

struct hlist_node {
struct hlist_node *next, *pprev;
};

假如咱们如今已经有一个哈希链表了myhlist(先别管这个链表是怎么来的)，链表里有4个节点node1~node4：

而后就有如下两个问题跟着冒出来：
1)、在往哈希链myhlist里插入node1时必须这么写： ide

点击(此处)折叠或打开函数

mylist.first = node1;
node1->pprev=( struct hlist_node*)&mylist;

除此以外，在插入 node2~node4 以及后续其余节点时 ( 假如按顺序插入的话 ) ，写法以下（X>=2）：

点击(此处)折叠或打开 spa

node[X]->next = node[X+1];
node[X]->pprev = node[X-1];

简而言之啥意思呢？往哈希链表里插入元素时，若是在表头的第一个位置上插入元素，和插入在哈希链表的其余位置上的代码处理逻辑是不同的。由于哈希表头是list_head类型，而其余节点都是list_node类型。

2)、一样，若是删除节点时，对于非首节点，以node2为例：设计

点击(此处)折叠或打开指针

node2->pprev->next = node2->next;
node2->next->pprev = node2->pprev;

若是要删除首节点 node1 呢，则写法以下：

点击(此处)折叠或打开

((struct hlist_head*)(node1->pprev))->first = node1->next;
node1->next->pprev = ( struct hlist_node*)&mylist; 或者 node1->next->pprev = node1->pprev;

很明显，内核开发者们怎么会允许这样的代码存在，并且还要充分考虑效率的问题。那么，当 hlist_node.pprev 被设计成两级指针后有啥好处？

仍是以删除节点为例，若是要删除首节点，由于node1->pprev里保存的是myhlist的地址，而myhlist.first永远都指向哈希链表的第一个节点，咱们要间接改变表头里的hlist_node类型的first指针的值，能想到的最直接的办法固然是二级指针，这是两级指针的宿命所决定的，为了间接改变一级指针所指的内存地址的场景。这样一来，node节点里的pprev其实指向的是其前一个节点里的第一个指针元素的地址。对于hlist_head来讲，它里面只有一个指针元素，就是first指针；而对于hlist_node来讲，第一个指针元素就是next。具体以下所示：

因此，记住，当咱们在代码中看到相似与*(hlist_node->pprev)这样的代码时，咱们内心应该清楚，此时正在哈希表里操做当前节点前一个节点里的第一个指针元素所指向的内存地址，只是以间接的方式实现罢了。那么回到删除哈希链表节点的场景，当删除首节点时，此时状况就变成了：

点击(此处)折叠或打开

*(node1->pprev) = node1->next;
node1->next->pprev = node1->pprev;

删除非首节点的状况也同样：

点击(此处)折叠或打开

*(node2->pprev) = node2->next;
node2->next->pprev = node2->pprev;

这样一来，咱们对hlist_node里的谅解指针pprev的存在价值与意义应该很明白了，之后不至于再被眼花缭乱的取地址操做符给弄晕了。OK，扯了这么多，让咱们看看内核是如何实现删除哈希链表里的节点的__hlist_del()：

你们自行将上述函数里的入参n换成node2，最终和咱们上面推断的结果是一致的：

在标准的哈希链表里，由于最后一个节点的 next=NULL ，因此在执行第二句有效代码前首先要对当前节点的 next 值进行判断才行。

内核提供了 hlist_add_head() ，用于实现向哈希链表里插入节点：

点击(此处)折叠或打开

hlist_add_head(struct hlist_node *n, struct hlist_head *h)

其中n表示待插入的节点，h表示哈希链表表头。在刚初始化完哈希表myhlist的状况下，依次调用四次hlist_add_head()，每次调用后myhlist哈希表的状况以下：

( 备注：双箭头表示两级指针，单箭头表示一级指针 )
理论上说，内核应该再提供一个对称的方法hlist_add_tail()才算完美，用于将哈希链表操做成以下的样子：

还有hlist_add_behind()和hlist_add_before()，在3.17版本以前hlist_add_behind()的名字仍是hlist_add_after()，不过做用都同样。两个函数原型分别以下：

点击(此处)折叠或打开

hlist_add_before(struct hlist_node *n,struct hlist_node *next);
hlist_add_behind(struct hlist_node *n,struct hlist_node *prev);

其中n是待插入的节点，next或者prev都是n的相对位置参考节点，其做用分别是：
hlist_add_before()：在next节点的前面插入n节点；
hlist_add_behind()：在prev节点的后面插入n节点；

接下来，让咱们…..

1) 、在 node4 节点的前面插入 node3 ：

注意 hlist_add_before() 有个约束条件，那就是 next!=NULL。

2) 、在 node1 的节点后面插入 node5 ：

一样的约束条件也适用于hlist_add_behind()，即prev!=NULL。
未完，待续...