彩虹表（rainbow table）

时间 2019-11-06

标签彩虹 rainbow table 繁體版

原文原文链接

前记html

MD5的全称是Message-Digest Algorithm 5（信息-摘要算法）；算法

特色是不可逆的，通常解密不了；那有没有想过，为何各类工具网站均可以进行MD5解密呢？https://www.sojson.com/encrypt_md5.html数据库

彩虹表，了解一下。编程

1. 如何存储密码才是安全的？

密码存储有几种方式：json

直接存储密码明文m
存储密码明文的哈希值hash(m)
存储密码明文的加盐哈希 hash(m+salt)，这里的salt能够是用户名，手机号等，但必须保证每一个用户的salt都不同才是安全的。

若是数据库被入侵。
第一方式，明文存储，无安全性可言。
第二种方式，虽然是入侵者获得的是hash值，但因为彩虹表的存在，也很容易批量还原出密码明文来。
只有第三种方式才是相对安全的。安全

2. 彩虹表不是密码-->明文的简单存储

要从c=hash(m)逆向获得原始明文m，有三种办法：函数

暴力破解法：时间成本过高。
字典法：提早构建一个“明文->密文”对应关系的一个大型数据库，破解时经过密文直接反查明文。但存储一个这样的数据库，空间成本是惊人的。
构建彩虹表：在字典法的基础上改进，以时间换空间。是如今破解哈希经常使用的办法。

3. 彩虹表的前身--预先计算的散列链

既然存储全部的明文密码对须要的空间太大，密码学家们想出了一种以计算时间下降存储空间的办法：“预计算的哈希链集”（Precomputed hash chains）。
这是一条k=2哈希链：工具

哈希链

H函数就是要破解的哈希函数。
约简函数（reduction function）R函数是构建这条链的时候定义的一个函数：它的值域和定义域与H函数相反。经过该函数能够将哈希值约简为一个与原文相同格式的值。
这条链是这样生成的：网站

随机选择一个明文aaaaaa
对其求哈希获得281DAF40
R(281DAF40) 获得另一个明文sgfnyd。
继续重复2,3步骤
存储的时候，不须要存储全部的节点，只须要存储每条链的头尾节点（这里是aaaaaa和kiebgt）

以大量的随机明文做为起节点，经过上述步骤计算出哈希链并将终节点进行储存，可获得一张哈希链集。加密

预计算的哈希链集的使用

要破解一个hash值，

假设其恰好是920ECF10：首先对其进行一次R运算，获得kiebgt，而后发现恰好命中了哈希链集中的（aaaaaa,kiebgt）链条。能够肯定其极大几率在这个链条中。因而从aaaaaa开始重复哈希链的计算过程，发现sgfnyd的哈希结果恰好是920ECF10,因而破解成功。
密文不是“920ECF10”而是“281DAF40”：第一次R运算后的结果并未在末节点中找到，则再重复一次H运算+R运算，这时又获得了末节点中的值“kiebgt”。因而再从头开始运算，可知aaaaaa恰好可哈希值为281DAF40。
如是重复了k（=2）次以后，仍然没有在末节点中找到对应的值，则破解失败。

预计算的哈希链集的意义

对于一个长度为k的预计算的哈希链集，每次破解计算次数不超过k，所以比暴力破解大大节约时间。
每条链只保存起节点和末节点，储存空间只需约1/k，于是大大节约了空间。

R函数的问题

要发挥预计算的哈希链集的左右，须要一个分布均匀的R函数。当出现碰撞时，就会出现下面这种状况
111 --H--> EDEDED --R--> 222 --H--> FEDEFE --R--> 333 --H--> FEFEDC --R--> 444
454 --H--> FEDECE --R--> 333 --H--> FEFEDC --R--> 444 -H--> FEGEDC --R--> 555

两条链出现了重叠。这两条哈希链能解密的明文数量就远小于理论上的明文数2×k。因为集合只保存链条的首末节点，所以这样的重复链条并不能被迅速地发现。

4. 彩虹表

彩虹表的出现，针对性的解决了R函数致使的链重叠问题：
它在各步的运算中，并不使用统一的R函数，而是分别使用R1…Rk共k个不一样的R函数（下划线表示下标）。

彩虹表

这样一来，及时发生碰撞，一般会是下面的状况：
111 --H--> EDEDED --R1--> 222 --H--> FEDEFE --R2--> 333 --H--> FEFEDC --R3--> 444
454 --H--> FEDECE --R1--> 333 --H--> FEFEDC --R2--> 474 -H--> FERFDC --R3--> 909
即便在极端状况下，两个链条同一序列位置上发生碰撞，致使后续链条彻底一致，这样的链条也会由于末节点相同而检测出来，能够丢弃其中一条而不浪费存储空间。

4.1 彩虹表的使用

彩虹表的使用比哈希链集稍微麻烦一些。

首先，假设要破解的密文位于某一链条的k-1位置处，对其进行Rk运算，看是否可以在末节点中找到对应的值。若是找到，则能够如前所述，使用起节点验证其正确性。
不然，继续假设密文位于k-2位置处，这时就须要进行Rk-一、H、Rk两步运算，而后在末节点中查找结果。
如是反复，最不利条件下须要将密文进行完整的R一、H、…Rk运算后，才能得知密文是否存在于彩虹表之中。

4.2 彩虹表中时间、空间的平衡

对于哈希链集，最大计算次数为k，平均计算次数为k/2
彩虹表的最大计算次数为1+2+3+……k = k(k-1)/2，平均计算次数为[(k+2) * (k +1)]/6。
可见，要解相同个数的明文，彩虹表的代价会高于哈希链集。

不管哈希链集仍是彩虹表：
当k越大时，破解时间就越长，但彩虹表所占用的空间就越小；
相反，k越小时，彩虹表自己就越大，相应的破解时间就越短。

4.3 常见的彩虹表和R函数举例

1）常见的彩虹表：http://project-rainbowcrack.com/table.htm
2）R函数举例：假设明文为5位数字，则R函数是取哈希值中前5个数字。参见https://crypto.stackexchange.com/questions/5900/example-rainbow-table-generation

5. 彩虹表的获取

能够本身编程生成彩虹表，也可使用RainbowCrack或Cain等软件来生成，有兴趣的读者能够自行百度。彩虹表的生成时间与字符集的大小、哈希链的长度成正比，以下图中“7位密码、所有字符集、哈希链长度为2万”的彩虹表大小为32G，本地生成大约须要332天，而从网上下载只须要2个小时左右，主流的彩虹表的大小广泛在100G以上，想要本身生成是几乎不可能的事，所以强烈建议黑客技术爱好者直接从网上下载。

彩虹表确实像它的名字同样美好，至少黑客眼里是这样。上表是7位之内密码在不一样字符集下构造出的彩虹表的状况，彩虹表中哈希链的长度和个数随着字符集的增加而增加，彩虹表的大小和生成时间也随之成倍增长。7位数字组合在彩虹表面前简直就是秒破，即便最复杂的7位密码不到一个小时就能破解，若是采用普通的暴力攻击，破解时间可能须要三周。

6. 如何防护彩虹表

虽然彩虹表有着如此惊人的破解效率，但网站的安全人员仍然有办法防护彩虹表。最有效的方法就是“加盐”，即在密码的特定位置插入特定的字符串，这个特定字符串就是“盐”，加盐后的密码通过哈希加密获得的哈希串与加盐前的哈希串彻底不一样，黑客用彩虹表获得的密码根本就不是真正的密码。即便黑客知道了“盐”的内容、加盐的位置，还须要对H函数和R函数进行修改，彩虹表也须要从新生成，所以加盐能大大增长利用彩虹表攻击的难度。

7. 为何加盐哈希能够抵御彩虹表

彩虹表在生成的过程当中，针对的是特定的函数H，H若是发生了改变，则已有的彩虹表数据就彻底没法使用。若是每一个用户都用一个不一样的盐值，那么每一个用户的H函数都不一样，则必需要为每一个用户都生成一个不一样的彩虹表。大大提升了破解难度。