数据结构与算法-day8-哈希算法及其应用

时间 2019-12-05

标签数据结构算法 day8 day 哈希及其应用繁體版

原文原文链接

什么是哈希算法？

哈希算法的定义和原理很是简单，基本上一句话就能够归纳了。将任意长度的二进制值串映射为固定长度的二进制值串，而经过原始数据映射以后获得的二进制值串就是哈希值算法

可是，要想设计一个优秀的哈希算法并不容易，根据个人经验，我总结了须要知足的几点要求：数据库

从哈希值不能反向推导出原始数据（因此哈希算法也叫单向哈希算法）；
对输入数据很是敏感，哪怕原始数据只修改了一个 Bit，最后获得的哈希值也大不相同；
散列冲突的几率要很小，对于不一样的原始数据，哈希值相同的几率很是小；
哈希算法的执行效率要尽可能高效，针对较长的文本，也能快速地计算出哈希值。

咱们分别对“今天我来说哈希算法”和“jiajia”这两个文本，计算 MD5 哈希值，获得两串看起来毫无规律的字符串（MD5 的哈希值是 128 位的 Bit 长度，为了方便表示，我把它们转化成了 16 进制编码）。能够看出来，不管要哈希的文本有多长、多短，经过 MD5 哈希以后，获得的哈希值的长度都是相同的，并且获得的哈希值看起来像一堆随机数，彻底没有规律。后端

MD5(" 今天我来说哈希算法 ") = bb4767201ad42c74e650c1b6c03d78fa
MD5("jiajia") = cd611a31ea969b908932d44d126d195b
复制代码

这两个文本只有一个感叹号的区别。若是用 MD5 哈希算法分别计算它们的哈希值，尽管只有一字之差，获得的哈希值也是彻底不一样的。缓存

MD5(" 我今天讲哈希算法！") = 425f0d5a917188d2c3c3dc85b5e4f2cb
MD5(" 我今天讲哈希算法 ") = a1fb91ac128e6aa37fe42c663971ac3d
复制代码

哈希算法的应用很是很是多，最多见的七个，分别是安全加密、惟一标识、数据校验、散列函数、负载均衡、数据分片、分布式存储。安全

应用一：安全加密

说到哈希算法的应用，最早想到的应该就是安全加密。最经常使用于加密的哈希算法是MD5（MD5 Message-Digest Algorithm，MD5 消息摘要算法）和SHA（Secure Hash Algorithm，安全散列算法）。bash

除了这两个以外，固然还有不少其余加密算法，好比DES（Data Encryption Standard，数据加密标准）、AES（Advanced Encryption Standard，高级加密标准）。服务器

前面我讲到的哈希算法四点要求，对用于加密的哈希算法来讲，有两点格外重要。第一点是很难根据哈希值反向推导出原始数据，第二点是散列冲突的几率要很小。网络

散列冲突几率要小?

这里就基于组合数学中一个很是基础的理论，鸽巢原理（也叫抽屉原理）。这个原理自己很简单，它是说，若是有 10 个鸽巢，有 11 只鸽子，那确定有 1 个鸽巢中的鸽子数量多于 1 个，换句话说就是，确定有 2 只鸽子在 1 个鸽巢内。负载均衡

有了鸽巢原理的铺垫以后，咱们再来看，为何哈希算法没法作到零冲突？分布式

咱们知道，哈希算法产生的哈希值的长度是固定且有限的。好比前面举的 MD5 的例子，哈希值是固定的 128 位二进制串，能表示的数据是有限的，最多能表示 2^128 个数据，而咱们要哈希的数据是无穷的。基于鸽巢原理，若是咱们对 2^128+1 个数据求哈希值，就必然会存在哈希值相同的状况。这里你应该能想到，通常状况下，哈希值越长的哈希算法，散列冲突的几率越低。

应用二：惟一标识

举一个例子。若是要在海量的图库中，搜索一张图是否存在，咱们不能单纯地用图片的元信息（好比图片名称）来比对，由于有可能存在名称相同但图片内容不一样，或者名称不一样图片内容相同的状况。那咱们该如何搜索呢？

咱们知道，任何文件在计算中均可以表示成二进制码串，因此，比较笨的办法就是，拿要查找的图片的二进制码串与图库中全部图片的二进制码串一一比对。若是相同，则说明图片在图库中存在。可是，每一个图片小则几十 KB、大则几 MB，转化成二进制是一个很是长的串，比对起来很是耗时。有没有比较快的方法呢？

咱们能够给每个图片取一个惟一标识，或者说信息摘要。好比，咱们能够从图片的二进制码串开头取 100 个字节，从中间取 100 个字节，从最后再取 100 个字节，而后将这 300 个字节放到一块，经过哈希算法（好比 MD5），获得一个哈希字符串，用它做为图片的惟一标识。经过这个惟一标识来断定图片是否在图库中，这样就能够减小不少工做量。

应用三：数据校验

咱们知道，BT 下载的原理是基于 P2P 协议的。咱们从多个机器上并行下载一个 2GB 的电影，这个电影文件可能会被分割成不少文件块（好比能够分红 100 块，每块大约 20MB）。等全部的文件块都下载完成以后，再组装成一个完整的电影文件就好了。

咱们知道，网络传输是不安全的，下载的文件块有多是被宿主机器恶意修改过的，又或者下载过程当中出现了错误，因此下载的文件块可能不是完整的。若是咱们没有能力检测这种恶意修改或者文件下载出错，就会致使最终合并后的电影没法观看，甚至致使电脑中毒。如今的问题是，如何来校验文件块的安全、正确、完整呢？

咱们经过哈希算法，对 100 个文件块分别取哈希值，而且保存在种子文件中.咱们在前面讲过，哈希算法有一个特色，对数据很敏感。只要文件块的内容有一丁点儿的改变，最后计算出的哈希值就会彻底不一样。因此，当文件块下载完成以后，咱们能够经过相同的哈希算法，对下载好的文件块逐一求哈希值，而后跟种子文件中保存的哈希值比对。若是不一样，说明这个文件块不完整或者被篡改了，须要再从新从其余宿主机器上下载这个文件块。

应用四：散列函数

前面讲了不少哈希算法的应用，实际上，散列函数也是哈希算法的一种应用。

咱们前两节讲到，散列函数是设计一个散列表的关键。它直接决定了散列冲突的几率和散列表的性能。不过，相对哈希算法的其余应用，散列函数对于散列算法冲突的要求要低不少。即使出现个别散列冲突，只要不是过于严重，咱们均可以经过开放寻址法或者链表法解决。

不只如此，散列函数对于散列算法计算获得的值，是否能反向解密也并不关心。散列函数中用到的散列算法，更加关注散列后的值是否能平均分布，也就是，一组数据是否能均匀地散列在各个槽中。除此以外，散列函数执行的快慢，也会影响散列表的性能，因此，散列函数用的散列算法通常都比较简单，比较追求效率。

你可能已经发现，这三个应用都跟分布式系统有关。没错，那么!哈希算法是如何解决这些分布式问题的。

应用五：负载均衡

负载均衡算法有不少，好比轮询、随机、加权轮询等。那如何才能实现一个会话粘滞的负载均衡算法呢？也就是说，咱们须要在同一个客户端上，在一次会话中的全部请求都路由到同一个服务器上。

最直接的方法就是，维护一张映射关系表，这张表的内容是客户端 IP 地址或者会话 ID 与服务器编号的映射关系。客户端发出的每次请求，都要先在映射表中查找应该路由到的服务器编号，而后再请求编号对应的服务器。这种方法简单直观，但也有几个弊端：

若是客户端不少，映射表可能会很大，比较浪费内存空间；
客户端下线、上线，服务器扩容、缩容都会致使映射失效，这样维护映射表的成本就会很大；

若是借助哈希算法，这些问题均可以很是完美地解决。咱们能够经过哈希算法，对客户端 IP 地址或者会话 ID 计算哈希值，将取得的哈希值与服务器列表的大小进行取模运算，最终获得的值就是应该被路由到的服务器编号。这样，咱们就能够把同一个 IP 过来的全部请求，都路由到同一个后端服务器上。

应用六：数据分片

如何统计“搜索关键词”出现的次数？

假如咱们有 1T 的日志文件，这里面记录了用户的搜索关键词，咱们想要快速统计出每一个关键词被搜索的次数，该怎么作呢？

咱们来分析一下。这个问题有两个难点，

第一个是搜索日志很大，没办法放到一台机器的内存中。
第二个难点是，若是只用一台机器来处理这么巨大的数据，处理时间会很长。

针对这两个难点，咱们能够先对数据进行分片，而后采用多台机器处理的方法，来提升处理速度。具体的思路是这样的：为了提升处理的速度，咱们用 n 台机器并行处理。咱们从搜索记录的日志文件中，依次读出每一个搜索关键词，而且经过哈希函数计算哈希值，而后再跟 n 取模，最终获得的值，就是应该被分配到的机器编号。

这样，哈希值相同的搜索关键词就被分配到了同一个机器上。也就是说，同一个搜索关键词会被分配到同一个机器上。每一个机器会分别计算关键词出现的次数，最后合并起来就是最终的结果。

如何快速判断图片是否在图库中？

假设如今咱们的图库中有 1 亿张图片，很显然，在单台机器上构建散列表是行不通的。由于单台机器的内存有限，而 1 亿张图片构建散列表显然远远超过了单台机器的内存上限。

咱们一样能够对数据进行分片，而后采用多机处理。咱们准备 n 台机器，让每台机器只维护某一部分图片对应的散列表。咱们每次从图库中读取一个图片，计算惟一标识，而后与机器个数 n 求余取模，获得的值就对应要分配的机器编号，而后将这个图片的惟一标识和图片路径发往对应的机器构建散列表。

当咱们要判断一个图片是否在图库中的时候，咱们经过一样的哈希算法，计算这个图片的惟一标识，而后与机器个数 n 求余取模。假设获得的值是 k，那就去编号 k 的机器构建的散列表中查找。

如今，咱们来估算一下，给这 1 亿张图片构建散列表大约须要多少台机器。

散列表中每一个数据单元包含两个信息，哈希值和图片文件的路径。假设咱们经过 MD5 来计算哈希值，那长度就是 128 比特，也就是 16 字节。文件路径长度的上限是 256 字节，咱们能够假设平均长度是 128 字节。若是咱们用链表法来解决冲突，那还须要存储指针，指针只占用 8 字节。因此，散列表中每一个数据单元就占用 152 字节（这里只是估算，并不许确）。

假设一台机器的内存大小为 2GB，散列表的装载因子为 0.75，那一台机器能够给大约 1000 万（2GB*0.75/152）张图片构建散列表。因此，若是要对 1 亿张图片构建索引，须要大约十几台机器。在工程中，这种估算仍是很重要的，能让咱们事先对须要投入的资源、资金有个大概的了解，能更好地评估解决方案的可行性。

应用七：分布式存储

如今互联网面对的都是海量的数据、海量的用户。咱们为了提升数据的读取、写入能力，通常都采用分布式的方式来存储数据，好比分布式缓存。咱们有海量的数据须要缓存，因此一个缓存机器确定是不够的。因而，咱们就须要将数据分布在多台机器上。

该如何决定将哪一个数据放到哪一个机器上呢？咱们能够借用前面数据分片的思想，即经过哈希算法对数据取哈希值，而后对机器个数取模，这个最终值就是应该存储的缓存机器编号。

可是，若是数据增多，原来的 10 个机器已经没法承受了，咱们就须要扩容了，好比扩到 11 个机器，这时候麻烦就来了。由于，这里并非简单地加个机器就能够了。

原来的数据是经过与 10 来取模的。好比 13 这个数据，存储在编号为 3 这台机器上。可是新加了一台机器中，咱们对数据按照 11 取模，原来 13 这个数据就被分配到 2 号这台机器上了。

所以，全部的数据都要从新计算哈希值，而后从新搬移到正确的机器上。这样就至关于，缓存中的数据一会儿就都失效了。全部的数据请求都会穿透缓存，直接去请求数据库。这样就可能发生雪崩效应，压垮数据库。

因此，咱们须要一种方法，使得在新加入一个机器后，并不须要作大量的数据搬移。这时候，一致性哈希算法就要登场了。

假设咱们有 k 个机器，数据的哈希值的范围是 [0, MAX]。咱们将整个范围划分红 m 个小区间（m 远大于 k），每一个机器负责 m/k 个小区间。当有新机器加入的时候，咱们就将某几个小区间的数据，从原来的机器中搬移到新的机器中。这样，既不用所有从新哈希、搬移数据，也保持了各个机器上数据数量的均衡。