密码学基础（一）：摘要算法

时间 2019-11-16

标签密码学基础摘要算法繁體版

原文原文链接

什么是摘要算法

摘要算法是经过一系列的计算方法和规则，将输入的任意长度的数据转化成固定长度的返回值，这个值被称为hash值(哈希值)，而这种算法被称为摘要算法、哈希算法、散列算法。算法

主流的摘要算法

MD四、MD5：MD5生成128位固定长度的hash值，已经被破解；数据库

SHA-1：生成164位固定长度的hash值，已经被破解；浏览器

SHA-2：生成22四、25六、38四、512位的hash值；安全

SHA-3：全新的算法和标准服务器

备注：从MD4-SHA-2，随着生成的长度的增长，碰撞成功的几率会减少，由于只能暴力枚举破解，因此破解的难度也就增大。好比128位的MD5，碰撞几率为2的128次方分之1，而512位则为2的512次方分之一。app

摘要算法的大概原理

以MD5为例，MD5以512位对原数据进行分组加密，最后输出32个16进制，也就是32x4=128位，其加密的基本流程以下：函数

第一步：补位

元数据若是位数不知足Length=512xn+448，也就是512取余值为448，则对其补位使其知足规则。其意义是在MD5中，将元数据分为512位后分组进行加密（后面会讲到），其中会预留64位来表示数据的原始信息，好比原始长度等。因此Length=512xn+448，加上64位的预留信息以后：Total=Length+64=512x(n+1)。工具

第二步：设定初始值

摘要算法根据元数据长度按照512分为n组后，会对初始值进行n轮加密运算，每轮的计算方式和第一轮大同小异。全部轮数计算完毕后将变化后的4个初始值组合输出最终结果。官方实现中的4个初始值为： A=0x01234567 B=0x89ABCDEF C=0xFEDCBA98 D=0x76543210 如上所示，A、B、C、D都为8个16进制，一个16进制表示4位，因此一个初始值的位数就是8x4=32位，因此MD5最终输出的长度固定为32x4=128.学习

第三步：按照组数循环计算

算法的大概过程以下，大概就是对ABCD一顿猛如虎的操做演变成彻底不一样的ABCD，详细过程再此不深究，具体算法和过程能够自行百度网站

摘要算法不可逆的缘由 如上图所示，F为4个非线性函数中的一个，4个非线性函数都是由位运算构成，Mi为第一步中补位后的原文分红16等分，Ki为常量，i的范围为0-15，Ki每次都不同。其后最关键的是<<<s左位移运算。位移运算以后，原文丢失，好比0101左移2位后为0100，由于原文发生了丢失，无论什么算法都没法还原原文，这就是摘要算法不可逆的缘由。

第四步：拼接4个变化以后的初始值

这一步就是单纯的拼接A、B、C、D，最终输出。其中，会存在MD5(32)和MD5(16)这些输出结果，其实MD5(16)就是截取MD5(32)的一部分获得的值，以下：

摘要算法的特色

不可逆

没法经过输出值反推出输入值，只能经过暴力枚举来进行破解。

输出长度固定

MD5固定长度为128，SHA-1位164，SHA-2根据加密级别有几种可选：22四、25六、38四、512。SHA-3则为全新的算法。

速度快

加密速度极快

惟一性（正确处理碰撞）

输入相同则输出绝对相同。在正确处理碰撞的状况下，也能够保证输入不一样则输出也不一样。

摘要算法的使用场景

一、签名&&数字证书

单纯的签名就是数据的完整性，也就是数据未被篡改。一般签名和数字签名或者数字证书一块儿出现。

摘要算法能够保证数据的hash值的惟一性，可是攻击者能够修改元数据的同时修改hash值，因此摘要算法+RSA构成了数字证书体系(我的)，使用私钥加密hash值并将公钥附加在证书中，这样就能够避免攻击者对元数据和hash值的同时篡改。

可是我的公私钥毕竟容易被攻击和窃取，为了防范这种状况，CA机构的介入让(摘要算法+RSA+CA)构成了CA证书体系。通常的电脑系统以及主流的工具(好比浏览器)都会和CA机构合做，也就是嵌入了CA机构的公钥，理论上只要CA机构的私钥不被窃取，这一套加密规则就是安全的。而apple中的签名机制则是根据本身的发布模式进行了强化，造成了本身的一套签名加密规则。因此在向apple申请证书时发送给apple的csr文件就包含我的信息和我的公钥：

CA机构的做用能够说的更详细一点，CA机构能够依靠本身的权威形象给本身站台，另一个CA机构能够给我的/机构站台。通常来说，我的奖本身的公钥和信息发送给CA机构，CA机构用本身的私钥进行签名，也就是用本身的私钥对我的/机构的信息和公钥进行加密以后发布数字证书，数字证书里面包含：我的/机构的信息、我的/机构的公钥、CA机构的信息、加密的规则的一些信息

二、数据完整性的验证

这种状况下，早期可能会用于接口传输时，入参的一致性对比，可是如今基本不会使用到了，要使用也会有一套相对复杂的规则来保证安全。比较常见并且如今仍然在被普遍使用的一个场景是：文件下载时验证文件的完整性。

官方对本身文件进行MD5计算并将对应的MD5值公布到官网上，用户下载后只要对本身下载的文件进行MD5操做后校验这两个hash值，就知道本身下载的文件是否安全。这种状况下，只有攻击者攻克了官方网站而且让用户下载到了攻击者指定的文件，且用户在校验MD5码时官网还处于未恢复的状况下，攻击才会有效，这基本不可能，也没有太大意义。

三、hash表

hash表通常用于数据存储，这也是对摘要算法的碰撞处理的一个典型。

四、早期时用于秘钥的加密传输

早期传输用户的密码，或者服务器保存用户密码时，会将用户的密码通过MD5加盐，以密文的形式保存在数据库中，这样能够保证在不知道加盐规则的状况下，即便数据库被攻击，攻击者拿到的也只是密文，没法解密出明文，即便知道了加盐规则，仍然须要暴力加盐枚举。另外，有良心的服务商也不肯意去存储用户的密码，因此这种模式下的服务商，不大会提供找回原密码的服务，只会提供重置密码服务，由于MD5的不可逆性，他本身也不知道原密码是啥。

被破解了还能用吗

学习一个东西就要知道其使用场景。另外，理论上没有绝对安全的加密规则。破解的本质就是成本和代价的权衡。

如上所讲，摘要算法的破解只有在秘钥传输上有较大的意义，经过暴力枚举以后获取到对应的密码以帮助本身获利。在安全要求较高的金融行业，已经不使用MD5加密相关信息了，就算是普通行业，仍然能够经过MD5加盐、MD5后再次MD五、使用相对安全的SHA-2来实现加密。综上，摘要算法虽然已经被破解，可是仍然能够在不少地方发挥做用，尤为是数字证书上。