python摘要算法(又称哈希算法、散列算法)

时间 2019-12-05

原文原文链接

摘要算法简介

Python的hashlib提供了常见的摘要算法，如MD5，SHA1等等。python

什么是摘要算法呢？摘要算法又称哈希算法、散列算法。它经过一个函数，把任意长度的数据转换为一个长度固定的数据串（一般用16进制的字符串表示）。算法

举个例子，你写了一篇文章，内容是一个字符串'how to use python hashlib - by Michael'，并附上这篇文章的摘要是'2d73d4f15c0db7f5ecb321b6a65e5d6d'。若是有人篡改了你的文章，并发表为'how to use python hashlib - by Bob'，你能够一会儿指出Bob篡改了你的文章，由于根据'how to use python hashlib - by Bob'计算出的摘要不一样于原始文章的摘要。数据库

可见，摘要算法就是经过摘要函数f()对任意长度的数据data计算出固定长度的摘要digest，目的是为了发现原始数据是否被人篡改过。安全

摘要算法之因此能指出数据是否被篡改过，就是由于摘要函数是一个单向函数，计算f(data)很容易，但经过digest反推data却很是困难。并且，对原始数据作一个bit的修改，都会致使计算出的摘要彻底不一样。并发

咱们以常见的摘要算法MD5为例，计算出一个字符串的MD5值：运维

import hashlib

md5 = hashlib.md5()
md5.update('how to use md5 in python hashlib?'.encode("utf8"))
print(md5.hexdigest())

计算结果以下：函数

d26a53750bc40b38b65a520292f69306

若是数据量很大，能够分块屡次调用update()，最后计算的结果是同样的：网站

md5 = hashlib.md5()
md5.update('how to use md5 in '.encode("utf8"))
md5.update('python hashlib?'.encode("utf8"))
print(md5.hexdigest())

试试改动一个字母，看看计算的结果是否彻底不一样。加密

MD5是最多见的摘要算法，速度很快，生成结果是固定的128 bit字节，一般用一个32位的16进制字符串表示。设计

另外一种常见的摘要算法是SHA1，调用SHA1和调用MD5彻底相似：

import hashlib

sha1 = hashlib.sha1()
sha1.update('how to use sha1 in '.encode("utf8"))
sha1.update('python hashlib?'.encode("utf8"))
print(sha1.hexdigest())

SHA1的结果是160 bit字节，一般用一个40位的16进制字符串表示。

比SHA1更安全的算法是SHA256和SHA512，不过越安全的算法越慢，并且摘要长度更长。

有没有可能两个不一样的数据经过某个摘要算法获得了相同的摘要？彻底有可能，由于任何摘要算法都是把无限多的数据集合映射到一个有限的集合中。这种状况称为碰撞，好比Bob试图根据你的摘要反推出一篇文章'how to learn hashlib in python - by Bob'，而且这篇文章的摘要刚好和你的文章彻底一致，这种状况也并不是不可能出现，可是很是很是困难。

摘要算法应用
摘要算法能应用到什么地方？举个经常使用例子：

任何容许用户登陆的网站都会存储用户登陆的用户名和口令。如何存储用户名和口令呢？方法是存到数据库表中：

name    | password
--------+----------
michael | 123456
bob     | abc999
alice   | alice2008

若是以明文保存用户口令，若是数据库泄露，全部用户的口令就落入黑客的手里。此外，网站运维人员是能够访问数据库的，也就是能获取到全部用户的口令。

正确的保存口令的方式是不存储用户的明文口令，而是存储用户口令的摘要，好比MD5：

username | password
---------+---------------------------------
michael  | e10adc3949ba59abbe56e057f20f883e
bob      | 878ef96e86145580c38c87f0410ad153
alice    | 99b1c2188db85afee403b1536010c2c9

当用户登陆时，首先计算用户输入的明文口令的MD5，而后和数据库存储的MD5对比，若是一致，说明口令输入正确，若是不一致，口令确定错误。

练习：根据用户输入的口令，计算出存储在数据库中的MD5口令：

def calc_md5(password):

pass

存储MD5的好处是即便运维人员能访问数据库，也没法获知用户的明文口令。

练习：设计一个验证用户登陆的函数，根据用户输入的口令是否正确，返回True或False：

db = {
    'michael': 'e10adc3949ba59abbe56e057f20f883e',
    'bob': '878ef96e86145580c38c87f0410ad153',
    'alice': '99b1c2188db85afee403b1536010c2c9'
}

def login(user, password):
    pass

采用MD5存储口令是否就必定安全呢？也不必定。假设你是一个黑客，已经拿到了存储MD5口令的数据库，如何经过MD5反推用户的明文口令呢？暴力破解费事费力，真正的黑客不会这么干。

考虑这么个状况，不少用户喜欢用123456，888888，password这些简单的口令，因而，黑客能够事先计算出这些经常使用口令的MD5值，获得一个反推表：

'e10adc3949ba59abbe56e057f20f883e': '123456'
'21218cca77804d2ba1922c33e0151105': '888888'
'5f4dcc3b5aa765d61d8327deb882cf99': 'password'

这样，无需破解，只须要对比数据库的MD5，黑客就得到了使用经常使用口令的用户帐号。

对于用户来说，固然不要使用过于简单的口令。可是，咱们可否在程序设计上对简单口令增强保护呢？

因为经常使用口令的MD5值很容易被计算出来，因此，要确保存储的用户口令不是那些已经被计算出来的经常使用口令的MD5，这一方法经过对原始口令加一个复杂字符串来实现，俗称“加盐”：

def calc_md5(password):
    return get_md5(password + 'the-Salt')

通过Salt处理的MD5口令，只要Salt不被黑客知道，即便用户输入简单口令，也很难经过MD5反推明文口令。

可是若是有两个用户都使用了相同的简单口令好比123456，在数据库中，将存储两条相同的MD5值，这说明这两个用户的口令是同样的。有没有办法让使用相同口令的用户存储不一样的MD5呢？

若是假定用户没法修改登陆名，就能够经过把登陆名做为Salt的一部分来计算MD5，从而实现相同口令的用户也存储不一样的MD5。

练习：根据用户输入的登陆名和口令模拟用户注册，计算更安全的MD5：

db = {}

def register(username, password):
    db[username] = get_md5(password + username + 'the-Salt')

而后，根据修改后的MD5算法实现用户登陆的验证：

def login(username, password):
    pass

小结
摘要算法在不少地方都有普遍的应用。要注意摘要算法不是加密算法，不能用于加密（由于没法经过摘要反推明文），只能用于防篡改，可是它的单向计算特性决定了能够在不存储明文口令的状况下验证用户口令。