数学之美:信息指纹及其应用

前面在介绍网络爬虫时说道为了避免重复爬取,爬虫需要维护一个url表来标记是否已经访问该url。一个问题是这个url只是我们用于验证是否访问,而没有其他作用。但网页url长度很长,占据100字节左右,这大大浪费了资源。所以需要我们对url进行信息压缩,要求压缩后的url占据内存少,且不会出现重复问题。这就像对信息建立类似人类的指纹,用于验证信息。这就涉及到加密算法md5,sha256等的使用。相信大
相关文章
相关标签/搜索