url去重方法和字符串编码

时间 2021-08-15

url去重方法

1.将访问过的url保存到数据库中
应用简单，效率低
2.将访问过的url保存到set中，只需o（1）的代价就可以查询url
效率高，但是随着数据的增加，内存会出现占用过大。
100000000*2byte*50字符/1024/1024/1024=9G
3.url经过md5编码等方法哈希后保存到set中
固定编码，压缩url，节省了内存
4.用bitmap方法，将访问过的url通过hash函数映射到某一位
5.boomfilter方法对bitmap进行改进，多重hash函数降低冲突

字符串编码

1.计算机只能处理数字，文本转换为数字才能处理。计算机中8个bit作为一个字节，所以一个字节可以表示最大的数字就是255
2.计算机是美国人发明的，所以一个字节可以表示所有的字符，所以ASCII(一个字节）编码就成为美国人的标准编码
3.中国指定了GB2312编码，用两个字节表示一个汉字。GB2312还把ASCII包含进去了。多国标准语言混合显示必然会导致乱码的出现
4.unicode的出现，将所有的语言统一到一套编码里
5.ASCII和unicode编码的区别

字母A用ASCII编码十进制是65，二进制是0100 0001
汉字“中”超出了ASCII编码的范围，用unicode编码是20013，二进制是01001110 00101101
A用unicode编码只需要前面补0就可以了，二进制是0000 0000 0100 0001
6.解决了乱码问题，但是内容全是英文，unicode编码比ASCII需要多一倍的存储空间，传输需要多一倍的传输
7.出现了“UTF-8”把英文变长一个字节，汉字3个字节，特别生僻的变成4-8字节，如果传输大量英文，utf8作用就非常明显

编码格式演示
UTF-8
python2

python3