利用Python爬虫一天内抓取百万张网页的心得总结

时间 2020-01-17

标签利用 python 爬虫一天 1天抓取百万网页心得总结栏目 Python 繁體版

原文原文链接

1、优化硬盘存储html 因此千万级网页的抓取是须要先设计的，先来作一个计算题。共要抓取一亿张页面，通常一张网页的大小是400KB左右，一亿张网页就是1亿X200KB=36TB 。这么大的存储需求，通常的电脑和硬盘都是无法存储的。因此确定要对网页作压缩后存储，能够用zlib压缩，也能够用压缩率更好的bz2或pylzma 。算法 2、优化内存，URL去重浏览器再来讲内存占用问题，作爬虫程序为了防止

>>阅读原文<<