利用Python爬虫一天内抓取百万张网页的心得总结

1、优化硬盘存储html 因此千万级网页的抓取是须要先设计的,先来作一个计算题。共要抓取一亿张页面,通常一张网页的大小是400KB左右,一亿张网页就是1亿X200KB=36TB 。这么大的存储需求,通常的电脑和硬盘都是无法存储的。因此确定要对网页作压缩后存储,能够用zlib压缩,也能够用压缩率更好的bz2或pylzma 。算法 2、优化内存,URL去重浏览器 再来讲内存占用问题,作爬虫程序为了防止
相关文章
相关标签/搜索