《本身动手写网络爬虫》笔记5-设计爬虫对列

以前使用内存数据结构(队列或者链表)来实现爬虫队列,可是在一些大型的搜索引擎中有十几亿的URL须要抓取。所以,内存数据结构并不适用于这些应用,最适合的一种方法是使用内存数据库,或者直接使用数据库来存储这些URL。本节讲的是一种很是流行的内存数据库——Berkeley DB。java 爬虫队列的特色 可以存储海量数据,当数据超出内存限制的时候,可以固化在硬盘上 存取数据速度很是快 可以支持多线程访问
相关文章
相关标签/搜索