System Design: Web Crawler

资料整理来源: https://www.jiuzhang.com/qa/871/ https://zhuanlan.zhihu.com/p/20821699 Crawler实质是一个BFS的过程。从某个网站的主页开始作为起点,进行BFS。对每一个页面含有的URL都放入队列当中。再进行迭代。 我们可以把整个过程抽象成为一幅有向图的BFS。但是,爬虫可以在BFS的基础上产生更多的问题。比如,每个页面还
相关文章
相关标签/搜索