爬虫基本结构

爬虫基本结构 爬虫程序的工作是从一个种子链接的集合开始。把种子URL集合作为参数传递给网络爬 虫。爬虫先把这些初始的URL放入URL工作队列(Todo队列,又叫作Frontier),然后遍历 所有工作队列中的URL,下载网页并把其中新发现的URL再次放入工作队列。为了判断一个 URL是否已经遍历过,把所有遍历过的URL放入历史表。 while (todo.size () > 0) { //如果 T
相关文章
相关标签/搜索