爬取一个网站

若是一个页面有10个连接,网站上有5个页面深度(中等规模网站的主流深度),若是要采集整个网站,一共须要采集的网页数量就是10^5,即100000个页面,由于不多有网站会涉及到这么多的网页,由于有很大一部分是由于网页重复的缘由,为了不采集两次,连接去重很重要html from urllib.request import urlopen from bs4 import BeautifulSoup im
相关文章
相关标签/搜索