爬取一个网站

时间 2020-07-16

原文原文链接

若是一个页面有10个连接，网站上有5个页面深度（中等规模网站的主流深度），若是要采集整个网站，一共须要采集的网页数量就是10^5,即100000个页面，由于不多有网站会涉及到这么多的网页，由于有很大一部分是由于网页重复的缘由，为了不采集两次，连接去重很重要html from urllib.request import urlopen from bs4 import BeautifulSoup im