python全站爬虫知识点详解

时间 2019-12-13

原文原文链接

1 最简单的单页面抓取思路：获取页面全部url 对获取的全部url进行分类 A 获取属于本域名下的url B 获取属于其余urlhtml 2 用到的模块 urllib 详细介绍见连接 http://blog.csdn.net/dolphin_h/article/details/45296353python bs4 详细介绍见连接 http://blog.csdn.net/winterto199