来！编写你的第一个网络爬虫

时间 2019-12-06

原文原文链接

为了抓取网站，咱们首先须要下载包含有感兴趣数据的网页，该过程通常称为爬取（crawling）。爬取一个网站有不少种方法，而选用哪一种方法更加合适，则取决于目标网站的结构。本章中，咱们首先会探讨如何安全地下载网页，而后会介绍以下3种爬取网站的常见方法：html 爬取网站地图；使用数据库ID遍历每一个网页；跟踪网页连接。到目前为止，咱们交替使用了抓取和爬取这两个术语，接下来让咱们先来定义这两种方

>>阅读原文<<