来!编写你的第一个网络爬虫

为了抓取网站,咱们首先须要下载包含有感兴趣数据的网页,该过程通常称为爬取(crawling)。爬取一个网站有不少种方法,而选用哪一种方法更加合适,则取决于目标网站的结构。本章中,咱们首先会探讨如何安全地下载网页,而后会介绍以下3种爬取网站的常见方法:html 爬取网站地图; 使用数据库ID遍历每一个网页; 跟踪网页连接。 到目前为止,咱们交替使用了抓取和爬取这两个术语,接下来让咱们先来定义这两种方
相关文章
相关标签/搜索