爬虫初阶(一)—— 爬虫概念与HTTP

1. 爬虫基础 1.1 爬虫的概念 爬虫经过模拟客户端(浏览器)发送请求,获取响应,是一种按照必定规则,自动地抓取互联网信息的程序。 1.2 爬虫的分类 根据使用场景,爬虫一般分为两类:web 通用爬虫 – 搜索引擎的爬虫,面对整个互联网上全部的网站。 聚焦爬虫 – 针对特定网站的爬虫。 1.3 聚焦爬虫的流程 1.4 数据的位置 通常须要爬取的数据在能够在如下位置找到:ajax 当前url地址对
相关文章
相关标签/搜索