Python学习之网络爬虫01--网络爬虫的定义

Python学习之网络爬虫01–网络爬虫的定义

概念:

网络爬虫就是自动从互联网中定向或者不定项地采集信息的一种程序。

定向:即聚焦,我们知道从哪个网站中采,具体要采哪些信息,是一个有目的的采集。
不定向:类似搜索引擎,没有固定的要求,只是纯粹的想要去搜集。

网络爬虫有很多种,常用的有通用网络爬虫、聚焦网络爬虫、深层页面爬虫。

通用网络爬虫:我不知道我要爬取什么,记录式的去爬取。
聚焦网络爬虫:我明确我要去爬取什么,有目的的去爬取。
深层页面爬虫:后续学到再补充...(不知道我就不写,就是这么任性)

作用:

  1. 搜索引擎

  2. 采集金融数据

  3. 采集商品数据

  4. 自动过滤广告

  5. 采集竞争对手的客户数据

  6. 采集行业相关数据,进行数据分析

工作原理:

通用与聚焦网络爬虫的运行原理