学习网络爬虫的目的:网络
1,能够私人定制一个搜索引擎,能够深层次的了解搜索引擎的工做原理。学习
2,大数据时代,要进行数据分析,首先要有数据源,学习爬虫,能够让咱们获取更多的数据。大数据
3,从业人员能够可好的利用爬虫,了解其原理,更加优化你的程序。优化
网络爬虫的组成搜索引擎
网络爬虫由控制节点,爬虫节点,资源库构成spa
爬虫的类型索引
1,通用网络爬虫:又叫全网爬虫,能够在全网中爬取目标资源。资源
2,聚焦网络爬虫:主要使用在对特定信息的爬取中,主要为莫一类特定的人提供服务。数据分析
3,增量式网络爬虫:所谓增量式,就是之增量式更新,增量式更新指的是在更新的时候只更新改变的地方,而未改变的地方不更新,因此增量式爬虫在必定程度上保证所爬取的页面尽量的都是新页面。原理
4,深层网络爬虫:所谓深层,指的是在互联网中,网页按存放方式分类,能够分为表层页面和深层页面,所谓的表层页面指的是不须要提交表单,使用静态的连接就能够达到的静态页面。而深层页面则须要在提交必定的关键词以后才能获取的页面。