[原创]手把手教你写网络爬虫(2):迷你爬虫架构

 

手把手教你写网络爬虫(2)mysql

做者:拓海 (https://github.com/tuohai666)git

摘要:从零开始写爬虫,初学者的速成指南!github

封面:web

 

 

介绍

你们好!回顾上一期,咱们在介绍了爬虫的基本概念以后,就利用各类工具横冲直撞的完成了一个小爬虫,目的就是猛、糙、快,方便初学者上手,创建信心。对于有必定基础的读者,请不要着急,之后咱们会学习主流的开源框架,打造出一个强大专业的爬虫系统!不过在此以前,要继续打好基础,本期咱们先介绍爬虫的种类,而后选取最典型的通用网络爬虫,为其设计一个迷你框架。有了本身对框架的思考后,再学习复杂的开源框架就有头绪了。正则表达式

今天咱们会把更多的时间用在思考上,而不是一根筋的coding。用80%的时间思考,20%的时间敲键盘,这样更有利于进步。算法

 

 

语言&环境

语言:带足弹药,继续用Python开路!sql

 

 

 

threadingthreading库能够在单独的线程中执行任何的在Python中能够调用的对象。Python 2.x中的thread模块已被废弃,用户可使用threading模块代替。在Python 3中不能再使用thread模块。为了兼容性,Python 3将thread重命名为_thread。mongodb

 

queuequeue模块中提供了同步的、线程安全的队列类,包括FIFO(先入先出)队列Queue,LIFO(后入先出)队列LifoQueue,和优先级队列PriorityQueue。这些队列都实现了锁原语,可以在多线程中直接使用。可使用队列来实现线程间的同步。安全

 

rePython 自1.5版本起增长了re模块,它提供Perl风格的正则表达式模式。re模块使 Python语言拥有所有的正则表达式功能。网络

 

argparsePython用于解析命令行参数和选项的标准模块,用于代替已通过时的optparse模块。argparse模块的做用是用于解析命令行参数。

 

configparser读取配置文件的模块。

 

爬虫的种类

 

 

网络爬虫按照系统结构和实现技术,大体能够分为如下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统一般是几种爬虫技术相结合实现的。

 

通用网络爬虫

通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬取对象从一些种子 URL 扩充到整个 Web。主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。

通用网络爬虫的结构大体能够分为页面爬取模块 、页面分析模块、连接过滤模块、页面存储模块、URL 队列、初始 URL 集合几个部分。为提升工做效率,通用网络爬虫会采起必定的爬取策略。 经常使用的爬取策略有:深度优先策略、广度优先策略。

1) 深度优先策略(DFS):其基本方法是按照深度由低到高的顺序,依次访问下一级网页连接,直到不能再深刻为止。

2) 广度优先策略(BFS):此策略按照网页内容目录层次深浅来爬取页面,处于较浅目录层次的页面首先被爬取。 当同一层次中的页面爬取完毕后,爬虫再深刻下一层继续爬取。

 

聚焦网络爬虫

聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选择性地爬取那些与预先定义好的主题相关页面的网络爬虫。 和通用网络爬虫相比,聚焦爬虫只须要爬取与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也因为数量少而更新快,还能够很好地知足一些特定人群对特定领域信息的需求。咱们以前爬的歌单就属于这一种。

 

增量式网络爬虫

增量式网络爬虫(Incremental Web Crawler)是 指 对 已 下 载 网 页 采 取 增 量式更新和只爬取新产生的或者已经发生变化网页的爬虫,它可以在必定程度上保证所爬取的页面是尽量新的页面。 和周期性爬取和刷新页面的网络爬虫相比,增量式爬虫只会在须要的时候爬取新产生或发生更新的页面 ,并不从新下载没有发生变化的页面,可有效减小数据下载量,及时更新已爬取的网页,减少时间和空间上的耗费,可是增长了爬取算法的复杂度和实现难度。如今比较火的舆情爬虫通常都是增量式网络爬虫。

 

深网爬虫

Web 页面按存在方式能够分为表层网页(Surface Web)和深层网页(Deep Web,也称 Invisible Web Pages 或 Hidden Web)。 表层网页是指传统搜索引擎能够索引的页面,以超连接能够到达的静态网页为主构成的 Web 页面。Deep Web 是那些大部份内容不能经过静态连接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能得到的 Web 页面。例如那些用户注册后内容才可见的网页就属于 Deep Web。

 

一个迷你框架

下面以比较典型的通用爬虫为例,分析其工程要点,设计并实现一个迷你框架。架构图以下:

 

代码结构:

 

 

config_load.py    配置文件加载

crawl_thread.py    爬取线程

mini_spider.py    主线程

spider.conf    配置文件

url_table.py    url队列、url表

urls.txt    种子url集合

webpage_parse.py    网页分析

webpage_save.py    网页存储

 

看看配置文件里有什么内容:

spider.conf

 

 

Step 1. 采用BFS仍是DFS?

理论上,这两个算法都可以在大体相同的时间里爬取整个互联网上的内容。但显然各个网站最重要的网页应该是它的首页。在极端状况下,若是只能下载很是有限的网页,那么应该下载的全部网站的首页,若是把爬虫再扩大些,应该爬取从首页直接连接的网页,由于这些网页是网站设计者本身认为至关重要的网页。在这个前提下,显然BFS明显优于DFS。事实上在搜索引擎的爬虫里,主要采用的就是BFS。咱们的框架采起这种策略。

抓取深度能够经过配置文件中的max_depth设置,只要没到达指定深度,程序就会不停的将解析出的url放入队列中:

mini_spider.py

 

 

Step 2. 初始URL集合、URL队列

咱们来看看通用爬虫如何下载整个互联网。假设从一家门户网站的首页出发,先下载这个网页(深度=0),而后经过分析这个网页,能够找到页面里的全部超连接,也就等于知道了这家门户网站首页所直接链接的所有网页,诸如京东理财、京东白条,京东众筹等(深度=1)。接下来访问、下载并分析京东理财等网页,又能找到其余相连的网页(深度=2)。让计算机不停的作下去,就能下载整个网站。

在这个过程当中,咱们须要一个“初始URL集合”保存门户的首页,还须要一个“URL队列”保存分析网页获得的超连接。

mini_spider.py

 

 

url_table.py

 

Step 3. 记录哪些网页已经下载过的小本本——URL表。

在互联网上,一个网页可能被多个网页中的超连接所指向。这样在遍历互联网这张图的时候,这个网页可能被屡次访问到。为了防止一个网页被下载和解析屡次,须要一个URL表记录哪些网页已经下载过。再遇到这个网页的时候,咱们就能够跳过它。

crawl_thread.py

 

 

Step 4. 多个抓取线程

为了提高爬虫性能,须要多个抓取线程,从URL队列获取连接进行处理。多线程并没什么毛病,但Python的多线程可能会引发不少人的质疑,这源于Python设计之初的考虑:GIL。GIL的全称是Global Interpreter Lock(全局解释器锁),某个线程想要执行,必须先拿到GIL,而且在一个Python进程中,GIL只有一个。结果就是Python里一个进程永远只能同时执行一个线程,这就是为何在多核CPU上,Python的多线程效率并不高。那么咱们为何还要用Python多线程呢?

CPU密集型代码(各类循环处理、编解码等等),在这种状况下,因为计算工做多,ticks计数很快就会达到阈值,而后触发GIL的释放与再竞争(多个线程来回切换固然是须要消耗资源的),Python下的多线程对CPU密集型代码并不友好。

IO密集型代码(文件处理、网络爬虫等),多线程可以有效提高效率(单线程下有IO操做会进行IO等待,形成没必要要的时间浪费,而开启多线程能在线程A等待时,自动切换到线程B,能够不浪费CPU的资源,从而能提高程序执行效率)。Python的多线程对IO密集型代码比较友好。

因此,对于IO密集的爬虫程序,使用Python多线程是没问题的。

crawl_thread.py

 

 

Step 5. 页面分析模块

从网页中解析出URLs或者其余有用的数据。这个是上期重点介绍的,能够参考以前的代码。

 

Step 6. 页面存储模块

保存页面的模块,目前将文件保存为文件,之后能够扩展出多种存储方式,如mysql,mongodb,hbase等等。

webpage_save.py

 

 

写到这里,整个框架已经清晰的呈如今你们眼前了,千万不要小看它,无论多么复杂的框架都是在这些基本要素上扩展出来的。

 

下一步

基础知识的学习暂时告一段落,但愿可以帮助你们打下必定的基础。下期开始为你们介绍强大成熟的爬虫框架Scrapy,它提供了不少强大的特性来使得爬取更为简单高效,更多精彩,敬请期待!

相关文章
相关标签/搜索