scrapy爬虫架构介绍和初试

时间 2019-11-13

原文原文链接

scrapy爬虫架构介绍和初试

1、scrapy简介

Scrapy 是一套基于Twisted的异步处理框架，是纯python实现的爬虫框架，用户只须要定制开发几个模块就能够轻松的实现一个爬虫，用来抓取网页内容或者各类图片。下图显示了Scrapy的大致架构，其中包含了scheduler、item pipeline、downloader、spider以及engine这几个组件模块，而其中的绿色箭头则说明了整套系统的数据处理流程。html

下面就来一个个解释每一个组件的做用及数据的处理过程。python

scrapy-admin.py startproject blog_crawlweb

2、组件说明：

一、ScrapyEngine（Scrapy引擎）正则表达式

Scrapy引擎是用来控制整个系统的数据处理流程，并进行事务处理的触发。更多的详细内容能够看下面的数据处理流程。数据库

二、Scheduler（调度）网络

调度程序从Scrapy引擎接受请求并排序列入队列，并在Scrapy引擎发出请求后返还给他们。架构

三、Downloader（下载器）app

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。框架

四、Spiders（蜘蛛）dom

蜘蛛是有Scrapy用户本身定义用来解析网页并抓取制定URL返回的内容的类，每一个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。

蜘蛛的整个抓取流程（周期）是这样的：

(1)首先获取第一个URL的初始请求，当请求返回后调取一个回调函数。第一个请求是经过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求，并执行解析来调用回调函数。

(2)在回调函数中，你能够解析网页响应并返回项目对象和请求对象或二者的迭代。这些请求也将包含一个回调，而后被Scrapy下载，而后有指定的回调处理。

(3)在回调函数中，你解析网站的内容，同程使用的是Xpath选择器（可是你也可使用BeautifuSoup, lxml或其余任何你喜欢的程序），并生成解析的数据项。

(4)最后，从蜘蛛返回的项目一般会进驻到项目管道。

五、Item Pipeline（项目管道）

项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目，他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后，将被发送到项目管道，并通过几个特定的次序处理数据。每一个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法，同时他们还须要肯定的是是否须要在项目管道中继续执行下一步或是直接丢弃掉不处理。

项目管道一般执行的过程有：

清洗HTML数据

验证解析到的数据（检查项目是否包含必要的字段）

检查是不是重复数据（若是重复就删除）

将解析到的数据存储到数据库中

六、Downloadermiddlewares（下载器中间件）

下载中间件是位于Scrapy引擎和下载器之间的钩子框架，主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展 Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的，对Scrapy尽享全局控制的底层的系统。

七、Spider middlewares（蜘蛛中间件）

蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架，主要工做是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架，你能够插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

八、Schedulermiddlewares（调度中间件）

调度中间件是介于Scrapy引擎和调度之间的中间件，主要工做是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。

3、数据处理流程

Scrapy的整个数据处理流程由Scrapy引擎进行控制，其主要的运行方式为：

1引擎打开一个域名，蜘蛛处理这个域名，并让蜘蛛获取第一个爬取的URL。

2引擎从蜘蛛那获取第一个须要爬取的URL，而后做为请求在调度中进行调度。

3引擎从调度那获取接下来进行爬取的页面。

4调度将下一个爬取的URL返回给引擎，引擎将他们经过下载中间件发送到下载器。

5当网页被下载器下载完成之后，响应内容经过下载中间件被发送到引擎。

6引擎收到下载器的响应并将它经过蜘蛛中间件发送到蜘蛛进行处理。

7蜘蛛处理响应并返回爬取到的项目，而后给引擎发送新的请求。

8引擎将抓取到的项目项目管道，并向调度发送请求。

系统重复第二步后面的操做，直到调度中没有请求，而后断开引擎与域之间的联系。

scrapy可以很好的处理问题，它经过几个组件完成不一样的部分，将相似下载网页数据的这些通用操做封装起来，减小了咱们编写爬虫时的难度，而且各个部件之间经过异步来处理，可以最大限度利用了网络带宽。咱们只须要按照它的要求来实现几个模块就能够了。

fromscrapy.spider importBaseSpider

classtest(BaseSpider):

name ="test"

allowed_domains =["hao123.com"]

start_urls =["http://www.hao123.com"]

defparse(self,response):

printresponse.url

4、爬虫一般的作法

一般的爬取数据的处理的流程是：

1. 将一个开始的网页url存放到list中

2. 不断从list中取出url进行数据获取

3. 在获取到的网页数据中的连接都存放到list里面

4. 不断重复2、3步骤

#encoding=utf-8

__author__='dragon'

importurllib2

importos

importpymongo

importtime

importhashlib

defmyspider(startweb, keyword):

list=[startweb]

curindex =0

Keyword =keyword

#网络上MongoHQ

#con = pymongo.Connection("paulo.mongohq.com",10042)

#db = con.mytest

#db.authenticate("dragon","dragon")

#db.urllist.drop()

#本地数据库

con =pymongo.Connection("localhost", 27017)

db =con.mytest

whilecurindex < len(list):

url =list[curindex]

print"list count =", len(list), " curcheck ",curindex

print"try to visit ", url

headers =('User-Agent', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/29.0.1547.66 Safari/537.36')

try:

opener =urllib2.build_opener()

opener.addheaders =[headers]

openness =opener.open(url, None, 30)

data =openness.read()

opener.close()

except:

print"some error ..."

curindex +=1

continue

print"finish get data..."

os.remove("d:/test.txt")

file=open("d:/test.txt","a")

print>> file, data

file.close()

myfile =open("d:/test.txt", "r")

mystring =myfile.read()

myfile.close()

#找到标题

title =""

headstart =mystring.find("<head>")

headend =mystring.find("</head>")

ifheadstart < 0:

headstart =mystring.find("<HEAD>")

headend =mystring.find("</HEAD>")

ifheadstart > 0:

titlestart =mystring.find("<title>")

titleend =mystring.find("</title>")

iftitlestart < 0:

titlestart =mystring.find("<TITLE>")

titleend =mystring.find("</TITLE>")

iftitleend >titlestart andtitlestart < headend andtitleend < headend:

title =mystring[titlestart+len("<title>"):titleend]

dbdata ={"title":"", "url":"","time":""}

try:

title =title.decode("utf-8").encode("utf-8")

except:

try:

title =title.decode("gbk").encode("utf-8")

except:

pass

dbdata["title"] =title

dbdata["url"] =url

dbdata["time"] =time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))

try:

db.urllist.insert(dbdata)

except:

print"insert error"

iflen(mystring) >0:

whilelen(mystring) > 0:

start =mystring.find("href=\"")

ifstart <=0:

break

substring =mystring[start+6:]

end =substring.find("\"")

weblink =substring[:end]

ifKeyword !="":

ifweblink.find(Keyword)>=0andlist.count(weblink) <=0:

list.append(weblink)

elif0>weblink.find("video.sina.com.cn") \

and0>weblink.find("video.baidu.com") \

and0<=weblink.find("http:") \

and0>=list.count(weblink):

list.append(weblink)

mystring =mystring[start+6:]

curindex +=1

if__name__ =='__main__':

myspider("http://www.hao123.com","hao123")

5、scrapy优点

scrapy结构清晰，能够很方便得修改它来实现更复杂的需求

快速的link extracto

首先从初始 URL 开始，Scheduler 会将其交给 Downloader 进行下载，下载以后会交给 Spider 进行分析，Spider 分析出来的结果有两种：一种是须要进一步抓取的连接，例如以前分析的“下一页”的连接，这些东西会被传回 Scheduler ；另外一种是须要保存的数据，它们则被送到 Item Pipeline 那里，那是对数据进行后期处理（详细分析、过滤、存储等）的地方。另外，在数据流动的通道里还能够安装各类中间件，进行必要的处理。parse 方法是咱们须要定义的回调函数，默认的 request 获得 response 以后会调用这个回调函数，咱们须要在这里对页面进行解析，返回两种结果（须要进一步 crawl 的连接和须要保存的数据），让我感受有些奇怪的是，它的接口定义里这两种结果居然是混杂在一个 list 里返回的，不太清楚这里为什么这样设计。

Scrapy为每个start_urls建立一个scrapy.http.Request对象，并将爬虫的parse方法指定为回调函数。这些Request首先被调度,而后被执行,以后经过parse()方法,将scrapy.http.Response对象被返回,结果也被反馈给爬虫。

6、XPath selectors

Scrapy使用的是XPath表达式,一般叫作XPath selectors。

这里有一些表达式的例子和它们相关的含义:

/html/head/title: 选择<title>元素,在HTML文档的<head>元素里

/html/head/title/text(): 选择<title>元素里面的文本

//td: 选择全部的<td>元素

//div[@class="mine"]: 选择全部的div元素里面class属性为mine的

为了更好使用XPaths, Scrapy提供了一个XPathSelector类,它有两种方式, HtmlXPathSelector(HTML相关数据)和XmlXPathSelector(XML相关数据)。若是你想使用它们,你必须实例化一个Response对象。

x = HtmlXPathSelector(response)

选择器有三种方法(点击方法你可以看见完整的API文档)。

select(): 返回选择器的列表,每个select表示一个xpath表达式选择的节点。

extract(): 返回一个unicode字符串 ,该字符串XPath选择器返回的数据。

re(): 返回unicode字符串列表,字符串做为参数由正则表达式提取出来。

每一个select()调用返回一个selectors列表，因此咱们能够结合select()去挖掘更深的点：

sites = hxs.select('//ul/li')

for site in sites:

title = site.select('a/text()').extract()

link = site.select('a/@href').extract()

desc = site.select('text()').extract()

print title, link, desc