十分钟搞懂分布式爬虫

1.预备知识windows

服务器

今天我们来扯一扯分布式进程爬虫,对爬虫有所了解的都知道分布式爬虫这个东东,今天咱们来搞懂一下分布式这个概念,从字面上看就是分开来布置,确实如此它是能够分开来运做的。网络

分布式进程就是将进程分布到多台机器上去,充分利用每一台机器来完成咱们的爬虫任务。分布式进程须要用到multiprocessing模板,multiprocessing模板不但支持多进程,它的managers子模块还支持把多进程分布到多台机器上。分布式

咱们能够写一个服务进程做为调度者,而后将咱们的爬虫任务分布给其余的多个进程当中去,咱们依靠网络通讯来管理这些进程。函数

学习

2.模拟一个分布式进程爬虫网站

咱们来模拟进行一个分布式进程的爬虫吧,就好比咱们须要抓取某个图片网站的全部图片,若是用咱们的分布式进程的思想,咱们会建立一个进程负责抓取图片的连接地址,而后将这些连接地址存放到Queue中,另外的进程负责从Queue中读取连接进行图片的下载或者进行其余操做(存在本地).url

其实咱们的Queue是暴露在网络中的,经过分布式就是将其进行了封装,其实也就是所谓的本地队列的网络化。code

接下来,咱们来分析一下如何去建立一个分布式的服务进程,整体能够分为六步:视频

首先咱们须要创建一个队列queue,这个主要用做进程之间的通讯。整体来讲就是两种进程,一种是服务进程,一种是任务进程。服务进程建立任务队列task_queue,用做传递任务给任务进程的通道。服务进程又建立result_queue,做为任务进程完成任务后回复服务进程的通道。在分布式进程的环境下,咱们须要经过Queuemanager 得到的Queue接口来添加任务。

把咱们在第一步中队列在网络上进行注册,暴露给其余的进程或者主机,注册后得到网络队列,至关于本地队列的映像。

创建Queuemanager的对象,而且实例化,绑定端口和口令

启动第三步中创建的实例,即启动管理manager,监管信息通道

经过管理实例的方法获取到经过网络访问的queue对象,也就是把网络对象实体化成本地的一个队列。

建立任务到“本地”队列中,自动上传任务到网络队列中,分配给任务进程进行处理。

咱们就来写一下服务进程的代码 taskManager.py:

import queue

from multiprocessing.managers import BaseManager

from multiprocessing import freeze_support

任务个数

task_num = 500

定义收发队列

task_queue = queue.Queue(task_num)

result_queue = queue.Queue(task_num)

def get_task():

return task_queue

def get_result():

return result_queue

建立相似的QueueManager

class QueueManager(BaseManager):

pass

def run():

Windows下绑定调用接口不能使用lambda,因此只能先定义函数再绑定

QueueManager.register('get_task_queue', callable = get_task)

QueueManager.register('get_result_queue', callable=get_result)

#绑定端口并设置验证口令,windows下须要填写ip地址,Linux中不填默认为本地

manager = QueueManager(address=('127.0.0.1', 8001), authkey='jap'.encode('utf-8'))

启动

manager.start()

try:

经过网络获取任务队列和结果队列

task = manager.get_task_queue()

result = manager.get_result_queue()

添加任务

for url in ["JAP君url:"+str(i) for i in range(500)]:

print("添加任务 %s" %url)

task.put(url)

print("正在获取结果...")

for i in range(500):

print("result is %s" %result.get(timeout=10))

except:

print('Manager error')

finally:

必定要关闭,不然会报管道未关闭的错

manager.shutdown()

if name == 'main':

windows下多进程可能会出现问题,添加这句话能够解决

freeze_support()

run()

上面就是咱们的服务进程,我把解析都写在了里面,你们能够仔细看一下,接下来咱们来写任务进程(taskWorker),建立任务进程也比较简单,只有简单的四步:

  1. 建立一个相似的QueueManager对象,使用QueueManager注册用于获取queue的方法名称,任务进程只能经过名称来在网络上获取queue,因此这里必定要注意服务端和任务端的名称要相同。

  2. 连接服务器,端口和指令必定要与服务端相同

  3. 从网络上获取queue,而且将其本地化。

  4. 从task对列中获取任务,而且把结果写入result对列。

import time

from multiprocessing.managers import BaseManager

建立相似的QueueManager

class QueueManager(BaseManager):

pass

第一步:使用QueueManager注册用于获取Queue的方法名称

QueueManager.register('get_task_queue')

QueueManager.register('get_result_queue')

第二步:连接到服务器

server_addr = '127.0.0.1'

print('Connect to server %s' %server_addr)

端口和验证的口令必定要保证相同

m = QueueManager(address = (server_addr, 8001), authkey='jap'.encode('utf-8'))

从网络链接:

m.connect()

第三步:获取queue的对象

task = m.get_task_queue()

result = m.get_result_queue()

第四步:从task队列中获取任务,并把结果写入result队列

while(not task.empty()):

url = task.get(True, timeout = 5)

print("run task download %s" %url)

time.sleep(1)

将结果写入result队列

result.put("%s --->success" %url)

print("exit")

详细的步骤也写在里面了,固然这个任务队列,咱们是能够建立多个的,每一个任务进程都会完成本身的事,而不会干扰其余的任务进程,这也就让咱们的url不会重复的去爬取,从而完美的实现了多个进程来爬取咱们的任务。

以上就是一个很是简单的分布式进程的爬虫小案例,你们能够经过这种方式去实战本身的一个小项目,在这里还说一下,咱们是能够将咱们的任务分布到多台机器上的,这样咱们就实现了大规模的爬取。

以上就是小编今天为你们带来的一些Python经常使用的爬虫代码。

在学习中有迷茫不知如何学习的朋友小编推荐一个学Python的学习q u n 315 -346- 913能够来了解一块儿进步一块儿学习!免费分享视频资料

转自JAP君

相关文章
相关标签/搜索