爬虫_小结02

时间 2019-11-29

原文原文链接

一、scrapy框架专题部分python

（1）请简要介绍下scrapy框架。
scrapy 是个快速，高层次的基于python的web爬虫框架，用于抓取web站点，并从页面中提取结构化的数据。
scrapy使用了Twisted异步网络库来处理网络通讯。

（2）为何要使用scrapy框架？scrapy框架有哪些优势？
它更容易构建大规模的抓取项目
它异步处理请求，速度很是快
它能够使用自动调节机制自动调整爬行速度

（3）scrapy框架有哪几个组件/模块？简单说一下工做流程。

Scrapy Engine: 这是引擎，负责Spiders、ItemPipeline、Downloader、Scheduler中间的通信，信号、数据传递等等

Scheduler(调度器): 它负责接受引擎发送过来的requests请求，并按照必定的方式进行整理排列，入队、并等待Scrapy Engine(引擎)来请求时，交给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的全部Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spiders来处理

Spiders：它负责处理全部Responses,从中分析提取数据，获取Item字段须要的数据，并将须要跟进的URL提交给引擎，再次进入Scheduler(调度器)

Item Pipeline：它负责处理Spiders中获取到的Item，并进行处理，好比去重，持久化存储（存数据库，写入文件，总之就是保存数据用的）

Downloader Middlewares（下载中间件）：你能够看成是一个能够自定义扩展下载功能的组件

Spider Middlewares（Spider中间件）：你能够理解为是一个能够自定扩展和操做引擎和Spiders中间‘通讯‘的功能组件
（好比进入Spiders的Responses;和从Spiders出去的Requests）

（4）scrapy如何实现分布式抓取？
能够借助scrapy_redis类库来实现。

原理：
在分布式爬取时，会有master机器和slave机器，其中，master为核心服务器，slave为具体的爬虫服务器。
在master服务器上搭建一个redis数据库，并将要抓取的url存放到redis数据库中，全部的slave爬虫服务器在抓取的时候从redis数据库中获取连接，
因为scrapy_redis自身的队列机制，slave获取的url不会相互冲突，而后抓取的结果最后都存储到数据库中。
master的redis数据库中还会将抓取过的url的指纹存储起来，用来去重。相关代码在dupefilter.py文件中的request_seen()方法中能够找到。

去重问题：
dupefilter.py 里面的源码：
def request_seen(self, request):
　　fp = request_fingerprint(request)
　　added = self.server.sadd(self.key, fp)
return not added
去重是把 request 的 fingerprint 存在 redis 上，来实现的。

二、其余常见问题。
（1）爬虫使用多线程好？仍是多进程好？为何？
对于IO密集型代码（文件处理，网络爬虫），多线程可以有效提高效率（单线程下有IO操做会进行IO等待，会形成没必要要的时间等待，
而开启多线程后，A线程等待时，会自动切换到线程B，能够不浪费CPU的资源，从而提高程序执行效率）。
在实际的采集过程当中，既考虑网速和相应的问题，也须要考虑自身机器硬件的状况，来设置多进程或者多线程。

（2）http和https的区别？
A. http是超文本传输协议，信息是明文传输，https则是具备安全性的ssl加密传输协议。
B. http适合于对传输速度、安全性要求不是很高，且须要快速开发的应用。如web应用，小的手机游戏等等。而https适用于任何场景。

（3）数据结构之堆，栈和队列的理解和实现
栈（stacks）：栈的特色是后进先出。只能经过访问一端来实现数据的储存和检索的线性数据结构。
队列（queue）：队列的特色是先进先出。元素的增长只能在一端，元素的删除只能在另外一端。增长的一端称为队尾，删除的一端称为队首

栈：
stack = [1, 2, 3]
stack.append(4)
stack.append(5)
print(stack) # [1, 2, 3, 4, 5]
stack.pop()
stack.pop()
print(stack) # [1, 2, 3]

队列：
from collections import dequeweb

queue = deque(['Eric', 'John', 'Michael'])
queue.append('Terry')
queue.append('Graham')
print(queue) # deque(['Eric', 'John', 'Michael', 'Terry', 'Graham'])
queue.popleft()
print(queue) # deque(['John', 'Michael', 'Terry', 'Graham'])redis

栈溢出的几种状况？
一、局部数组过大。当函数内部数组过大时，有可能致使堆栈溢出。
二、递归调用层次太多。递归函数在运行时会执行压栈操做，当压栈次数太多时，也会致使堆栈溢出。

解决方法：
一、用栈把递归转换成非递归。
二、增大栈空间。数据库