Python爬虫综述（笔记）

时间 2019-11-10

原文原文链接

1、什么是爬虫？python

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更常常的称为网页追逐者），是一种按照必定的规则，自动的抓取万维网信息的程序或者脚本。git

1）你须要学习github

基本的爬虫工做原理
基本的http抓取工具，scrapy
Bloom Filter: Bloom Filters by Example
若是须要大规模网页抓取，你须要学习分布式爬虫的概念。其实没那么玄乎，你只要学会怎样维护一个全部集群机器可以有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq
rq和Scrapy的结合：darkrho/scrapy-redis · GitHub
后续处理，网页析取(grangier/python-goose · GitHub)，存储(Mongodb)

import Queue

initial_page = "http://www.renminribao.com"

url_queue = Queue.Queue()
seen = set()

seen.insert(initial_page)
url_queue.put(initial_page)

while(True): #一直进行直到海枯石烂
    if url_queue.size()>0:
        current_url = url_queue.get()    #拿出队例中第一个的url
        store(current_url)               #把这个url表明的网页存储好
        for next_url in extract_urls(current_url): #提取把这个url里链向的url
            if next_url not in seen:      
                seen.put(next_url)
                url_queue.put(next_url)
    else:
        break

2）效率redis

设想全网有N个网站，那么分析一下判重的复杂度就是N*log(N)，由于全部网页要遍历一次，而每次判重用set的话须要log(N)的复杂度。OK，OK，我知道python的set实现是hash——不过这样仍是太慢了，至少内存使用效率不高。算法

一般的判重作法是怎样呢？Bloom Filter. 简单讲它仍然是一种hash的方法，可是它的特色是，它可使用固定的内存（不随url的数量而增加）以O(1)的效率断定url是否已经在set中。惋惜天下没有白吃的午饭，它的惟一问题在于，若是这个url不在set中，BF能够100%肯定这个url没有看过。可是若是这个url在set中，它会告诉你：这个url应该已经出现过，不过我有2%的不肯定性。注意这里的不肯定性在你分配的内存足够大的时候，能够变得很小不多。一个简单的教程:Bloom Filters by Example数据库

3）集群化抓取json

那么，假设你如今有100台机器能够用，怎么用python实现一个分布式的爬取算法呢？

咱们把这100台中的99台运算能力较小的机器叫做slave，另一台较大的机器叫做master，那么回顾上面代码中的url_queue，若是咱们能把这个queue放到这台master机器上，全部的slave均可以经过网络跟master联通，每当一个slave完成下载一个网页，就向master请求一个新的网页来抓取。而每次slave新抓到一个网页，就把这个网页上全部的连接送到master的queue里去。一样，bloom filter也放到master上，可是如今master只发送肯定没有被访问过的url给slave。Bloom Filter放到master的内存里，而被访问过的url放到运行在master上的Redis里，这样保证全部操做都是O(1)。（至少平摊是O(1)，Redis的访问效率见:LINSERT – Redis)网络

考虑如何用python实现：
在各台slave上装好scrapy，那么各台机子就变成了一台有抓取能力的slave，在master上装好Redis和rq用做分布式队列。app

代码因而写成dom

#slave.py

current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
    to_send.append(next_url)

store(current_url);
send_to_master(to_send)

#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()

initial_pages = "www.renmingribao.com"

while(True):
    if request == 'GET':
        if distributed_queue.size()>0:
            send(distributed_queue.get())
        else:
            break
    elif request == 'POST':
        bf.put(request.url)

好的，其实你能想到，有人已经给你写好了你须要的：darkrho/scrapy-redis · GitHub

可是若是附加上你须要这些后续处理，好比

有效地存储（数据库应该怎样安排）
有效地判重（这里指网页判重，咱可不想把人民日报和抄袭它的大民日报都爬一遍）
有效地信息抽取（好比怎么样抽取出网页上全部的地址抽取出来，“朝阳区奋进路中华道”），搜索引擎一般不须要存储全部的信息，好比图片我存来干吗...
及时更新（预测这个网页多久会更新一次）

爬取知乎头像的代码（暂时没有弄懂，运行不出来，等稍后再考虑）

做者：挖数
连接：https://www.zhihu.com/question/20899988/answer/96904827
来源：知乎
著做权归做者全部，转载请联系做者得到受权。

import requests
import urllib
import re
import random
from time import sleep
def main():
url='知乎 - 与世界分享你的知识、经验和看法'
#感受这个话题下面美女多
headers={省略}
i=1
for x in xrange(20,3600,20):
data={'start':'0',
'offset':str(x),
'_xsrf':'a128464ef225a69348cef94c38f4e428'}
#知乎用offset控制加载的个数，每次响应加载20
content=requests.post(url,headers=headers,data=data,timeout=10).text
#用post提交form data
imgs=re.findall('<img src=\\\\\"(.*?)_m.jpg',content) 
#在爬下来的json上用正则提取图片地址，去掉_m为大图 
for img in imgs:
try:
img=img.replace('\\','')
#去掉\字符这个干扰成分
pic=img+'.jpg'
path='d:\\bs4\\zhihu\\jpg\\'+str(i)+'.jpg'
#声明存储地址及图片名称
urllib.urlretrieve(pic,path)
#下载图片
print u'下载了第'+str(i)+u'张图片'
i+=1
sleep(random.uniform(0.5,1))
#睡眠函数用于防止爬取过快被封IP
except:
print u'抓漏1张'
pass
sleep(random.uniform(0.5,1))

if __name__=='__main__':

main()

做者：谢科连接：https://www.zhihu.com/question/20899988/answer/24923424 来源：知乎著做权归做者全部，转载请联系做者得到受权。