浅谈增量式爬虫

时间 2019-12-11

标签浅谈增量爬虫栏目网络爬虫繁體版

原文原文链接

引入

在咱们爬取某些网站时会遇到一些问题？某些网站会定时在原有网页数据的基础上更新一批数据。redis

例如某电影网站会实时更新一批最近热门的电影。小说网站会根据做者创做的进度实时更新最新的章节数据等等。json

那么遇到相似的场景，咱们就能够采用增量式爬虫了多线程

而增量式爬虫分为两个步骤：ide

增量爬取
爬取结果去重

增量爬取

一个站点更新也会出现下面两种状况：函数

1，单个页面数据更新

当出现这种状况的时候，咱们对此特定页面的内容作哈希，固然要去除动态变化的那一部分，好比有的页面有验证码或者日期，程序按期执行，在执行的最开始检测此页面的哈希值跟上次抓取是否有变化，若是有变化就开始抓取。网站

2，新增了页面

若是是新增页面呢，咱们会对页面入口内容作哈希，而且存储分页面的URL哈希值，若是页面入口哈希值发生变化，获取新增的页面url列表，在这里须要用到url的去重，和数据去重相似，采用redis集合类型处理。url

redis集合类型不容许添加剧复的数据，当添加剧复的时候时，返回0，而且添加失败。咱们将全部的url list存入redis集合，当页面入口变化时，进行页面url去重，只抓取新增的页面。spa

爬取结果去重

结果去重也有如下两种经常使用的方法：线程

布隆过滤器

其中布隆过滤器是经过写文件的方式，多个进程使用须要添加同步和互斥，较为繁琐，不推荐多线程/进程的时候使用，另外写文件是磁盘I/O操做，耗费时间长，能够累积到必定数量再一次写入，或者利用上下文管理器在程序结束或异常退出时一次性写入。code

class Spider(object):
    def __init():
        # 布容过滤器初始化
        self.burongname = 'test.bl'
        if not os.path.isfile(self.burongname):
            self.bl = BloomFilter(capacity=100000, error_rate=0.000001)
        else:
            with open(self.burongname, 'rb') as f:
                self.bl = BloomFilter.fromfile(f)
    
    def __enter__(self):
        u"""
        上下文管理器进入入口
        """
        return self

    def __exit__(self, *args):
        u"""
        上下文管理器，退出出口
        """
        if self.conn is not None:
            self.conn.close()

        with open(self.burongname, 'wb') as f:
            self.fingerprints.tofile(f)
    def get_infos(self):
        """
        抓取主函数
        """
        # 布隆过滤器使用部分, x为抓取到得数据
        x = json.dumps(i)
        if x not in self.bl:
            self.bl.add(x)

if __name__ == '__main__':
    with Spider() as MSS:
        MSS.get_infos()

上下文管理器，在主函数执行以前执行 def enter ，在程序运行结束或异常退出时执行def exit，上下文管理器还能够用来统计程序执行的时间。

redis集合

使用redis集合去重可以支持多线程多进程.

利用redis集合无重复数据的特色，在redis创建集合，往其中添加数据的sha1值，添加成功返回1，表示无重复，添加失败返回0，表示集合中已经有重复数据

使用步骤：

创建redis链接池
重复检查

下面的例子是接口，并提供example。

[Redis]
server=192.168.0.100
pass=123@123

import sys
import hashlib
import os
import codecs
import ConfigParser
import redis


"""
利用redis的集合不容许添加剧复元素来进行去重
"""


def example():
    pool, r = redis_init()
    temp_str = "aaaaaaaaa"
    result = check_repeate(r, temp_str, 'test:test')
    if result == 0:
        print ("重复")
    else:
        print ("不重复")
    redis_close(pool)

def redis_init(parasecname="Redis"):
    """
    初始化redis
    :return: redis链接池
    """
    cur_script_dir = os.path.split(os.path.realpath(__file__))[0]
    cfg_path = os.path.join(cur_script_dir, "db.conf")

    cfg_reder = ConfigParser.ConfigParser()
    secname = parasecname
    cfg_reder.readfp(codecs.open(cfg_path, "r", "utf_8"))
    redis_host = cfg_reder.get(secname, "server")
    redis_pass = cfg_reder.get(secname, "pass")

    # redis
    pool = redis.ConnectionPool(host=redis_host, port=6379, db=0, password=redis_pass)
    r = redis.Redis(connection_pool=pool)

    return pool, r

def sha1(x):
    sha1obj = hashlib.sha1()
    sha1obj.update(x)
    hash_value = sha1obj.hexdigest()
    return hash_value

def check_repeate(r, check_str, set_name):
    """
    向redis集合中添加元素，重复则返回0，不重复则添加成功，并返回1
    :param r:redis链接
    :param check_str:被添加的字符串
    :param set_name:项目所使用的集合名称，建议以下格式：”projectname:task_remove_repeate“
    """
    hash_value = sha1(check_str)
    result = r.sadd(set_name, hash_value)
    return result

def redis_close(pool):
    """
    释放redis链接池
    """
    pool.disconnect()

if __name__ == '__main__':
    example()

1. 增量式爬虫
2. 爬虫之增量式爬虫
3. 18.增量式爬虫
4. http爬虫浅谈
5. 爬虫 --- 08. 全站爬取(CrawlSpider), 分布式, 增量式爬虫
6. 分布式+增量式爬虫
7. crawlSpider,分布式爬虫,增量式爬虫
8. 分布式爬虫与增量式爬虫
9. pyspider爬虫框架(增量爬虫)
10. 浅谈网络爬虫
更多相关文章...
• Hibernate实现增删改查 - Hibernate教程
• SQLite Autoincrement（自动递增） - SQLite教程
• 漫谈MySQL的锁机制
• 委托模式