[爬虫]一个易用的IP代理池

时间 2019-12-18

原文原文链接

一个易用的IP代理池 - stand

写爬虫时经常会遇到各类反爬虫手段, 封 IP 就是比较常见的反爬策略python

遇到这种状况就须要用到代理 IP, 好用的代理一般须要花钱买, 而免费的代理常常容易失效, 因此就须要本身搭建 IP 代理池, 来获取免费高效的代理 IP. 下面介绍一个本身写的 IP 代理池, 欢迎 stargit

lin-zone/stand

安装

pip install stand

启动

stand

启动后, 爬虫会从代理网站抓取 IP, 并将数据保存在名为 stand.db 的 SQLite 数据库中, 等待爬虫抓取必定数量 IP 后, 便可使用代理github

使用

>>> from stand import get_proxy
>>> proxy = get_proxy()
>>> print(proxy)
'103.133.222.151:8080'

在 Scrapy 中使用 stand 做为代理数据库

import scrapy
from scrapy.crawler import CrawlerProcess


class TestSpider(scrapy.Spider):
    name = 'test'
    start_urls = ['https://api.ip.sb/ip']

    def parse(self, response):
        print(response.meta['proxy'])
        print(response.text)


DOWNLOADER_MIDDLEWARES = {
    'stand.UserAgentMiddleware': 543,
    'stand.ProxyMiddleware': 600,
}
settings = dict(
    LOG_ENABLED=False,
    DOWNLOAD_TIMEOUT=30,
    DOWNLOADER_MIDDLEWARES=DOWNLOADER_MIDDLEWARES,
)


def run():
    process = CrawlerProcess(settings)
    process.crawl(TestSpider)
    process.start()


if __name__ == "__main__":
    run()

项目说明

当启动 stand 时, 首先会运行 crawl 函数从代理网站爬取代理 IP, 并将爬取到的结果存储在名为 stand.db (可经过 STAND_DIR 环境变量设置保存目录) 的 SQLite 数据库中, 每一个 IP 有一个初始分数 2
而后会运行 validate 函数验证代理 IP 的有效性, 验证经过分数设置为最高值 3, 验证失败分数减 1, 当分数为 0 时删除该 IP
以后会定时运行 crawl 和 validate 函数分别爬取和验证 IP, 每20分钟爬取一次 IP, 每60分钟验证一次 IP