scrapy之spider模块

时间 2019-12-10

原文原文链接

scrapy中的spider的用法：redis

　　一、scrapy命令行能够传参数给构造器dom

scrapy crawl myspider -a category=electronics

　　构造器接收传入的参数electron

import scrapy

class MySpider(Spider):
name = 'myspider'

def __init__(self, category=None, *args, **kwargs):
super(MySpider, self).__init__(*args, **kwargs)
self.start_urls = ['http://www.example.com/categories/%s' % category]
# ...

　　二、spider.Spider：在系统生成的脚本或本身编写的脚本都必需要继承Spider类，功能是调用start_urls/start_requests并将结果给parse处理
　　　　allowd_domains:当offsiteMiddleware启用时，不在其内的域名不会被爬取scrapy

　　三、spider默认的运行规则：ide

　　　　一、spider启动函数

　　　　二、运行start_requests()，此方法使用get方法请求url,仅会被scrapy调用一次post

　　　　三、start_requests调用make_requests_from_url(url)网站

　　　　四、start_urls中的url被请求，结果返回给parse 函数处理url

　　scrapy默认使用get方法请求url,那当我要post登录网站，再爬取数据，怎么办呢？spa

　　能够经过改写start_requests()方法来实现，改写了scrapy默认的运行规则

def start_requests(self):
    return [scrapy.FormRequest("http://www.example.com/login",
                               formdata={'user': 'john', 'pass': 'secret'},
                               callback=self.logged_in)]

def logged_in(self, response):
    # here you would extract links to follow and return Requests for
    # each of them, with another callback
    pass

　　四、parser():是scrapy 处理response的默认方法，负责返回处理的数据

scrapy-reids:

　　一、修改settings

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 300
}
REDIS_URL = 'redis://user:pass@hostname:9001'

1. Scrapy 1.5.0之Spider
2. scrapy框架之spider
3. scrapy-spider
4. 爬虫框架Scrapy之Spider
5. Scrapy——Spider Middleware
6. scrapy框架【spider】
7. python模块之scrapy
8. BurpSuite之Spider模块学习篇
9. Python爬虫5.3 — scrapy框架spider[Request和Response]模块的使用
10. 让Scrapy的Spider更通用
更多相关文章...
• Lua 模块与包 - Lua 教程
• DTD - XML 构建模块 - DTD 教程
• 委托模式
• 互联网组织的未来：剖析GitHub员工的任性之源