PyCharm下进行Scrapy项目的调试

时间 2019-11-16

原文原文链接

PyCharm下进行Scrapy项目的调试，能够在爬虫项目的根目录建立一个main.py，而后在PyCharm设置下运行路径，那么就不用每次都在命令行运行代码，直接运行main.py就能启动爬虫了。javascript

一、首先建立一个Scrapy项目：

在命令行输入：java

scrapy startproject project_name复制代码

project_name为项目名称，好比个人项目名称为py_scrapyjobbole，生成的目录为：web

二、建立新的Spider

在命令行输入：chrome

scrapy genspider jobbole(spider名称) blog.jobbole.com(爬取的起始url)复制代码

# -*- coding: utf-8 -*-
import scrapy


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/111322/']

    def parse(self, response):
        re_select = response.xpath('//*[@id="post-111322"]/div[1]/h1')
        pass复制代码

三、配置setting.py文件（这步很重要）

BOT_NAME = 'py_scrapyjobbole'

SPIDER_MODULES = ['py_scrapyjobbole.spiders']
NEWSPIDER_MODULE = 'py_scrapyjobbole.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# USER_AGENT = 'py_scrapyjobbole (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False复制代码

ROBOTSTXT_OBEY = False必定要设置成 False，断点调试才能正常进行。<>app

四、在工程目录下创建main.py文件，稍后将会在这里面进行调试！

from scrapy.cmdline import execute
import sys
import os

# 打断点调试py文件
# sys.path.append('D:\PyCharm\py_scrapyjobbole')
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
print(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'jobbole'])复制代码

五、进行断点调试

附录

xpath相关知识dom

在用Scrapy进行数据爬取时可能会用到xpath相关知识，因此简单地展现一张图：scrapy

在这里面值得注意的是‘’/“和”//“的区别！ide

/：表明子元素，选取的元素必须是父子关系post

//：表明全部后代元素，选取的元素不必定是父子关系，只要是后代元素便可url

不过，你们要是以为难的话，也能够利用chrome的元素查找功能进行xpath路径的复制：