关于Scrapy爬虫项目运行和调试的小技巧（上篇）

时间 2019-12-11

原文原文链接

扫除运行Scrapy爬虫程序的bug以后，如今即可以开始进行编写爬虫逻辑了。在正式开始爬虫编写以前，在这里介绍四种小技巧，能够方便咱们操纵和调试爬虫。数组

1、创建main.py文件，直接在Pycharm下进行调试框架

不少时候咱们在使用Scrapy爬虫框架的时候，若是想运行Scrapy爬虫项目的话，通常都会想着去命令行中直接执行命令“scrapy crawl crawler_name”，其中crawler_name指的是爬虫的名字，在一开始建立Scrapy爬虫模板的时候就指定了的，并且在该爬虫项目中具备惟一性。可是每次跑到命令行下去执行，看交互的结果，有时候并非很清晰，因此这里介绍一种方法，能够帮助你们提升开发效率，尤为是调试的时候更是显得方便。scrapy

在与爬虫项目的scrapy.cfg文件同级目录下创建一个main.py文件，用于控制整个爬虫项目的执行。函数

在该文件夹中写入的代码见下图。其中execute函数是内嵌在scrapy中的，调用这个函数能够直接调用该Scrapy工程项目的爬虫脚本，这个函数的执行须要在爬虫项目的父目录下进行。而第7行代码的意思就是获取当前py文件的父目录，省去咱们直接复制路径的精力和时间，同时也方便咱们将该项目放到其余的平台上去运行，不会报路径的错误。execute函数里边的参数其实就是将Scrapy爬虫执行命令拆分，而后分别以一个字符的方式放到了一个数组中。字体

以后咱们直接运行这个main.py文件即可以调用Scrapy爬虫程序了。命令行

2、多用Debug进行调试，提升开发速度3d

相信用过Pycharm的小伙伴都看到过Debug这个东东，它的英文意思就是“小虫子”，在Pycharm中的logo也是个小虫子，像是七星瓢虫同样，不过不少小伙伴可能尚未怎么用过，这里简单的介绍给你们，但愿你们往后能够多多用到，对于项目的调试十分有帮助。调试

在进行Debug调试以前，咱们须要在咱们想要调试的代码左侧进行打断点，断点通常是红色的，打断点的方式很简单，只须要在代码的左侧点击一下左键便可，以下图所示。orm

断点设置完成以后，即可以去main.py文件进行调试了。在main.py文件点击右键，而后选择“Debug ‘main’”，以下图所示。cdn

以后爬虫程序便开始进行调试，而且会返回一系列结果，以下图所示，能够方便的进行拖拽查看。同时也会在爬虫文件中以绿色的字体进行显示爬虫的结果，很漂亮。

若是想退出或者中止该调试，则点击Pycharm上方选项卡的Run，而后点击“Stop ‘main’”便可，以下图所示。

以后该爬虫程序就会退出调试，恢复正常的Pycharm界面，以下图所示。

关于Scrapy爬虫项目运行和调试两个小技巧先分享到这里，下次将分享Scrapy爬虫项目中更为实用的两种调试方法，敬请期待~~