pyspider爬虫初学笔记

在学习爬虫的过程中,知道了有pyspider这个神器,界面虽然简单但看着很方便,以下大概介绍一下各方面内容。

一、安装:

在命令行中pip install pyspider,

每次启动时都需要在命令行中输入pyspider,


在网页中打开localhost:5000


页面名叫dashboard,是pyspider的控制面板。

group代表分组,status中有stop,todo,running,Checking和debug五种模式,必须选择running或者debug模式时才能运行项目。progress和rate不用考虑太多,avg time是平均运行时长,actions中,有三个按键,分别代表运行,当前任务,和运行结果。

二、使用:

创建项目时,点击create,输入项目名称和目标网址,之后会进入新的页面,如下是爬取安居客网站上的房价数据案例:


新的页面必须点击右上角的save进行保存,否则退出时不会自动保存代码。

在该页面进行调试时,首先点击左侧输入框的run,之后点击下方的follow,下一步是出现的网址右侧的箭头,一步一步点击下去,会看到你提取出来的结果。

web按键是显示该网站的页面;

html是显示该网站的源代码;

message是显示代码运行信息;

enable css selector helper是可以在点击web的前提下在该网站页面中选取元素,检查它们的标签。

爬取的结果如下所示:


运行结果有三种导出方式,分别是json,URL-json和csv。可根据需要自行导出。

三、语法:

在return返回值时,需要注意使用%s,即占位符,来进行数据的调整,并且需要与%i相对应;

非常重要的一点是,python语句中的缩进问题,一旦缩进出现误差,代码就会报错;

四、注意事项:

1. 在面板页面点击run之后,得到的result是固定的,不会因为在内部修改代码之后重新运行得到新的结果,因此最好是在单个项目页面中调试完毕之后再出来点击run。


2. 想要删除项目时,首先将group选项填写delete,然后将status填写为stop,这样在24h之后项目会自动删除。


3. 由于浏览器问题,web页面显示不完全,因此可以通过调整f12中的开发工具对页面进行修改,修改位置如下:


默认的height值为"50%",由于个人浏览器分辨率问题,本人的电脑调整为"500",可根据个人电脑配置自行修改!

4.若有其他问题,可至pyspider作者github网上进行查询,网址如下:

https://github.com/binux/pyspider/issues?page=2&q=is%3Aissue+is%3Aopen

以上是自学pyspider的一些收获,如有错误,还请各位大佬指出!