python的pyspider框架下爬虫

一、将框架下载好以后,控制台运行pyspidercss

二、浏览器打开http://localhost:5000html

三、建立项目web

页面区域介绍:浏览器

整个页面分为两栏,左边是爬取页面预览区域,右边是代码编写区域。下面对区块进行说明:框架

左侧绿色区域:这个请求对应的 JSON 变量,在 PySpider 中,其实每一个请求都有与之对应的 JSON 变量,包括回调函数,方法名,请求连接,请求数据等等。ide

绿色区域右上角Run:点击右上角的 run 按钮,就会执行这个请求,能够在左边的白色区域出现请求的结果。函数

左侧 enable css selector helper: 抓取页面以后,点击此按钮,能够方便地获取页面中某个元素的 CSS 选择器。调试

左侧 web: 即抓取的页面的实时预览图。pyspider

左侧 html: 抓取页面的 HTML 代码。htm

左侧 follows: 若是当前抓取方法中又新建了爬取请求,那么接下来的请求就会出如今 follows 里。

左侧 messages: 爬取过程当中输出的一些信息。

右侧代码区域: 你能够在右侧区域书写代码,并点击右上角的 Save 按钮保存。

右侧 WebDAV Mode: 打开调试模式,左侧最大化,便于观察调试。

四、接下来即是使用。

相关文章
相关标签/搜索