爬虫学习之基于Scrapy的网络爬虫

概述


在上一篇文章《爬虫学习之一个简单的网络爬虫》中咱们对爬虫的概念有了一个初步的认识,而且经过Python的一些第三方库很方便的提取了咱们想要的内容,可是一般面对工做看成复杂的需求,若是都按照那样的方式来处理效率很是的低,这一般须要你本身去定义并实现不少很是基础的爬虫框架上的功能,或者须要组合不少Python第三方库来作。不过不用担忧,Python中有不少很是优秀的爬虫框架,好比咱们接下来要学习到的Scrapy。Scrapy官方有很经典的入门文档说明,这一篇仅仅是经过一个简单的实例来了解Scrapy这个库是如何来进行网络内容提取的,更深刻的学习请阅读Scrapy官方文档mysql

创建目标


一样在作任何事情以前都须要明确目标,那此次咱们的目标是爬取一些技术性的文章并存储到数据库中。这就须要有目标网址和数据库结构,数据库咱们选择使用MySql,目标网站咱们找了一个叫脚本之家的内容站。咱们这里首先准备好一张用于存储文章的表结构:git

CREATE TABLE `articles` (
  `id` mediumint(8) AUTO_INCREMENT NOT NULL,
  `title` varchar(255) DEFAULT NULL,
  `content` longtext,
  `add_date` int(11) DEFAULT 0,
  `hits` int(11) DEFAULT '0',
  `origin` varchar(500) DEFAULT '',
  `tags` varchar(45) DEFAULT '',
  PRIMARY KEY (`id`),
  KEY `add_date` (`add_date`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;

分析目标结构

这里咱们首先须要爬取得入口是“网络编程”这个节点,主入口网址为(http://www.jb51.net/list/index_1.htm) 打开这个网站咱们经过Chrome或者其余浏览器的查看元素来分析当前页面的HTML语义结构,以下图所示:github

从图中红色框线的部分能够看出,这里是咱们须要在“网络编程”这个节点下须要提取的全部文章的主分类入口,经过这些入口能够进去到不一样文章分类的列表中。因此根据初步结构分析,咱们得出本次爬虫的爬取路线为:web

从主入口进去 -> 提取当前入口中的全部分类 -> 经过分类入口进入到分类列表 -> 经过列表进入到文章页sql

分类入口肯定了接下来看看咱们的分类列表,随意点开一个分类入口,打开列表以下图所示:数据库

这里我框出了两个主要部分,第一个是文章的标题,第二个是分页,文章对应的URL就是咱们接下来须要爬取文章内容的入口,这里须要注意的是分页的处理,经过分页的最后一页咱们能够知道当前这类列表共有多少页文章。结合以上分析咱们基本肯定了本次爬虫的各个路线入口,接下来咱们就开始经过程序来实现本次的目标。编程

实现爬虫


在实现爬虫以前咱们经过一张图来对Scrapy有个基本的认识,为了保持本章内容的简洁性,咱们这里暂时不会讨论Item Pipeline部分,Scrapy架构图以下所示(图片来自网络):浏览器

从图中能够很清晰的看到Scrapy所包含的几大块,下面咱们经过代码来演示咱们所用到的基础功能部分。
主要依赖第三方库:服务器

web.py web框架,这里只用到了database部分,未来会用来进行内容展现
scrapy 爬虫框架,这里只用到了最基本的内容提取网络

这里还会用到一些xpath相关知识,请自行Google了解xpath语法

# -*- coding:utf-8 -*-
'''by sudo rm -rf  http://imchenkun.com'''
import scrapy
from scrapy.http import Request
import web
import time

db = web.database(dbn='mysql', host='127.0.0.1', db='imchenkun', user='root', pw='root')

# 容许的站点域
allow_domain = "jb51.net"

base_url = "http://www.jb51.net"

# 列表页
list_url = "http://www.jb51.net/list/list_%d_%d.htm"

# 列表分页
list_page = 1

# 文章页
crawl_url = "http://www.jb51.net/article/%d.htm"


class JB51Spider(scrapy.Spider):
    name = "jb51"
    start_urls = [
        "http://www.jb51.net/list/index_1.htm"
    ]

    cate_list = []

    def parse(self, response):
        cate_id = response.selector.xpath('//div[@class="index_bor clearfix"]/div[@class="index_con"]/span/a/@href').re('(\\\\d+)')[::2]
        for id in cate_id:
            cate_url = list_url % (int(id), 1)
            yield Request(cate_url, callback=self.parse_page)

    def parse_page(self, response):
        _params = response.selector.xpath('//div[@class="dxypage clearfix"]/a[last()]/@href').re('(\\\\d+)')
        cate_id = int(_params[0]) # 分类编号
        count = int(_params[1]) # 总页数

        article_urls = response.selector.xpath('//div[@class="artlist clearfix"]/dl/dt/a/@href').extract()
        # 处理第一页
        for article_url in article_urls:
            yield Request(base_url + article_url, callback=self.parse_article)

        # 处理其余页
        for page in range(1, count):
            url = (list_url % (cate_id, page + 1))
            yield Request(url, callback=self.parse_list)

    def parse_list(self, response):
        """解析文章列表"""
        article_urls = response.selector.xpath('//div[@class="artlist clearfix"]/dl/dt/a/@href').extract()
        for article_url in article_urls:
            yield Request(base_url + article_url, callback=self.parse_article)

    def parse_article(self, response):
        """解析文章内容"""
        title = response.selector.xpath('//div[@class="title"]/h1/text()').extract()[0]
        content = response.selector.xpath('//div[@id="content"]').extract()[0]
        tags = ','.join(response.selector.xpath('//div[@class="tags mt10"]/a/text()').extract())
        
        results = db.query('select count(0) as total from articles where origin=$origin', vars = { 'origin': response.url })
        if results[0].total <= 0:
            db.insert('articles',
                      title=title,
                      origin=response.url,
                      content=content,
                      add_date=int(time.time()),
                      hits=0,
                      tags=tags
            )

安装Scrapy后以上代码经过如下命令执行:

scrapy runspider jb51_spider.py

本次运行后的效果在数据库中能够见以下图所示:

Github地址

总结


本篇文章咱们主要了解了基本的Scrapy Spider部分,并且经过对目标网站的结构分析使用xpath进行内容的提取,以及分页的处理。这里咱们的目的是创建一种写爬虫的思路,而不在于怎么使用工具来爬数据。首先肯定目标,而后分析目标,再借助现有工具进行内容提取,提取内容的过程当中会遇到各类问题,这个时候咱们再来逐个解决这些问题,直到咱们的爬虫可以无障碍的运行。接下来我会使用Scrapy更多的功能将继续探索Item的定义,Pipeline的实现以及如何使用代理。

特别申明:本文所提到的脚本之家网站只是拿来进行爬虫的技术交流学习,读者涉及到的全部侵权问题都与本人无关,也但愿你们在学习实战的过程当中不要大量的爬取内容对服务器形成负担

本文首发在sudo rm -rf 采用署名(BY)-非商业性使用(NC)-禁止演绎(ND) 转载请注明原做者

相关文章
相关标签/搜索