新接触爬虫,通过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有不少,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我但愿可以有一个比较全面的实例。因此找了不少实例和文章,并整合在一块儿,在现有豆瓣爬虫的基础上,增长了一些内容,算是比较全的内容了。主要包括项目创建、请求页面、xpath解析、自动翻页、数据输出、编码处理等等。。php
System Version:Ubuntu 16.04
Python Version:3.5.2
Scrapy Version:1.5.0html
执行以下命令创建scrapy爬虫项目linux
scrapy startproject spider_douban
命令执行完成后,创建了spider_douban
文件夹,目录结构以下:web
. ├── scrapy.cfg └── spider_douban ├── __init__.py ├── items.py ├── middlewares.py ├── pipelines.py ├── settings.py └── spiders ├── douban_spider.py └── __init__.py
打开./spider_douban/items.py
文件,编辑内容以下:正则表达式
import scrapy class DoubanMovieItem(scrapy.Item): # 排名 ranking = scrapy.Field() # 电影名称 movie_name = scrapy.Field() # 评分 score = scrapy.Field() # 评论人数 score_num = scrapy.Field()
新建./spiders/douban_spider.py
文件,编辑内容以下:浏览器
from scrapy import Request from scrapy.spiders import Spider from spider_douban.items import DoubanMovieItem class DoubanMovieTop250Spider(Spider): name = 'douban_movie_top250' start_urls = { 'https://movie.douban.com/top250' } ''' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36', } def start_requests(self): url = 'https://movie.douban.com/top250' yield Request(url, headers=self.headers) ''' def parse(self, response): item = DoubanMovieItem() movies = response.xpath('//ol[@class="grid_view"]/li') print(movies) print('=============================================') for movie in movies: item['ranking'] = movie.xpath( './/div[@class="pic"]/em/text()').extract()[0] item['movie_name'] = movie.xpath( './/div[@class="hd"]/a/span[1]/text()').extract()[0] item['score'] = movie.xpath( './/div[@class="star"]/span[@class="rating_num"]/text()' ).extract()[0] item['score_num'] = movie.xpath( './/div[@class="star"]/span/text()').re(r'(\d+)人评价')[0] yield item next_url = response.xpath('//span[@class="next"]/a/@href').extract() if next_url: next_url = 'https://movie.douban.com/top250' + next_url[0] yield Request(next_url)
douban_spider.py
文件主要有几部分构成。服务器
from scrapy import Request from scrapy.spiders import Spider from spider_douban.items import DoubanMovieItem
Request
类用于请求要爬取的页面数据Spider
类是爬虫的基类DoubanMovieItem
是咱们第一步创建的爬取数据模型并发
基于spider
类定义的爬虫类DoubanMovieTop250Spider
中,首先定义爬虫的基本信息:框架
name:在项目中爬虫的名称,能够在项目目录中执行scrapy list
获取已经定义的爬虫列表
start_urls:是爬取的第一个页面地址
headers:是向web服务器发送页面请求的时候附加的user-agent消息,告诉web服务器是什么类型的浏览器或设备在请求页面,对于不具有简单反爬机制的网站,headers部分能够省略。
为了迷惑web服务器,通常会在爬虫发送web请求的时候定义user-agent信息,这里有两种写法。dom
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36', } def start_requests(self): url = 'https://movie.douban.com/top250' yield Request(url, headers=self.headers)
能够看到,这种写法中,start_urls
定义没有了,转而定义了start_requests
函数,开始的url写到了函数里。同时,定义了headers字典,在发送Request请求的时候,将headers字典一并发送。这种写法简单直观,缺点是在一个爬虫项目执行期间,全部请求都是一个User-Agent属性。
start_urls = { 'https://movie.douban.com/top250' }
简单、直接的定义start_urls属性,而Request中的header属性经过其余方法另外定义,容后再说。
逐句分解说明
1.基于咱们定义的DoubanMovieItem类建立item实例
item = DoubanMovieItem()
2.解析页面 - 获取内容框架
经过分析页面源码,咱们可以看到,页面中的电影信息是保存在了<ol>
标签中,这个<ol>
标签有一个独特的样式表grid_view
,而每个单独的电影信息保存在了<li>
标签中,下面代码获取class
属性为grid_view
的<ol>
标签下的全部<li>
标签内容。
movies = response.xpath('//ol[@class="grid_view"]/li')
3.解析页面 - 获取分项
在每个<li>
标签中,还有内部结构,经过xpath()解析,将每一项内容解析出来,赋值给item实例中的各个字段。经过查看movie.douban.com/top250
页面的源码能够很容易找到这个标签订义的内容。若是咱们经过type()函数查看movies的变量类型,能够发现他的类型是<class 'scrapy.selector.unified.SelectorList'>
。<ol>
标签中的每个<li>
标签都是这个列表中的一项,那么就能够对movies作迭代。
首先看看<li>
标签中的页面结构:
能够看到要提取数据的各部分所在标签位置:
排名:class属性为pic的<div>
标签下,,<em>
标签中...
电影名:class属性为hd的<div>
标签下,<a>
标签中的第一个<span>
标签...
评分:class属性为star的<div>
标签下,class属性为rating_num的<span>
标签中...
评论人数:class属性为star的<div>
标签下,<span>
标签中。因为使用了re正则表达式,因此没有特别指定是哪个<span>
标签。
回到代码部分,对以前定义的movies作迭代,逐项获取要抓取的数据。
for movie in movies: item['ranking'] = movie.xpath( './/div[@class="pic"]/em/text()').extract()[0] item['movie_name'] = movie.xpath( './/div[@class="hd"]/a/span[1]/text()').extract()[0] item['score'] = movie.xpath( './/div[@class="star"]/span[@class="rating_num"]/text()' ).extract()[0] item['score_num'] = movie.xpath( './/div[@class="star"]/span/text()').re(r'(\d+)人评价')[0] yield item
4.Url跳转(翻页)
若是到此为止,咱们能够将https://movie.douban.com/top250
页面中的第一页内容爬取到,但只有25项记录,要爬取所有的250条记录,就要执行下面代码:
next_url = response.xpath('//span[@class="next"]/a/@href').extract() if next_url: next_url = 'https://movie.douban.com/top250' + next_url[0] yield Request(next_url)
首先经过xpath解析了页面中后页
的连接,并赋值给next_url变量,若是咱们当前在第一页,那么解析后页
的连接就是?start=25&filter=
。将解析的后页连接与完整url链接造成完整的地址,再次执行Request(),就实现了对所有250条记录的爬取。注意:经过xpath解析出的结果是列表,因此在引用的时候写成next_url[0]
。
实现随机的head属性发送。主要改两个文件:
USER_AGENT_LIST = [ 'zspider/0.9-dev http://feedback.redkolibri.com/', 'Xaldon_WebSpider/2.0.b1', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)', 'Mozilla/5.0 (compatible; Speedy Spider; http://www.entireweb.com/about/search_tech/speedy_spider/)', 'Speedy Spider (Entireweb; Beta/1.3; http://www.entireweb.com/about/search_tech/speedyspider/)', 'Speedy Spider (Entireweb; Beta/1.2; http://www.entireweb.com/about/search_tech/speedyspider/)', 'Speedy Spider (Entireweb; Beta/1.1; http://www.entireweb.com/about/search_tech/speedyspider/)', 'Speedy Spider (Entireweb; Beta/1.0; http://www.entireweb.com/about/search_tech/speedyspider/)', 'Speedy Spider (Beta/1.0; www.entireweb.com)', 'Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)', 'Speedy Spider (http://www.entireweb.com/about/search_tech/speedyspider/)', 'Speedy Spider (http://www.entireweb.com)', 'Sosospider+(+http://help.soso.com/webspider.htm)', 'sogou spider', 'Nusearch Spider (www.nusearch.com)', 'nuSearch Spider (compatible; MSIE 4.01; Windows NT)', 'lmspider (lmspider@scansoft.com)', 'lmspider lmspider@scansoft.com', 'ldspider (http://code.google.com/p/ldspider/wiki/Robots)', 'iaskspider/2.0(+http://iask.com/help/help_index.html)', 'iaskspider', 'hl_ftien_spider_v1.1', 'hl_ftien_spider', 'FyberSpider (+http://www.fybersearch.com/fyberspider.php)', 'FyberSpider', 'everyfeed-spider/2.0 (http://www.everyfeed.com)', 'envolk[ITS]spider/1.6 (+http://www.envolk.com/envolkspider.html)', 'envolk[ITS]spider/1.6 ( http://www.envolk.com/envolkspider.html)', 'Baiduspider+(+http://www.baidu.com/search/spider_jp.html)', 'Baiduspider+(+http://www.baidu.com/search/spider.htm)', 'BaiDuSpider', 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) AddSugarSpiderBot www.idealobserver.com', ] DOWNLOADER_MIDDLEWARES = { 'spider_douban.middlewares.RandomUserAgentMiddleware': 400, 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None, }
USER_AGENT_LIST
定义了一些浏览器user-agent属性,网上有不少,能够找来直接加进去,须要注意的是有些user-agent信息是移动设备(手机或平板)的,若是不注意的话,可能请求到的数据与你看到的数据有较大差别;DOWNLOADER_MIDDLEWARES
定义了下载器中间件,它在发送页面请求数据的时候被调用。
from spider_douban.settings import USER_AGENT_LIST import random class RandomUserAgentMiddleware(): def process_request(self, request, spider): ua = random.choice(USER_AGENT_LIST) if ua: request.headers.setdefault('User-Agent', ua)
在RandomUserAgentMiddleware()
中,每次发送请求数据,会在USER_AGENT_LIST
中随机选择一条User-Agent
记录。
编辑pipelines.py
文件:
from scrapy import signals from scrapy.contrib.exporter import CsvItemExporter class SpiderDoubanPipeline(CsvItemExporter): def __init__(self): self.files = {} @classmethod def from_crawler(cls, crawler): print('==========pipeline==========from_crawler==========') pipeline = cls() crawler.signals.connect(pipeline.spider_opened, signals.spider_opened) crawler.signals.connect(pipeline.spider_closed, signals.spider_closed) return pipeline def spider_opened(self, spider): savefile = open('douban_top250_export.csv', 'wb+') self.files[spider] = savefile print('==========pipeline==========spider_opened==========') self.exporter = CsvItemExporter(savefile) self.exporter.start_exporting() def spider_closed(self, spider): print('==========pipeline==========spider_closed==========') self.exporter.finish_exporting() savefile = self.files.pop(spider) savefile.close() def process_item(self, item, spider): print('==========pipeline==========process_item==========') print(type(item)) self.exporter.export_item(item) return item
SpiderDoubanPipeline
类是创建项目的时候自行创建的,为了保存文件,作了修改。
在此方法中,定义了一个数据收集器(cls)的实例:‘pipeline’。
signals:Scrapy使用信号来通知事情发生。您能够在您的Scrapy项目中捕捉一些信号(使用 extension)来完成额外的工做或添加额外的功能,扩展Scrapy。虽然信号提供了一些参数,不过处理函数不用接收全部的参数 - 信号分发机制(singal dispatching mechanism)仅仅提供处理器(handler)接受的参数。您能够经过 信号(Signals) API 来链接(或发送您本身的)信号。
connect:连接一个接收器函数(receiver function) 到一个信号(signal)。signal能够是任何对象,虽然Scrapy提供了一些预先定义好的信号。
此方法中,建立了一个文件对象实例:savefile
。
CsvItemExporter(savefile):输出 csv 文件格式. 若是添加 fields_to_export 属性, 它会按顺序定义CSV的列名.
为了让咱们定义的pipeline生效,要在settings.py文件中,打开ITEM_PIPELINES
注释:
ITEM_PIPELINES = { 'spider_douban.pipelines.SpiderDoubanPipeline': 300, }
scrapy crawl douban_movie_top250
执行爬虫可以看到爬取到的数据。。。
若是以前pipeline部分代码没有写,也能够用下面的命令,在爬虫执行的时候直接导出数据:
scrapy crawl douban_movie_top250 -o douban.csv
增长-o
参数,能够将爬取到的数据保存到douban.csv
文件中。。
我在linux服务器执行爬虫,生成csv文件后,在win7系统中用excel打开变成乱码。在网上找了一些文章,有的文章直接改变linux文件默认编码,可是感受这么作会对其余项目产生影响。最后选择一个相对简单的方式。按这几步执行就能够:
数据
选项卡,打开获取外部数据
中的自文本
。导入文本文件
对话框中选择要导入的csv文件。文本导入向导 - 第1步
中,设置文件原始格式
为65001 : Unicode (UTF-8)