上一篇(https://www.tech1024.com/orig... )说了如何建立项目,并爬去网站内容,下面咱们说一下如何保存爬去到的数据css
建立Spider,上一篇咱们已经建立了ImoocSpider,咱们作一下修改,能够连续下一页爬取。
scrapyDemo/spiders目录下的ImoocSpider类:html
# -*- coding: utf-8 -*- import scrapy from urllib import parse as urlparse from scrapyDemo.ImoocCourseItem import ImoocCourseItem # 慕课网爬取 class ImoocSpider(scrapy.Spider): # spider的名字定义了Scrapy如何定位(并初始化)spider,因此其必须是惟一的 name = "imooc" # URL列表 start_urls = ['http://www.imooc.com/course/list'] # 域名不在列表中的URL不会被爬取。 allowed_domains = ['www.imooc.com'] def parse(self, response): learn_nodes = response.css('a.course-card') item = ImoocCourseItem() # 遍历该页上全部课程列表 for learn_node in learn_nodes: course_url = learn_node.css("::attr(href)").extract_first() # 拼接课程详情页地址 course_url = urlparse.urljoin(response.url, course_url) # 课程地址 item['course_url'] = course_url # 课程图片 item['image'] = learn_node.css( "img.course-banner::attr(src)").extract_first() # 进入课程详情页面 yield scrapy.Request( url=course_url, callback=self.parse_learn, meta=item) # 下一页地址 next_page_url = response.css( u'div.page a:contains("下一页")::attr(href)').extract_first() if next_page_url: yield scrapy.Request( url=urlparse.urljoin(response.url, next_page_url), callback=self.parse) def parse_learn(self, response): item = response.meta # 课程标题 item['title'] = response.xpath( '//h2[@class="l"]/text()').extract_first() # 课程简介 item['brief'] = response.xpath( '//div[@class="course-brief"]/p/text()').extract_first() yield item
这里用到了scrapyDemo目录下ImoocCourseItem类,下面我就说一下。node
在scrapyDemo目录下建立ImoocCourseItem.py,这个类就是咱们用了保存数据的容器,咱们定义了标题、图片、简介、地址。
scrapyDemo目录下ImoocCourseItem类:python
# -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy class ImoocCourseItem(scrapy.Item): # define the fields for your item here like: title = scrapy.Field() # cate = scrapy.Field() image = scrapy.Field() # desc = scrapy.Field() brief = scrapy.Field() # cate = scrapy.Field() course_url = scrapy.Field() pass
Pipeline是用来处理抓取到的数据,咱们在scrapyDemo目录下建立ScrapydemoPipeline.py类mysql
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html from scrapyDemo.db.dbhelper import DBHelper class ScrapydemoPipeline(object): # 链接数据库 def __init__(self): self.db = DBHelper() def process_item(self, item, spider): # 插入数据库 self.db.insert(item) return item
别忘了在配置文件中开启管道哦,scrapyDemo目录下的settings.py文件中,找到下ITEM_PIPELINES,修改成web
ITEM_PIPELINES = { 'scrapyDemo.pipelines.ScrapydemoPipeline': 300, }
这里面咱们用到了数据库的操做DBHelper类,那么咱们在scrapyDemo/db目录下建立dbhelper.py 模块,记得再建立一个__init__.py哦。sql
# -*- coding: utf-8 -*- import pymysql from twisted.enterprise import adbapi from scrapy.utils.project import get_project_settings #导入seetings配置 import time class DBHelper(): '''这个类也是读取settings中的配置,自行修改代码进行操做''' def __init__(self): settings = get_project_settings() #获取settings配置,设置须要的信息 dbparams = dict( host=settings['MYSQL_HOST'], #读取settings中的配置 db=settings['MYSQL_DBNAME'], user=settings['MYSQL_USER'], passwd=settings['MYSQL_PASSWD'], charset='utf8', #编码要加上,不然可能出现中文乱码问题 cursorclass=pymysql.cursors.DictCursor, use_unicode=False, ) #**表示将字典扩展为关键字参数,至关于host=xxx,db=yyy.... dbpool = adbapi.ConnectionPool('pymysql', **dbparams) self.dbpool = dbpool def connect(self): return self.dbpool #建立数据库 def insert(self, item): sql = "insert into tech_courses(title,image,brief,course_url,created_at) values(%s,%s,%s,%s,%s)" #调用插入的方法 query = self.dbpool.runInteraction(self._conditional_insert, sql, item) #调用异常处理方法 query.addErrback(self._handle_error) return item #写入数据库中 def _conditional_insert(self, tx, sql, item): item['created_at'] = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())) params = (item["title"], item['image'], item['brief'], item['course_url'], item['created_at']) tx.execute(sql, params) #错误处理方法 def _handle_error(self, failue): print('--------------database operation exception!!-----------------') print(failue)
这里用到了pymysql和adbapi,adbapi是python的数据库链接池,能够pip安装:数据库
pip install pymysql pip install Twisted
这里面还用到了get_project_settings方法,意思是从配置文件settings.py里边获取数据库配置信息,咱们在scrapyDemo目录下的settings.py文件最后加入数据库信息swift
#Mysql数据库的配置信息 MYSQL_HOST = '192.168.6.1' MYSQL_DBNAME = 'scrapy_demo_db' #数据库名字,请修改 MYSQL_USER = 'root' #数据库帐号,请修改 MYSQL_PASSWD = 'abc-123' #数据库密码,请修改 MYSQL_PORT = 3306 #数据库端口,在dbhelper中使用
建表语句以下:api
DROP TABLE IF EXISTS `tech_courses`; CREATE TABLE `tech_courses` ( `id` int(11) NOT NULL AUTO_INCREMENT, `title` varchar(255) DEFAULT NULL, `image` varchar(255) DEFAULT NULL, `brief` varchar(255) DEFAULT NULL, `course_url` varchar(255) DEFAULT NULL, `created_at` timestamp NULL DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8mb4;
咱们在命令行运行项目
F:\techlee\python\scrapyDemo>scrapy crawl imooc 2017-10-25 23:29:18 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapyDemo) 2017-10-25 23:29:18 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'scrapyDemo', 'NEWSPIDER_MODULE': 'scrapyDemo.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['scrapyDemo.spiders']} 2017-10-25 23:29:19 [scrapy.middleware] INFO: Enabled extensions: ['scrapy.extensions.corestats.CoreStats', …… 2017-10-26 00:06:48 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.imooc.com/learn/127> (referer: http://www.imooc.com/course/list?page=26) 2017-10-26 00:06:48 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.imooc.com/learn/127> {'course_url': 'http://www.imooc.com/learn/127', 'image': '//img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg', 'depth': 26, 'download_timeout': 180.0, 'download_slot': 'www.imooc.com', 'retry_times': 1, 'download_latency': 0.24331021308898926, 'title': '玩儿转Swift', 'brief': '简介:咱们指望用户在看完这套教程后,对swift语言的了解能达到中上水平。这意味着在接触Cocoa Touch将一点儿都不费劲,对一些高级概念,诸如闭包 、协议、泛型、内存管理都能有所理解而且有所实践。这套教程必定比市面上广泛看到的Swift中文教程深刻,而且演示示例更丰富。'} 2017-10-26 00:06:48 [scrapy.core.engine] INFO: Closing spider (finished) 2017-10-26 00:06:48 [scrapy.statscollectors] INFO: Dumping Scrapy stats: {'downloader/exception_count': 24, 'downloader/exception_type_count/twisted.internet.error.TimeoutError': 24, 'downloader/request_bytes': 359595, 'downloader/request_count': 836, 'downloader/request_method_count/GET': 836, 'downloader/response_bytes': 8680952, 'downloader/response_count': 812, 'downloader/response_status_count/200': 812, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2017, 10, 25, 16, 6, 48, 884826), 'item_scraped_count': 779, 'log_count/DEBUG': 1616, 'log_count/INFO': 18, 'log_count/WARNING': 1, 'request_depth_max': 32, 'response_received_count': 812, 'retry/count': 24, 'retry/reason_count/twisted.internet.error.TimeoutError': 24, 'scheduler/dequeued': 835, 'scheduler/dequeued/memory': 835, 'scheduler/enqueued': 835, 'scheduler/enqueued/memory': 835, 'start_time': datetime.datetime(2017, 10, 25, 15, 55, 43, 289328)} 2017-10-26 00:06:48 [scrapy.core.engine] INFO: Spider closed (finished)
若是没有报错,咱们的数据库是否是有数据了呢
779 玩儿转Swift //img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg 简介:咱们指望用户在看完这套教程后,对swift语言的了解能达到中上水平。这意味着在接触Cocoa Touch将一点儿都不费劲,对一些高级概念,诸如闭包、协议、泛型、内存管理都能有所理解而且有所实践。这套教程必定比市面上广泛看到的Swift中文教程深刻,而且演示示例更丰富。 http://www.imooc.com/learn/127 2017-10-26 00:06:48 778 iOS9那些神坑 //img1.mukewang.com/576b7a6a0001573206000338-240-135.jpg 简介:为啥我用iOS9开发的应用没法进行网络请求?为啥多出了一个Bitcode编译选项?什么又是白名单呢?这些都是iOS9的一些新特性,在咱们的这门课程中都会为你们一一介绍。 http://www.imooc.com/learn/609 2017-10-26 00:06:08 777 Cocos2d-x坦克大战--上 //img4.mukewang.com/570763d20001662806000338-240-135.jpg 简介:FC上的坦克大战相信你们都玩过~有逃学玩坦克的能够本身默默的扣一个1了~咱们如今长大了,学习游戏开发了。有没有想过将小时候玩过的游戏复刻出来了?不为了彰显本身的技术,只为了小时候由于玩游戏而逃学挨过的打。由资深游戏开发者徐波老师为你们复刻的FC坦克大战吧 http://www.imooc.com/learn/610 2017-10-26 00:06:08 776 快速入门ThinkPHP 5.0 --模型篇 //img2.mukewang.com/594cf6120001ddaf06000338-240-135.jpg 简介:一个标准的网站必定离不开数据库的操做,在本套课程中我和你一块儿来揭开ThinkPHP5 数据操做的神秘面纱,和你一块儿愉快的使用 ThinkPHP5 操做数据库,让数据库操做变的更愉悦。 http://www.imooc.com/learn/854 2017-10-26 00:06:08 775 MongoDB Day 2015 深圳 //img4.mukewang.com/56779555000160d106000338-240-135.jpg 简介:本次年度大会由来自MongoDB内部的专家以及各行业MongoDB大牛关于数据安全、wiredtiger内部机制、OpsManager以及在其它行业方面的成功案例。大会吸引了200多位MongoDB爱好者,会场内座无虚席! http://www.imooc.com/learn/562 2017-10-26 00:06:08 774 web安全之SQL注入 //img1.mukewang.com/5991489e00019f5c06000338-240-135.jpg 简介:SQL注入自从WEB和数据库发展以来就一直存在,并且给WEB应用带来很大的安全问题,会形成用户隐私数据的泄露,数据库版本信息泄露和数据库攻击等,给业务带来很大的损失和很差的社会影响。因此对于咱们WEB开发人员来讲,项目开发过程当中必定要培养必定的安全意识,了解SQL注入的定义,产生的原理、具体的一些攻击手法和相应的预防措施,为了更好的增长开发项目的健壮性和安全性 http://www.imooc.com/learn/883 2017-10-26 00:06:07 773 那些年你遇到的错误与异常 //img3.mukewang.com/572b06f40001d1c806000338-240-135.jpg 简介:本课程主要讲解两部份内容,先从PHP中的错误模块谈起,讲解了PHP中常见的错误类型,剖析了PHP中的错误处理。接着又讲解了PHP5面向对象过程当中新的错误处理方式--异常模块,由浅入深,讲解异常及异常的实战应用等。 http://www.imooc.com/learn/380 2017-10-26 00:06:07 772 基于Websocket的火拼俄罗斯(基础) //img3.mukewang.com/59ed96eb0001fe3606000338-240-135.jpg 简介:本课程主要带领你们了解要实现火拼俄罗斯的基础知识WebSocket,以及socket.io,为后续实现火拼俄罗斯打下基础。 http://www.imooc.com/learn/861 2017-10-26 00:06:07 771 Java定时任务调度工具详解之Quartz篇 //img1.mukewang.com/5940992d0001cae906000338-240-135.jpg 简介:本课程是系列课程Java定时任务调度工具详解中的Quartz篇,本系列课程旨在经过详细讲述Java定时调度工具的基本概念、工具,和这些工具里面包含的各个组件之间的关系,以及如何使用这些工具来实现定时调度功能,让学生可以对Java定时调度工具备一个清晰而准确的认识。而后结合一些经典的使用场景经过手把手的命令行操做进行教学,使同窗们得心用手地使用这些定时调度工具来实现本身想要的功能。讲师实战课程已经上线,详情:http://coding.imooc.com/learn/list/144.html http://www.imooc.com/learn/846 2017-10-26 00:06:07
原文 https://www.tech1024.com/orig...