网络爬虫框架-Scrapyweb
简介:开源的Python爬虫框架,用于抓取web站点并从页面中提取结构化的数据;数据库
用途普遍,可用于数据挖掘、监测和自动化测试网络
Scrapy优势:架构
Scrapy高级特性:框架
Scrapy架构:scrapy
Scrapy的安装:ide
`conda install -c conda-forge scrapy`函数
检测是否安装成功:`scrapy bench`测试
建立工程:`scrapy startproject tutorial(项目名称)`网站
目录结构:
Scrapy使用步骤:
scrapy startproject projectname
object1_name = scrapy.Field() object2_name = scrapy.Filed() object3_name = scrapy.Field() #建立若干个自定义爬取对象的名称
cd projectname scrapy genspider spidername http://www.baidu.com/
#spidername(自定义Spider主体的文件名称),后接须要爬取的网站url。
在文件-pipelines.py中定义的类,添加/编写open_spider(),close_spider()、process_item()函数。
scrapy crawl Spidername #Spidername和Sipder主体的文件名称一致