阶段性理解scrapy

时间 2019-12-01

原文原文链接

0）安装 scrapycss

pip install scrapy

1）建立一个项目html

scrapy startproject dmoz

结构java

├── dmoz
│   ├── __init__.py 
│   ├── items.py   			# 能够把items.py看做是mvc中的model
│   ├── pipelines.py		# pipline俗称管道，这个文件主要用来把咱们获取的item类型存入mongodb
│   ├── settings.py			# 须要设置一些常量，例如mongodb的数据库名，数据库地址和数据库端口号等等。 
│   └── spiders				# 爬虫Folder
│       └── __init__.py		
└── scrapy.cfg				# 部署

2）采集python

scrapy shell    #交换学习模式

scrapy crawl dmoz #自动采集模式

3）解析mongodb

response.xpath("/html/head/title")
response.css("title")

4）提取shell

response.css("title").extract() #所有提取
response.css("title").re('(\w+)') #根据正则提取