阶段性理解scrapy

0)安装 scrapycss

pip install scrapy


1)建立一个项目html

scrapy startproject dmoz

   结构java

├── dmoz
│   ├── __init__.py 
│   ├── items.py   			# 能够把items.py看做是mvc中的model
│   ├── pipelines.py		# pipline俗称管道,这个文件主要用来把咱们获取的item类型存入mongodb
│   ├── settings.py			# 须要设置一些常量,例如mongodb的数据库名,数据库地址和数据库端口号等等。 
│   └── spiders				# 爬虫Folder
│       └── __init__.py		
└── scrapy.cfg				# 部署


2)采集python

scrapy shell    #交换学习模式


scrapy crawl dmoz #自动采集模式


3)解析mongodb

response.xpath("/html/head/title")
response.css("title")


4)提取shell

response.css("title").extract() #所有提取
response.css("title").re('(\w+)') #根据正则提取
相关文章
相关标签/搜索