0)安装 scrapycss
pip install scrapy
1)建立一个项目html
scrapy startproject dmoz
结构java
├── dmoz │ ├── __init__.py │ ├── items.py # 能够把items.py看做是mvc中的model │ ├── pipelines.py # pipline俗称管道,这个文件主要用来把咱们获取的item类型存入mongodb │ ├── settings.py # 须要设置一些常量,例如mongodb的数据库名,数据库地址和数据库端口号等等。 │ └── spiders # 爬虫Folder │ └── __init__.py └── scrapy.cfg # 部署
2)采集python
scrapy shell #交换学习模式
scrapy crawl dmoz #自动采集模式
3)解析mongodb
response.xpath("/html/head/title") response.css("title")
4)提取shell
response.css("title").extract() #所有提取 response.css("title").re('(\w+)') #根据正则提取