Python | 初识爬虫框架Scrapy

1、前言python

今天给你们分享的是,Python里的爬虫框架Scrapy学习,包含python虚拟环境的搭建、虚拟环境的使用、Scrapy安装方法详解、Scrapy基本使用、Scrapy项目目录及内容基本介绍,let's go!shell

2、Python爬虫框架Scrapy简介api

推荐查看Scrapy中文帮助文档:网络

1# 维基百科看Scrapy
 2'''
 3Scrapy(SKRAY -pee)是一个免费和开源 网络爬行 框架 Python编写的。最初设计用于Web抓取,它还可
 4以用于使用API或做为通用Web爬网程序提取数据。它目前由网络抓取开发和服务公司Scrapinghub Ltd.维护
 5。
 6Scrapy项目体系结构是围绕“Spider”构建的,它们是自包含的爬虫,能够得到一组指令。遵循其余框架的精
 7神,不重复本身的框架,例如Django,它容许开发人员重用他们的代码,从而更容易构建和扩展大型爬行项
 8目。Scrapy还提供了一个Web爬行shell,开发人员可使用它来测试他们对站点行为的假设。
 9(英译汉有点尴尬!真的想学,仍是好好看上面的帮助文档吧)
10'''

3、看代码,边学边敲边记虚拟环境、Scrapy框架

1. 新建一个虚拟环境app

下面 操做以前你须要准备好:
(1) 你的python版本是3.x,最好系统里只有一个python环境,后面全部学习笔记都基于py3的。
(2)python环境里先安装virtualenv模块,基本方法pip install virtualenv 。
(3)选择好虚拟环境的安装目录(我选的是H盘目录下的env文件夹,建议你选的目录路径里最好不要有中文)。框架

1PS H:\env\> virtualenv spiderenv
2Using base prefix 'c:\\users\\82055\\appdata\\local\\programs\\python\\python36'
3New python executable in H:\env\spiderenv\Scripts\python.exe
4Installing setuptools, pip, wheel...done.
5注: 若是系统中有两个python环境(py2和py3),新建基于py3的虚拟环境方法
6virtualenv -python=你的Python3安装目录(精确到python.exe) spiderenv(虚拟环境名称)

安装完成后再本身选择的目录下会多出一个文件夹(虚拟环境),我这里为H:\env\spiderenv,后面全部爬虫学习过程当中须要的模块、接口都将pip(安装)在里面。scrapy

2. 打开虚拟环境,安装Scrapy框架ide

进入到目录H:\env\spiderenv\Scripts(个人虚拟环境目录),按住shift+鼠标右键,打开powershell或者cmd(若是是powershell就先输入cmd),再输入activate,进入虚拟环境,你会发如今路径前面多了一个括号里面是你的虚拟环境名称,表示你进入了虚拟环境。具体看下面:学习

1# 注:打开powershell 的能够参照下面操做
2PS H:\env\spiderenv\Scripts> cmd
3Microsoft Windows [版本 10.0.17134.112]
4(c) 2018 Microsoft Corporation。保留全部权利。
5
6H:\env\spiderenv\Scripts>activate
7(spiderenv) H:\spiderenv\Scripts>

安装scrapy模块(下面操做都是在虚拟环境下):测试

相关文章
相关标签/搜索