Python爬虫实战入门一:工具准备

1、基础知识

使用Python编写爬虫,固然至少得了解Python基本的语法,了解:html

  • 基本数据结构
  • 数据类型
  • 控制流
  • 函数的使用
  • 模块的使用

不须要过多过深的Python知识,仅此而已。
我的推荐《Python简明教程》、Python官方的《Python教程》python

 

2、开发环境、

  • 操做系统Windows 7
  • Python版本:Python 3.4
  • 代码编辑运行环境:我的推荐PyCharm社区版,固然,Python自带的IDLE也行,Notepad++亦可,只要本身使用得习惯。

若是你在学习Python的过程当中碰见了不少疑问和难题,能够加-q-u-n   227 -435-450里面有软件视频资料免费windows

3、第三方依赖库

  • requests:一个方便、简洁、高效且人性化的HTTP请求库
  • BeautifulSoup:HTML解析库
  • pymongo:MongoDB的Python封装模块
  • selenium:一个Web自动化测试框架,用于模拟登陆和获取JS动态数据
  • pytesseract:一个OCR识别模块,用于验证码识别
  • Pillow:Python图像处理模块

 

4、第三方库安装:

上面列出的第三方模块大多能够经过pip install ××的方式直接安装,部分模块安装方式不同,下面一一演示:
requests
pip install requests数据结构

 

BeautifulSoup
pip install bs4框架

pymongo
pip install pymongo函数

selenium
pip install selenium学习

Pillow
一、打开http://www.lfd.uci.edu/~gohlke/pythonlibs/
二、搜索找到“pillow”
三、根据本身系统的版本选择对应的下载包测试

四、安装
pip install Pillow‑4.0.0‑cp34‑cp34m‑win32.whlspa

pytesseract
一、pip install pytesseract操作系统

 

二、安装tesseract
下载并安装:

这样,咱们的准备工做就基本完成,若是有另外的需求,在实战中再进行安装,接下来就能够实战Python爬虫实战了。

相关文章
相关标签/搜索