1.请求库的安装html
1.1 requests请求库 python
pip install requests
1.2 selenium的安装git
selenium是一种自动化测试工具,能够用来驱动预览器执行任务。github
pip install selenium
selenium须要和预览器进行配合,我下载的是无头预览器,phantomjsweb
下载地址:http://phantomjs.org/download.htmlredis
安装成功后将bin目录放在环境变量下数据库
两种测试方式 1.在cmd窗口输入 phantomjs 进入命令证实配置成功异步
2. async
from selenium import webdriver html = webdriver.PhantomJS(executable_path=r'D:\phantomjs\bin\phantomjs.exe') html.get('https://www.baidu.com/') print(html.current_url)
1.3 aiohttp 提供异步Web服务的库工具
aiohttp的异步操做借助于 async/await关键字写法变得更加简洁
下载方式:pip install aitohttp
官方一样推荐两个库:1.字符编码检测库cchardet和加速DNS解析库aiodns 命令用pip下载就行
利用这几个库来维护代理池,利用异步方式检测大量代理的运行情况,会极大的提升效率
2.解析库的安装
2.1 lxml的安装
lxml支持HTML和XML的解析,支持XPath解析方式,解析效率高
直接pip install lxml就行
2.2 Beautifulsoup
pip install beautifulsoup4
验证:
2.3 pyquery 是一个强大的网页解析工具,提升了和jQuery相似的语句来解析HTML文档,支持CSS选择器
pip install pyquery
2.4 tesserocr 的安装
大多数验证码能够用OCR来识别,OCR就是Optical Character Recognition,光学字符识别,tesserocr是python的一个ORC识别库,他的核心是tesseract,所以在安装tesserocr以前,咱们须要安装tesseract。
tesseract下载:https://digi.bib.uni-mannheim.de/tesseract/
带vev的为开发版本,不带的为稳定版本,安装完成后再安装tesserocr就行,用pip install tesserocr pillow
Redis 数据库下载
https://github.com/MicrosoftArchive/redis/releases
可视化工具的安装