爬虫 | 准备库的安装

1.请求库的安装html

1.1 requests请求库   python

pip install requests

1.2 selenium的安装git

selenium是一种自动化测试工具,能够用来驱动预览器执行任务。github

pip install selenium

  selenium须要和预览器进行配合,我下载的是无头预览器,phantomjsweb

  下载地址:http://phantomjs.org/download.htmlredis

  安装成功后将bin目录放在环境变量下数据库

  两种测试方式 1.在cmd窗口输入 phantomjs 进入命令证实配置成功异步

         2. async

from selenium import webdriver
html = webdriver.PhantomJS(executable_path=r'D:\phantomjs\bin\phantomjs.exe')
html.get('https://www.baidu.com/')
print(html.current_url)

1.3 aiohttp 提供异步Web服务的库工具

   aiohttp的异步操做借助于 async/await关键字写法变得更加简洁

   下载方式:pip install aitohttp

   官方一样推荐两个库:1.字符编码检测库cchardet和加速DNS解析库aiodns 命令用pip下载就行

   利用这几个库来维护代理池,利用异步方式检测大量代理的运行情况,会极大的提升效率

2.解析库的安装

2.1 lxml的安装

      lxml支持HTML和XML的解析,支持XPath解析方式,解析效率高

  直接pip install lxml就行

2.2 Beautifulsoup

  pip install beautifulsoup4

  验证:

    

2.3 pyquery 是一个强大的网页解析工具,提升了和jQuery相似的语句来解析HTML文档,支持CSS选择器

      pip install pyquery

2.4 tesserocr 的安装

  大多数验证码能够用OCR来识别,OCR就是Optical Character Recognition,光学字符识别,tesserocr是python的一个ORC识别库,他的核心是tesseract,所以在安装tesserocr以前,咱们须要安装tesseract。

tesseract下载:https://digi.bib.uni-mannheim.de/tesseract/

 

带vev的为开发版本,不带的为稳定版本,安装完成后再安装tesserocr就行,用pip install tesserocr pillow

 Redis 数据库下载 

https://github.com/MicrosoftArchive/redis/releases

可视化工具的安装

http://www.javashuo.com/article/p-xqptwstf-ke.html

相关文章
相关标签/搜索