Python+Selenium+ChromeDriver之浏览器爬虫入门

时间 2019-11-10

标签 python+selenium+chromedriver python selenium chromedriver 浏览器爬虫入门栏目 Python 繁體版

原文原文链接

爬虫简介

应用场景

搜索引擎；
网站迁移；
数据整理、分析、统计；
跨域、第三方API调用；
还有，嗯钓鱼网站啊；
......css

CURL

curl是利用URL语法在命令行方式下工做的开源文件传输工具。它被普遍应用在Unix、多种Linux发行版中，而且有DOS和Win3二、Win64下的移植版本
Shell：html

curl https://www.segmentfault.com

传统CURL式爬虫过程

模拟浏览器请求-
编程语言内置对象或方法模拟设置cookie，User-Agent，Request Method，Query String甚至跟踪redirect，向服务器发送一个请求
接收、处理数据流-
对服务器响应数据流字符进行解析，或模拟HTML格式转换为程序相应数据类型方便操做
保存数据-
对数据分析后本地持久化存储（CSV，txt，jpg/png，.json文件，DB）

各语言的CURL实现：

PHP：curl_init()；
Java：URLConnection；
Python：requests模块；
Node：http模块；
...python

CURL式爬虫缺点：

没法获取由Js脚本动态生成的网页信息-
当今Web技术的大环境下，为了网站的性能、可扩展性、用户友好等方向，几乎全部的Web页面都在使用浏览器脚本动态生成内容，因此若是没有脚本执行环境就没有数据。git

Headless浏览器实现页面解析

什么是Headless browser？

无头浏览器相似于在流行的Web浏览器的环境中提供对网页的自动控制，但经过命令行接口或使用网络通讯来执行。它们特别适用于测试网页，由于它们可以以浏览器相同的方式呈现和解释HTML，包括页面布局、颜色、字体选择和JavaScript和Ajax的执行等样式元素，当使用其它测试方法时，这些元素一般是不可用的
引自Wikipedia Headless browser
简单来讲就是用浏览器来对目标URL进行HTML解析，CSS渲染，Js执行，借由API甚至能够模拟用户行为（鼠标点击，键盘输入），但不提供UI渲染。github

经过以上咱们能够知道Headless browser就是咱们想要的爬虫方式了，本文旨在探讨网页爬虫故不对其它用途特性作过多说明。web

经常使用Headless browser

Phantomjs（项目暂封存，慎用）；
Chrome；
FireFox；ajax

环境

Python + Selenium + ChromeDriverchrome

解释

Python

语法简单，有各类成熟扩展库，爬虫周边的库能够轻易找到shell

Selenium

Selenium-主要是为了自动化测试Web应用程序，但不局限于此-
一句话解释：控制浏览器，作任何想作的事情。（鼠标点击、拖拽；用户输入，表单填充；History and Location API；Cookie；弹出对话框；定位和操做UI元素，执行JavaScript脚本）所以获取经过ajax渲染的页面的数据就不是什么难事了：)
附 Documentation编程

ChromeDriver

如上所述，Selenium能够操做浏览器，可是须要借助ChromeDriver它是实现 WebDriver 有线协议的一个开源工具，它提供了导航到网页、用户输入、JavaScript执行等等的能力。ChromeDriver经过chrome的自动代理框架控制浏览器

安装

安装 Python -
下载并配置好环境变量，shell输入：python -V 出现对应版本号即安装成功！
安装pip（Python包管理工具）-
python默认自带 pip 在安装目录的scripts目录下，自行配置至环境变量便可，配置好后shell输入：pip -V 出现对应版本号即安装成功！
安装selenium-
shell输入：pip install selenium 提示：Successfully installed selenium-即安装成功！
安装ChromeDriver-
下载ChromeDriver，注意版本需与浏览器版本对应，附：版本号对应描述（64位浏览器下载32位便可），下载后与chrome安装目录放在一块儿，而后配置至环境变量便可，配置好后shell输入：chromedriver 无错误即安装成功！
安装python IDE pyCharm

使用

如下将经过两个小例子来了解Selenium ：)

百度搜索关键字“Python”

1. 实例化Driver并获取页面

文件名：searchPython.py

from selenium import webdriver # 从selenium导入webdriver

driver = webdriver.Chrome()  # Optional argument, if not specified will search path.
driver.get('https://www.baidu.com') # 获取百度页面

Shell：

py searchPython.py

chromeDriver属性及方法
显示以下：

2. 获取输入框元素：

input = driver.find_element_by_id('kw') #获取输入框
searchButton = driver.find_element_by_id('su') #获取搜索按钮

经常使用查找元素方法：

find_element_by_id # ID
find_elements_by_class_name # class
find_elements_by_tag_name # 标签名
find_elements_by_name # name
find_elements_by_link_text # a标签中的text查找（精确匹配）
find_elements_by_partial_link_text #a标签中的text查找（部分匹配便可）
find_elements_by_css_selector # css选择器查找
find_elements_by_xpath # find_elements_by_xpath("//input")，请翻阅文档

查看经常使用定位元素方法
注：find_element_by_ 将获取 find_elements_by_ 的第一个元素，获取到的元素会被包装为 WebElement 对象
以上定位元素方法还能够经过以下方式实现：

from selenium.webdriver.common.by import By #支持的定位器策略集
driver.find_element(By.ID,'kw')
driver.find_element(By.ID,'su')
'''注释
策略集以下：
CLASS_NAME = 'class name'
CSS_SELECTOR = 'css selector'
ID = 'id'
LINK_TEXT = 'link text'
NAME = 'name'
PARTIAL_LINK_TEXT = 'partial link text'
TAG_NAME = 'tag name'
XPATH = 'xpath'
'''

3. 输入并点击

inputElement.send_keys("Python") #输入框输入"Python"
searchButton.click() #搜索

WebElement属性及事件API
显示以下：

完整代码

from selenium import webdriver # 从selenium导入webdriver

driver = webdriver.Chrome()  # Optional argument, if not specified will search path.
driver.get('https://www.baidu.com') # 获取百度页面
inputElement = driver.find_element_by_id('kw') #获取输入框
searchButton = driver.find_element_by_id('su') #获取搜索按钮

inputElement.send_keys("Python") #输入框输入"Python"
searchButton.click() #搜索

获取 bilibili 网站js动态生成的某栏目标题

这里涉及两个概念：
显式等待（Explicit Waits）-
在给定的条件函数返回True以前，设置一个最长等待时间，和重复执行给定条件函数的间隔时间，若是条件函数在规定时间内返回True则即刻继续执行，不然将抛出一个异常！
隐式等待（Implicit Waits）
告诉WebDriver在试图找到一个元素或元素时，若是它们没有当即可用，则会在必定时间内对DOM进行轮询，默认设置为0，一旦设置，就为WebDevor对象实例的生命周期设置隐式等待。

Explicit Waits

文件名：bilibili.py

from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait # 用于实例化一个Driver的显式等待
from selenium.webdriver.common.by import By # 内置定位器策略集
from selenium.webdriver.support import expected_conditions as EC # 内置预期条件函数，具体API请参考此小节后API连接

driver = webdriver.Chrome()
driver.get('https://www.bilibili.com/v/game/esports/?spm_id_from=333.334.primary_menu.35#/9222')
try:
    WebDriverWait(driver, 20, 0.5).until(EC.presence_of_all_elements_located((By.CLASS_NAME,'vd-list'))) #使用expected_conditions自带验证函数
    for doctorName in driver.find_elements_by_css_selector('.vd-list li'):
        print(doctorName.find_element_by_css_selector('.r > a').text)
finally:
    driver.close() # close the driver

WebDriverWait

构造器，接受一个Driver实例，超时时长（秒），执行条件函数的间隔时间。用于实例化一个Driver的显式等待
方法：
1.until(method, message='')

调用第一个参数给定的函数，直到函数不返回False，除了能够接受expected_conditions内置预期条件函数还能够自定义函数，以下

例：

def hasDoctors(d): # 自定义条件函数 when the function is called , the first prms will be a driver
if (len(d.find_elements_by_css_selector('.vd-list li'))):
    return True
return False
WebDriverWait(driver, 20, 0.5).until(hasDoctors) # 自定义函数形式

2.until_not(method, message='')

与until相反

expected_conditions

支持的内置的预期条件，简称EC，以下：
title_is：判断当前页面的title是否彻底等于（==）预期字符串
title_contains：判断当前页面的title是否包含预期字符串
presence_of_element_located：判断某个元素是否被加到了dom树里，并不表明该元素必定可见
visibility_of_element_located：判断某个元素是否可见，可见表明元素非隐藏，而且元素的宽和高都不等于0
visibility_of：与上述的方法同样，区别是上述方法要传入元祖locator即(By.ID,'kw')，此方法直接传定位到的WebElement
presence_of_all_elements_located：判断是否至少有1个元素存在于dom树中，有则返回WebElements列表
text_to_be_present_in_element：判断元素的text是否包含预期字符串
text_to_be_present_in_element_value：判断元素的value属性是否包含预期字符串
frame_to_be_available_and_switch_to_it：检查给定帧是否可切换到，若是能够，则将给定的驱动器切换到指定的iframe
......
这里包含了全部的预置条件说明

运行Shell以下：