Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操做同样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等主流浏览器。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否可以很好得工做在不一样浏览器和操做系统之上。javascript
它的功能有:css
也就是说,它能够根据指令,作出像真实的人在访问浏览器同样的动做,好比打开网页,截图等功能。html
(新版本的selenium已经开始弃用phantomjs, 不过有时候咱们能够单独用它作一些事情)java
是一个基于Webkit的无界面浏览器,能够把网站内容加载到内存中并执行页面上的各类脚本(好比js)。python
官网下载地址: http://phantomjs.org/download.htmllinux
其实该软件是能够免安装的,Mac、linux、windows直接将可执行文件放入到环境变量目录便可。同时,若是配合selenium一块儿使用,建立浏览器对象的时候,能够直接经过参数指定文件路径便可。web
br = webdriver.PhantomJS('./phantomjs.exe') br.get('http://www.baidu.com') br.save_screenshot('2.png')
pip install selenium -i https://pypi.douban.com/simple/
若是须要正常驱动浏览器,好比chrome,那么咱们须要安装相对应的驱动才能进行操做。咱们能够去网上搜索驱动安装,也能够直接去淘宝的npm
源中找到(http://npm.taobao.org),好比咱们接下来要用的chromedriver,下载地址:https://npm.taobao.org/mirrors/chromedriver,通常这些下载的地方都会提供不一样操做系统的版本的软件,选择对应系统的和浏览器对应的最新版本便可。Mac和Linux版本的下载解压后,将二进制可执行文件放到对应的环境变量目录便可(好比:/usr/local/bin
)。windows版能够直接把chromedriver.exe放到要运行的python文件所在目录,也能够将chromedriver.exe的路径添加到环境变量path中。chrome
from selenium import webdriver import time # 获取一个浏览器对象 br = webdriver.Chrome() # 打开一个页面 br.get('http://www.baidu.com') # 获取页面的源代码(运行后在内存中渲染的页面元素) print(br.page_source) # 根据id查找元素 kw = br.find_element_by_id('kw') # 往表单输入框中输入内容 kw.send_keys('你好') # 点击某个元素 br.find_element_by_id('su').click() time.sleep(3) # 将页面内容保存成截图 br.save_screenshot('./1.png') # 设置窗口最大化 br.maximize_window() time.sleep(2) # 指定浏览器窗口大小 br.set_window_size(1200, 800) # 设置浏览器的坐标 四个参数分别是 x坐标 y坐标 窗口的宽 框框的高 br.set_window_rect(100, 200, 300, 500) # 获取全部cookie print(br.get_cookies()) print('*' * 10) # 获取某一个cookie的信息 print(br.get_cookie('BDORZ')) time.sleep(2) # 关闭窗口 br.close() # 退出浏览器 time.sleep(2) br.quit()
# 根据类名查找元素 br.find_element_by_class_name('s_btn') # 根据元素的name值查找元素 br.find_element_by_name('ie') # 根据元素的标签名称查找元素 br.find_element_by_tag_name('div') # 根据连接包裹着的文字查找 br.find_element_by_link_text('地图') # 根据连接包裹着的部分文字查找 br.find_element_by_partial_link_text('地') # 根据css选择器规则进行查找元素 br.find_element_by_css_selector('#wrapper') # 根据xpath规则进行查找元素 find_element_by_xpath('//*[@id="q"]')
所谓多元素查找其实就是查询符合规则的全部元素,使用方法上和单元素查找同样,只是方法名和返回值有所区别npm
方法名的区别:多元素是以find_elements
开头的 ,单个元素是find_element
开头的。windows
好比:
# 获取全部的a标签元素, 使用的时候能够遍历返回值使用 br.find_elements_by_tag_name('a')
元素对象.get_attribute('属性名')
元素对象.text
咱们前面在快速上手部分已经使用了几个交互动做了,好比send_keys
、click
等,其实经常使用的还有clear
(清空输入框的内容)
除了快速上手部分咱们看到的操做浏览器自己的属性和方法外,还有很多:
br.execute_script('alert(111)')
有些时候,咱们的网页中会嵌入iframe
,若是咱们须要操做iframe
里面的内容的话,就须要咱们先切换的iframe
中
经常使用的方法有:switch_to.frame()
和switch_to.parent_frame()
当使用了隐式等待执行测试的时候,若是WebDriver没有在DOM中找到元素,将继续等待,超出设定时间后则抛出找不到元素的异常, 换句话说,当查找元素或元素并无当即出现的时候,隐式等待将等待一段时间再查找 DOM,默认的时间是0
到了必定的时间发现元素尚未加载,则继续等待咱们指定的时间,若是超过了咱们指定的时间尚未加载就会抛出异常,若是没有须要等待的时候就已经加载完毕就会当即执行。
br = webdriver.Chrome() # 设置最长等待10秒 br.implicitly_wait(10)
指定一个等待条件,而且指定一个最长等待时间,会在这个时间内进行判断是否知足等待条件,若是成立就会当即返回,若是不成立,就会一直等待,直到等待你指定的最长等待时间,若是仍是不知足,就会抛出异常,若是知足了就会正常返回
from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC br = webdriver.Chrome() br.get('https://www.taobao.com/') wait = WebDriverWait(br, 10) input = wait.until(EC.presence_of_element_located((By.ID, 'q'))) button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search'))) print(input, button)
上述的例子中的条件:EC.presence_of_element_located()是确认元素是否已经出现了
EC.element_to_be_clickable()是确认元素是不是可点击的
经常使用的判断条件:
title_is
标题是某内容
title_contains
标题包含某内容
presence_of_element_located
元素加载出,传入定位元组,如(By.ID, 'p')
visibility_of_element_located
元素可见,传入定位元组
visibility_of
可见,传入元素对象
presence_of_all_elements_located
全部元素加载出
text_to_be_present_in_element
某个元素文本包含某文字
text_to_be_present_in_element_value
某个元素值包含某文字
frame_to_be_available_and_switch_to_it
frame加载并切换
invisibility_of_element_located
元素不可见
element_to_be_clickable
元素可点击
staleness_of
判断一个元素是否仍在DOM,可判断页面是否已经刷新
element_to_be_selected
元素可选择,传元素对象
element_located_to_be_selected
元素可选择,传入定位元组
element_selection_state_to_be
传入元素对象以及状态,相等返回True,不然返回False
element_located_selection_state_to_be
传入定位元组以及状态,相等返回True,不然返回False
alert_is_present
是否出现Alert
get_cookies() get_cookie('键名') delete_all_cookes() delete_cookie(键名) add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'zhaofan'})
经过执行js命令实现新开选项卡window.open()
不一样的选项卡是存在列表里br.window_handles
经过br.window_handles[0]
就能够操做第一个选项卡
import time from selenium import webdriver browser = webdriver.Chrome() browser.get('https://www.baidu.com') browser.execute_script('window.open()') print(browser.window_handles) browser.switch_to_window(browser.window_handles[1]) browser.get('https://www.taobao.com') time.sleep(1) browser.switch_to_window(browser.window_handles[0]) browser.get('https://python.org')
咱们在前面的学习中会发现,PhantomJS已经不被新版本的Selenium弃用了,同时咱们前面一直使用的是有界面的浏览器,可是它运行的时候,很影响咱们去干其它事情,不用怕,其实chrome和火狐都提供的有无界模式。只须要传入一些参数便可
from selenium import webdriver from selenium.webdriver.chrome.options import Options # 配置chrome的参数 options = Options() options.add_argument('--headless') # options.add_argument('--disable-gpu') # 获取一个浏览器对象 br = webdriver.Chrome(chrome_options=options)