Scrapy学习-16-动态网页技术

Selenium浏览器自动化测试框架
简介
  •   Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操做同样。
  •   支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。
  •   这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否可以很好得工做在不一样浏览器和操做系统之上。
  •   测试系统功能——建立回归测试检验软件功能和用户需求。支持自动录制动做和自动生成 .Net、Java、Perl等不一样语言的测试脚本
 
功能
  •   框架底层使用JavaScript模拟真实用户对浏览器进行操做。测试脚本执行时,浏览器自动按照脚本代码作出点击,输入,打开,验证等操做,就像真实用户所作的同样,从终端用户的角度测试应用程序。
  •   使浏览器兼容性测试自动化成为可能,尽管在不一样的浏览器上依然有细微的差异。
  •   使用简单,可以使用Java,Python等多种语言编写用例脚本
 
安装
1 pip install selenium

 

官方文档
1 http://selenium-python.readthedocs.io/

 

驱动下载
Chrome  https://sites.google.com/a/chromium.org/chromedriver/downloads Edge https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/ Firefox https://github.com/mozilla/geckodriver/releases

 

基本使用之模拟登录知乎
from selenium import webdriver from scrapy.selector import Selector browser = webdriver.Chrome( executable_path="E:\Python Project\scrapyproject\_ArticleSpider\chromedriver_win32\chromedriver.exe" ) browser.get("https://www.zhihu.com/#signin") browser.find_element_by_css_selector(".view-signin input[name='account']").send_keys("18412542552") browser.find_element_by_css_selector(".view-signin input[name='password']").send_keys("as15fQAfa") browser.find_element_by_css_selector(".view-signin button.sign-button").click() # browser.quit()

 

基本使用之模拟登录微博并下拉滚动条
from selenium import webdriver import time browser = webdriver.Chrome( executable_path="E:\Python Project\scrapyproject\_ArticleSpider\chromedriver_win32\chromedriver.exe" ) browser.get("https://weibo.com/") time.sleep(5) browser.find_element_by_css_selector("#loginname").send_keys("<username>") browser.find_element_by_css_selector(".info_list.password input[node-type='password']").send_keys("<password>") browser.find_element_by_css_selector(".info_list.login_btn a[node-type='submitBtn']").click() for i in range(3): browser.execute_script("window.scrollTo(0, document.body.scrollHeight); var lenOfPage=document.body.scrollHeight; return lenOfPage;") time.sleep(3) # browser.quit()

 

基本使用之不加载图片提高页面加载速度
from selenium import webdriver chrome_opt = webdriver.ChromeOptions() prefs = {"profile.managed_default_content_settings.images":2} chrome_opt.add_experimental_option("prefs", prefs) browser = webdriver.Chrome( executable_path="E:\Python Project\scrapyproject\_ArticleSpider\chromedriver_win32\chromedriver.exe", chrome_options=chrome_opt ) browser.get("https://www.taobao.com/") # browser.quit()

 

基本使用之隐藏chrom图形界面
注意: 目前只能在linux中使用
 
下载相关模块
1 pip install pyvirtualdisplay
相关依赖下载
sudo apt-get install xvfb pip install xvfbwrapper
使用步骤
from pyvirtualdisplay import Display display = Display(visible=0, size=(800, 600)) display.start() browser = webdriver.Chrome( executable_path="E:\Python Project\scrapyproject\_ArticleSpider\chromedriver_win32\chromedriver.exe" ) browser.get(https://www.taobao.com/) # browser.quit()

 

基本使用之phantomjs
特色
  •   无界面的浏览器,效率高
  •   在linux无图形化界面时使用较多
  •   多进程下phantomjs性能会严重降低
  •   多线程执行时不稳定
 
下载
1 http://phantomjs.org/download.html
简单使用
from selenium import webdriver browser = webdriver.PhantomJS( executable_path="E:\Python Project\scrapyproject\_ArticleSpider\phantomjs-2.1.1-windows\bin\phantomjs.exe" ) browser.get("https://item.taobao.com/item.htm?id=558638145403&ali_refid=a3_430673_1006:1109358544:N:%E6%89%8B%E6%9C%BA%E8%8B%B9%E6%9E%9C%E6%89%8B%E6%9C%BA:5d77c360cd1e64043b2f430be7531705&ali_trackid=1_5d77c360cd1e64043b2f430be7531705&spm=a2e15.8261149.07626516002.2") print(browser.page_source) browser.quit()

 

集成selenium到scrapy框架中
为每个spider建立一个chrom浏览器对象
import scrapy from scrapy.xlib.pydispatch import dispatcher from scrapy import signals from selenium import webdriver class JobboleSpider(scrapy.Spider): name = "jobbole" allowed_domains = ["blog.jobbole.com"] start_urls = ['http://blog.jobbole.com/all-posts/'] def __init__(self): self.browser = webdriver.Chrome( executable_path="E:\Python Project\scrapyproject\_ArticleSpider\chromedriver_win32\chromedriver.exe" ) super(JobboleSpider, self).__init__() dispatcher.connect(self.spider_closed, signals.spider_closed) def spider_closed(self, spider): self.browser.quit() def parse(self, response): pass
编写middleware在下载时使用chrom打开网页
import time from scrapy.http import HtmlResponse class JSPageMiddleware(object): def process_request(self, request, spider): if spider.name == "jobbole": spider.browser.get(request.url) time.sleep(3) return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source, encoding="utf-8", request=request)
配置settings
DOWNLOADER_MIDDLEWARES = { 'ArticleSpider.middlewares.JSPageMiddleware': 1, }

 

重写downloader实现selenium支持异步请求
须要咱们熟悉并遵照scrapy编程规范,能够参考
1 https://github.com/flisky/scrapy-phantomjs-downloader

 

其它浏览器自动化测试工具
更加轻量型的加载动态页面的工具splash、grid
特色
  •   比chrom和phantomjs性能更优
  •   支持分布式爬虫
  •   稳定性不如chrom高
splash-github项目
1 https://github.com/scrapy-plugins/scrapy-splash
selenium扩展grid
1 https://www.oschina.net/question/tag/selenium-grid

 

其它浏览器自动化测试工具splinter (纯python开发)
1 https://github.com/cobrateam/splinter
相关文章
相关标签/搜索