Python爬虫连载14-动态HTML、PhantomJS和Chromedriver

时间 2020-03-14

标签 python 爬虫连载动态 html phantomjs chromedriver 栏目 Python 繁體版

原文原文链接

1、动态HTMLhtml

1.爬虫跟反爬虫python

2.动态HTML连载git

（1）JavaScriptgithub

（2）jQueryweb

（3）Ajax浏览器

（4）DHTML微信

（5）Python采集动态数据函数

从JavaScript代码入手采集；Python第三方库运行JavaScript，直接采集你在浏览器中看到的页面工具

2、Selenium + PhantomJS学习

1.Selenium：web自动化测试工具

（1）自动加载页面；（2）获取数据；（3）截屏

（4）官方文档：http://selenium-python.readthedocs.io/index.html

2.PhantomJS

（1）基于WebKit的无界面的浏览器

（2）官方网站：http://phantomjs.org/download.html

3.Selenium库有一个WebDriver的API

4.WebDriver能够跟页面上的元素进行各类交互，用它能够来进行爬取

"""

经过webdriver操做模拟进行查找

"""

from selenium import webdriver

import time

#经过keys模拟键盘

from selenium.webdriver.common.keys import Keys

#操做哪一个浏览器就对哪一个浏览器创建一个实例

#自动按照环境变量查找相应的浏览器

driver = webdriver.PhantomJS()#这个就是浏览器的实例

#若是浏览器没有相应的环境浏览器，须要指定浏览器位置

driver.get("http://www.baidu.com")#去访问这个网站，而后获取返回的数据

#经过函数查找title标签

print("Title:{0}".format(driver.title))

5.Chrome + Chromedriver

下载Chrome：下载和安装

Chromdriver安装

5、源码

Reptile14_1_DHTML.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptile14_1_DHTML.py

2.CSDN：https://blog.csdn.net/weixin_44630050

3.博客园：https://www.cnblogs.com/ruigege0000/

4.欢迎关注微信公众号：傅里叶变换，我的公众号，仅用于学习交流，后台回复”礼包“，获取大数据学习资料