系列文章:php
爬虫实战(一):爬取微博用户信息html
爬虫实战(二):Selenium 模拟登陆并爬取信息html5
爬虫实战(三):微博用户信息分析python
该系列文章介绍了什么?linux
1.爬虫分析和处理方法git
2.Python中的数据库操做方法github
3.Selenium浏览器自动化以及无头浏览器使用方法web
4.对数据进行词云分析的方法正则表达式
5.对数据进行可视化的方法chrome
6.LDA隐含狄利克雷分布模型的建模和使用方法
前一篇文章 爬虫实战(一):爬取微博用户信息 中爬取的是 weibo.cn 这个网页,可是因为该网页缺乏维护,微博官方可能加了一些限制,致使稍微频繁一点的访问都会报 403 错误,加上每次手动获取 cookies 也比较麻烦,不友好,因此针对这些状况,我使用了一种新的抓取方式,也是一种更为高级的爬虫手段。
我以前在文章里面提到“ 爬取微博主页 weibo.com/ 或者 m.weibo.cn/ 较为困难 ”,为何会这么说呢?由于这两种页面较新,因此采用的技术比较新颖,反爬措施作得要好一些。特别是它们采用了滚动式页面,每次向下滚动到底后会加载出新的内容,这种动态加载模式使得传统的改变网页地址中的页码得到相应内容的方法失效了,含有用户信息内容的源码须要抓包获取,或者直接操做浏览器获取。后者通常都是Selenium+PhantomJS来实现。
因为 Phantom.js 的维护者 Slobodin 在Google论坛上发帖表示,鉴于Chrome 59推出了无头浏览特性,他认为“Chrome比PhantomJS更快,更稳定”,没有理由再继续维护Phantom.js(开发者颇有自知之明:P,不过 Phantom.js 确实是一个很好用的东西),因此本文采用 Selenium+Chrome/Firefox 无头浏览器的方式进行模拟登陆和抓取用户动态信息的操做。
Selenium 是一个浏览器自动化测试框架,起初是为了自动化测试开发的,在爬虫流行起来之后,也成为了一种爬虫的工具。它的功能简单来讲就是能够控制浏览器,用代码模拟人对浏览器的操做,实现自动化。
和大多数 python 包同样,selenium 可使用 pip 进行安装:
# python 2
pip install selenium
# python 3
pip3 install selenium
复制代码
由于 selenium 是对浏览器进行控制,因此首先要装对应的驱动(driver),Selenium 针对几个主流的浏览器都有相应的官方 driver。读者能够根据本身的状况下载并安装。好比笔者是使用的 Linux 系统上的 Chrome 浏览器最新版本,那么便下载相应版本的 driver ,下载完成之后,执行命令:
#/usr/bin 或者 /usr/local/bin
sudo cp 下载的driver位置 /usr/bin
sudo chmod +x /usr/bin/chromedriver
复制代码
安装完成之后测试一下是否成功。
首先来测试一下是否安装成功:
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('http://www.baidu.com/')
复制代码
运行这段代码,会自动打开浏览器访问百度。
若是程序执行错误,浏览器没有打开,那么多是没有装 Chrome 浏览器或者 Chrome 驱动没有配置在环境变量里或者驱动和浏览器版本不匹配。
登陆微博须要使用验证码,自动识别验证码这一块我研究了一下,使用图像识别,也不难,可是由于咱们能够将cookies 持久化保存下来,使用手动输入验证码并不麻烦,因此自动识别验证码能够暂时先放一放,后面慢慢来研究。
使用 selenium 控制浏览器,经过对页面的元素进行定位来模拟人的操做,API 详细介绍请见 参考文档 。模拟登陆代码以下:
def get():
conf, engine = Connect('conf.yaml') # 获取配置文件的内容
loginname = conf.get('loginname')
password = conf.get('password')
loginname = list(loginname.values())
password = list(password.values())
with open('cookies.pkl', 'wb') as f:
for i in range(len(password)): # 将每一个帐号的cookies保存下来.
try:
driver = webdriver.Chrome()
driver.set_window_size(1124, 850) # 防止获得的WebElement的状态is_displayed为False,即不可见
driver.get("http://www.weibo.com/login.php")
time.sleep(5)
#自动点击并输入用户名
driver.find_element_by_xpath('//*[@id="loginname"]').clear()
driver.find_element_by_xpath('//*[@id="loginname"]').send_keys(loginname[i])
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').clear()
time.sleep(2)
#自动点击并输入登陆的密码
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[2]/div/input').send_keys(
password[i])
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
#输入验证码
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[3]/div/input').send_keys(
input("输入验证码: "))
time.sleep(1)
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
except Exception as e:
print("验证码输入错误,请从新输入!")
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[3]/div/input').send_keys(
input("输入验证码: "))
time.sleep(1)
driver.find_element_by_xpath('//*[@id="pl_login_form"]/div/div[3]/div[6]/a').click()
cookies = driver.get_cookies()
pickle.dump(cookies, f)#序列化cookies对象
复制代码
代码注释应该写得比较清楚,其中有一个细节就是咱们须要将获取的 cookies 序列化。什么是序列化?
咱们把变量从内存中变成可存储或传输的过程称之为序列化,即把数据写入临时或持久性存储区,而把变量内容从序列化的对象从新读到内存里称之为反序列化。
意思是在这里将 cookies 以二进制形式保存下来,这样能够方便后续爬虫使用。
爬取用户信息的大体思路和上一篇文章 爬虫实战(一):爬取微博用户信息 差很少 ,但仍然有如下区别:
首先咱们来看微博 html5 移动端的页面长什么样:
为何选这个网址而不是PC端的页面呢?由于PC端的页面每向下滑动三次须要跳页,操做要繁琐一些,并且 selenium 容易由于失去焦点致使跳转失败,我也没找到很好的解决方法,而 html5 移动端的页面屡次滑动到底即可以得到全部动态信息,不须要跳页,因此要简单不少。
再来看看使用 selenium 如何操做浏览器滑动到底,下面是相关的处理函数,这个函数将 web 页面滑动屡次直到没法再滑动(即滑动到底了)并使用正则表达式提取出动态和动态发布时间:
#获取用户全部动态信息和动态发布时间并返回
def execute_times(driver):
dynamic = []
T = []
d = re.compile(r'og"><div class="weibo-text">(.*?)<', re.S) # 匹配动态
t = re.compile(r'<span class="time">(.*?)<', re.S) # 匹配动态发布时间
#返回滚动高度
last_height = driver.execute_script("return document.body.scrollHeight")
while True:
# 滑动一次
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
# 等待加载
time.sleep(random.random())
# 计算新的滚动高度并与上一个滚动高度进行比较
new_height = driver.execute_script("return document.body.scrollHeight")
if new_height == last_height:
break
last_height = new_height
html = driver.page_source
dynamic += re.findall(d, html)
T += re.findall(t, html)
return dynamic, T #返回用户全部动态信息和动态发布时间列表
复制代码
获得用户全部动态信息和动态发布时间列表之后,其余处理和前一篇文章相似,在此再也不累述,详情请见源码 weibo_spider.py。
由于每次运行程序都须要弹出浏览器窗口,并且速度较慢,因此能够将浏览器设置成无头模式:
#Chrome
opt = webdriver.ChromeOptions() # 建立chrome参数对象
opt.set_headless() # 把chrome设置成无头模式,不论windows仍是linux均可以,自动适配对应参数
driver = webdriver.Chrome(options=opt)#不制定options选项则是普通有头浏览器
#Firefox
opt = webdriver.FirefoxOptions()
opt.set_headless()
driver = webdriver.Firefox(options=opt)
复制代码
至此模拟登陆并爬取信息方法介绍完毕。
源码地址:https://github.com/starFalll/Spider