“ 阅读文本大概须要 3 分钟html
前言python
你们好,这里是「brucepk」python 爬虫课堂。此文首发于「brucepk」公众号,欢迎你们去关注。web
俗话说,万事开头难,学习爬虫也是如此。咱们知道,python 爬虫主要步骤无非就是:获取源码、从源码中提取须要的信息、保存数据这几个主要步骤。chrome
俗话说,万事开头难,遭遇挫折时,咱们每每会在踏出的第一步选择放弃。学习爬虫亦是如此,最容易放弃的在第一步:获取源码,由于获取源码方式有不少,不一样方式针对不一样的页面结构。你会了一种方式,感受很简单,可是碰到另外一种状况,套用这个方法行不通时,可能会让你望而却步。话很少说,今天就带你入门爬虫。浏览器
爬虫提取页面源代码主要有两种方法:requests 库 和 selenium 库。微信
下面分析这两种方式的适用场景和优缺点。网络
requests 库提取框架
requests 适合提取须要的元素信息直接保存在页面的源代码里面,能够直接用 requests.get(url).text 来提取页面源码。以前发的 100 行代码找出你中意的书 项目用的就是此方法。用此方法解析先后面必须带上 text 才行。工具
import requests from bs4 import BeautifulSoup url='https://mp.weixin.qq.com/s/HxHFE7jB3hU6gBZWeHB5xw' html = requests.get(url) soup = BeautifulSoup(html.text, 'lxml') print(soup)
下面是输出结果的部分截图:学习
requests 库提取源代码优缺点
优势:提取页面快。
缺点:不适合提取元素不是加载在源代码的项目。
selenium 库提取
selenium 库适合提取咱们须要的信息不在源代码里面的,昨天发的获取网易云音乐的项目 听歌慌?80 行代码帮你搞定! 就是用的此方法。
咱们经过 F12 代码调试元素里面能够看到咱们须要提取的元素,可是在源代码里面找不到这些元素,这时只能用自动化测试库 selenium 库,经过操做浏览器的驱动来操做浏览器,因此前期工做须要把对应的驱动 driver 下载下来放在 python 3 安装的目录下。
注意:driver 的版本须要浏览器版本对应,好比我用的 Chrome 谷歌浏览器 67.0 版本,对应的 chromedriver 版本是 2.38,对应关系表和驱动下载连接可在后台回复 「谷歌驱动」 获取。
看下昨天爬虫爬取音乐的代码
from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait browser = webdriver.Chrome() wait = WebDriverWait(browser,5) #设置等待时间 #返回歌手名字和歌手id def get_singer(url): browser.get(url) browser.switch_to.frame('g_iframe') html = browser.page_source soup=BeautifulSoup(html,'lxml')
selenium 库提取源代码优缺点
优势:用 selenium 自动化库模拟人工操做浏览器,不用设置代理 ip 和 headers 去作反爬虫处理,能够直接提取页面元素里的信息。
缺点:模拟人工操做浏览器,受到网络影响,爬虫速度没有 requests 库提取快。
用 selenium 库处理时还有一个坑须要注意,须要提取的页面元素不在主框架frame 里面,而是在其中的一个子框架 iframe 里面,须要找到这个子框架的 id,并切换到这个子框架后才提取页面。怎么找到这个子框架呢?教你们一个笨方法,在元素区域搜索 iframe,点到搜索到的 iframe,若是阴影区域包括你须要提取的元素,那就是这个 iframe,提取它的 id 便可。
找到子框架的 id 后,用 swith_to.frame("") 切换到此框架。
推荐阅读
本公众号专一:
1.python 技术分享
2.python 爬虫分享
3.资料、工具共享
欢迎关注咱们,一块儿成长!
我建一个技术交流群,群里有大佬,能够进群一块儿讨论学习,共同进步。进群方式见公众号联系方式处。
群里我用 python 写了个微信机器人,欢迎体验!