你要偷偷的学Python，而后惊呆全部人（第九天）

时间 2020-12-01

标签 html python web sql apache 编程 json swift 浏览器 ruby 栏目 Python 繁體版

原文原文链接

标题无心冒犯，就是以为这个广告挺好玩的html

文章目录

前言
欢迎来到咱们的圈子
开手练习：爬取网上书店
第一步：找到最小公共父标签
第二步：找到单个目标所在标签
第三步：代码与自动化
第四步：填充网址
小爬虫扑空啦
json串
Network
重要图标介绍
操做流程
json
why json?
how json?
小爬虫又来啦
易容术：请求头Request Headers
什么是Request Headers
如何添加Request Headers
进击吧！小爬虫
小爬虫被骗啦
带参请求数据
强行灌输知识点

前言

前期回顾：你要偷偷学Python（第八天）python

上一篇呢，上一篇咱们了解了一下网页的基本结构，而且经过对网页的分析抓取了一点数据出来。
可是咱们就这么知足了吗？这显然是不可能的，你见过哪一个爬虫就爬几个字嘛。web

因此今天，咱们来一次性爬上一大波数据！！！
我行，你也行！！！sql

插播一条推送：（若是是小白的话，能够看一下下面这一段）apache

欢迎来到咱们的圈子

若是你们在学习中遇到困难，想找一个python学习交流环境，能够加入咱们的python圈，裙号947618024，可领取python学习资料，会节约不少时间，减小不少遇到的难题。编程

本系列文默认各位有必定的C或C++基础，由于我是学了点C++的皮毛以后入手的Python。 本系列文默认各位会百度，学习‘模块’这个模块的话，仍是建议你们有本身的编辑器和编译器的，上一篇已经给你们作了推荐啦？ 本系列也会着重培养各位的自主动手能力，毕竟我不可能把全部知识点都给你讲到，因此本身解决需求的能力就尤其重要，因此我在文中埋得坑请不要把它们当作坑，那是我留给大家的锻炼机会，请各显神通，自行解决。 1234567

哎，怪我孤陋寡闻，实在找不到适合咱们这个阶段的网站，个人爬虫又不断地让人捏死，只好借鉴别人的栗子了。。。json

开手练习：爬取网上书店

目标网址：http://books.toscrape.com/
任务：爬取目标网址中的分类目录：swift

有没有思路？没思路看我讲。浏览器

第一步：找到最小公共父标签

这个会找吧：ruby

第一步，点亮匹配按钮（之后我就叫它匹配按钮了）
第二步，把鼠标放到要选的区域，注意，要颜色彻底覆盖住你要选的区域，覆盖不住调整鼠标位置。
第三步，左击鼠标，定位代码。
第四步，再看一眼那行标签是否是最小且公共的了，有虚线，能够看到那行标签管到哪一层。

其实你再认真找一下，就会发现咱们上面图中标出的区域并非最小的，最小的是那个< ul >。

第二步：找到单个目标所在标签

第二步怎么走啊？第一步能够理解吧，第一步作完事要为“find_all”服务的，一篮子全捞出来，那第二步天然是要一个一个拣出来嘛，为“find”服务。
那具体怎么作就不用我再说了吧，参照上一步。

来我带你打开一个标签看一下：

看到没，井井有条。

第三步：代码与自动化

第三步天然就要把目标值取出来了嘛，咱们顺便把网址也取了吧。

import requests from bs4 import BeautifulSoup res = requests.get('http://books.toscrape.com/') soup = BeautifulSoup(res.text,'html.parser') items = soup.find('ul',class_ = 'nav nav-list').find('ul').find_all('li') #我惊奇的发现，还有这种骚操做 for item in items: kind = item.find('a') print('分类'+kind.text.strip()+'\n网址'+kind['href']+'\n') 123456789101112

这样打出来你会发现那根本不是一个完整的网址，这要怎么办呢？

第四步：填充网址

其实你打开一个目录，就会发现它的网址长这样：（这里我打开的是第一个目录）
http://books.toscrape.com/catalogue/category/books/travel_2/index.html

这有什么特色呢？咱把它分开：

http://books.toscrape.com/ catalogue/category/books/travel_2/index.html 12

好，如今再问你看到了什么？
这两部分是否是都能找到出处！！

好，如今咱们微调一下上面的代码：

import requests from bs4 import BeautifulSoup url = 'http://books.toscrape.com/' res = requests.get(url) soup = BeautifulSoup(res.text,'html.parser') items = soup.find('ul',class_ = 'nav nav-list').find('ul').find_all('li') #我惊奇的发现，还有这种骚操做 for item in items: kind = item.find('a') print('分类：'+kind.text.strip()+'\n网址：'+url+kind['href']+'\n') 1234567891011121314

第一题到此告一段落、

小爬虫扑空啦

学完这些以后，我就想着去爬个人博客评论了。不过一顿操做下来：

gogogo！！！

好，定位代码段：

好，层层爬取（演示效果，否则我才不一层一层拨开）：

好，结果显示为空。

能够去打印出爬下来的网页源代码：res，而后翻一翻，你会惊奇的发现，评论部分被隐藏了！！！

那怎么办呢？接下来那就进入咱们今天的第一个知识点了–json串。

json串

依旧是别人的栗子，我来说给你们懂。

网页源代码里没有咱们想要的数据，那它究竟藏到了哪里呢？
想找到答案，须要用到一项新技能——翻找Network！

还记得我一开始就叫你们用谷歌浏览器吗？如今就体现出优点了。

Network

首先，打开一个界面，这里我选择了志炫的歌单，我比较喜欢他的歌。
小白请跟我来，由于你并不知道哪些网页是用json 传输什么数据的，因此练习的时候不要本身乱找网页。
https://y.qq.com/portal/search.html#page=1&searchid=1&remoteplace=txt.yqq.top&t=song&w=%E6%9E%97%E5%BF%97%E7%82%AB

这个界面应该会打开吧，怕你们看不到，我特意多圈了几圈，点它。

好，然而并无发生什么。

那不急，咱们从新加载一下这个歌单界面，找到空白处，右击，从新加载。

这时候你会看到这么一个界面。
你用别的浏览器试试，会是什么效果。我用火狐试过，找是能够找，一片乱码而已。

Network的功能是：记录在当前页面上发生的全部请求。如今看上去好像空空如也的样子，这是由于Network记录的是实时网络请求。如今网页都已经加载完成，因此不会有东西。

咱们点击一下刷新，浏览器会从新访问网络，这样就会有记录。

好，走到这里了，我以为我有必要介绍一下这个页面上几个比较重要的东西。

重要图标介绍

从左往右看啊，红色的圆钮是启用Network监控（默认高亮打开），灰色圆圈是清空面板上的信息。右侧勾选框Preserve log（放大镜旁边那个），它的做用是“保留请求日志”。若是不点击这个，当发生页面跳转的时候，记录就会被清空。因此，咱们在爬取一些会发生跳转的网页时，会点亮它。

再往右是对请求进行分类查看。咱们最经常使用的是：ALL（查看所有）/XHR（仅查看XHR）

哎，不废话了，上操做流程吧。

操做流程

首先，咱们要找的东西是文本嘛，那怎么办呢？直接点XHR就行了。

好，如今这么多东西了，我就直接跟你说要的东西就在这里面，你要怎么找？一个一个点开吗？你会发现不少都是传一些边角料，再而后，你会发现那些边角料都比目标文案要小不少，因此就直接找size最大的那个点进去就好。

咱也不绕弯子了，进去以后直接点Preview。

好，Preview点进去以后本身玩一玩，看看里面都是些啥。

看完以后，回来，跟我点开旁边的Headers。

好，看到了什么？一个网址是吧，复制它，打开它，是否是和Preview里面的如出一辙，只是排版乱了些。

我就不贴了啊，密集恐惧症就别点开了。

这说明什么？这说明咱们要爬的网址实际上是这个。

注：若是这个网址打不开，那就不用爬了，人家并不想让你爬。

那么，对于这份XHR来讲：这个XHR是一个字典，键data对应的值也是一个字典；在该字典里，键song对应的值也是一个字典；在该字典里，键list对应的值是一个列表；在该列表里，一共有20个元素；每个元素都是一个字典；在每一个字典里，键name的值，对应的是歌曲名。

会不会乱？我以为不会啊，除非你没有一步一步实操跟进。

讲到这里尚未讲到 json串啊，你先把这个网页爬出来，打印出来看看，是一个又有点像字典，又有点像字符串的玩意儿。
这玩意儿就是json串了。

json

why json?

答案很简单，由于不是全部的编程语言都能读懂Python里的数据类型（如，列表/字典），可是全部的编程语言，都支持文本（好比在Python中，用字符串这种数据类型来表示文本）这种最朴素的数据类型。

如此，json数据才能实现，跨平台，跨语言工做。

而json和XHR之间的关系：XHR用于传输数据，它能传输不少种数据，json是被传输的一种数据格式。就是这样而已。

咱们老是能够将json格式的数据，转换成正常的列表/字典，也能够将列表/字典，转换成json。

how json?

方法很简单，请求到数据以后，使用json()方法便可成功读取。接下来的操做，就和列表/字典相一致。

import requests # 引用requests库 res_music = requests.get('https://c.y.qq.com/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplace=txt.yqq.song&searchid=67818388354301120&t=0&aggr=1&cr=1&catZhida=1&lossless=0&flag_qc=0&p=1&n=10&w=%E6%9E%97%E5%BF%97%E7%82%AB&g_tk_new_20200303=5381&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8¬ice=0&platform=yqq.json&needNewCode=0') # 调用get方法，下载这个字典 json_music = res_music.json() # 使用json()方法，将response对象，转为列表/字典 print(json_music) # 打印json_music的数据类型 12345678

因此接下来怎么办呢？

import requests # 引用requests库 res_music = requests.get('https://c.y.qq.com/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplace=txt.yqq.song&searchid=67818388354301120&t=0&aggr=1&cr=1&catZhida=1&lossless=0&flag_qc=0&p=1&n=10&w=%E6%9E%97%E5%BF%97%E7%82%AB&g_tk_new_20200303=5381&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8¬ice=0&platform=yqq.json&needNewCode=0') # 调用get方法，下载这个字典 json_music = res_music.json() # 使用json()方法，将response对象，转为列表/字典 list_music = json_music['data']['song']['list'] # 一层一层地取字典，获取歌单列表 for music in list_music: # list_music是一个列表，music是它里面的元素 print(music['name']) # 以name为键，查找歌曲名 print('所属专辑：'+music['album']['name']) # 查找专辑名 print('播放时长：'+str(music['interval'])+'秒') # 查找播放时长 print('播放连接：https://y.qq.com/n/yqq/song/'+music['mid']+'.html\n\n') # 查找播放连接 123456789101112131415161718

小爬虫又来啦

这回，经过咱们的一顿操做猛如虎，可算是找对了网址啊：
https://blog.csdn.net/phoenix/web/v1/comment/list/108858689?page=1&size=10&commentId=
这是第一页的评论网址。

好极，咱们开始吧。

import requests res = requests.get('https://blog.csdn.net/phoenix/web/v1/comment/list/108858689?page=1&size=10&commentId=') # 发起请求，填入请求头和参数 print(res.status_code) print(res.text) 12345678

好极，就试了下水就让人给怼回来了。。。

莫非今天还真爬不过去了？

不知道，再说吧。。

易容术：请求头Request Headers

服务器可能会对咱们这些“投机取巧”的爬虫作限制处理。一来能够下降服务器的访问压力，毕竟成千上万次的访问对代码来讲就是一个for循环的事儿；二来能够拦截那些想要经过爬虫窃取数据的竞争者。

那这就有一个问题，服务器怎么判断访问者是一个普通的用户（经过浏览器），仍是一个爬虫者（经过代码）呢？

这须要咱们回到浏览器中，从新认识一个新的信息栏：请求头Request Headers。

什么是Request Headers

看下面这张图

每个请求，都会有一个Request Headers，咱们把它称做请求头。它里面会有一些关于该请求的基本信息，好比：这个请求是从什么设备什么浏览器上发出？这个请求是从哪一个页面跳转而来？
如上图，user-agent（中文：用户代理）会记录你电脑的信息和浏览器版本，若是咱们想告知服务器，咱们不是爬虫，而是一个正常的浏览器。就要去修改user-agent。假若不修改，那么这里的默认值就会是Python，会被服务器认出来。

origin（中文：源头）和referer（中文：引用来源）则记录了这个请求，最初的起源是来自哪一个页面。它们的区别是referer会比origin携带的信息更多些。
对于爬取某些特定信息，也要求你注明请求的来源，即origin或referer的内容。

如何添加Request Headers

import requests url = 'https://blog.csdn.net/phoenix/web/v1/comment/list/108858689?page=1&size=10&commentId=' headers = { 'origin':'https://lion-wu.blog.csdn.net', # 请求来源，本案例中实际上是不须要加这个参数的，只是为了演示 'referer':'https://lion-wu.blog.csdn.net/article/details/108858689', # 请求来源，携带的信息比“origin”更丰富，本案例中实际上是不须要加这个参数的，只是为了演示 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36' # 标记了请求从什么设备，什么浏览器上发出 } # 假装请求头 res = requests.get(url,headers=headers) 1234567891011121314

好极，干！！！

进击吧！小爬虫

此次，我给小爬虫进行了一波易容，多是它长得不符合服务器的审美吧，因此次次碰壁，此次易容以后，不知道有没有长到服务器的审美上去呢？让咱们拭目以待吧！！！

import requests url = 'https://blog.csdn.net/phoenix/web/v1/comment/list/108858689?page=1&size=10&commentId=' headers = { 'origin':'https://lion-wu.blog.csdn.net', # 请求来源，本案例中实际上是不须要加这个参数的，只是为了演示 'referer':'https://lion-wu.blog.csdn.net/article/details/108858689', # 请求来源，携带的信息比“origin”更丰富，本案例中实际上是不须要加这个参数的，只是为了演示 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36' # 标记了请求从什么设备，什么浏览器上发出 } # 假装请求头 res = requests.get(url,headers=headers) print(res.status_code) print(res.text) 1234567891011121314151617

bash:129$ python ~/classroom/apps-2-id-5c3d89848939b4000100e7f5/129/main.py 200 {"code":200,"message":"success","data":{"count":60,"pageCount":6,"floorCount":59,"list":[{"info":{"commentId":13646053,"articleId":108858689,"parentId":0,"postTime":"2020-10-30 11:03:45","content":"删除多张表：本身想 O(∩_∩)O~","userName":"qq_43055855","digg":2,"diggArr":[],"parentUserName":null,"parentNickName":null,"avatar":"https://profile.csdnimg.cn/C/B/3/3_qq_43055855","nickName":"海海不掉头发","dateFormat":"6天前","tag":"码皇","parentTag":null,"years":null,"vip":null,"vipIcon":null,"companyBlog":null,"companyBlogIcon":null,"flag":null,"flagIcon":null,"levelIcon":null},"sub": 123

我就截取一点吧，太大了，能够看出来截下来了就好。

别说了，也能够本身去解析一下，这个以咱们以前学的解不了。后面我解给你看。

小爬虫被骗啦

当服务器赶上了整容事后的小爬虫，终于“门户大开”，大方的给了一页的数据，一页的数据，一页。。。

可是我要的是所有啊，你就给我一页就想打发我？打发叫花子呢？

那怎么办呢？这个死渣男，小气得很呐，看来又要咱们本身动脑筋咯。

带参请求数据

还记得咱们最开始是怎么找到评论区的包吗？对，我没说，我是先将页面清空，而后请求访问了第二个页面，这时候就出现了一个新包，用脚指头想都知道那就是第二个页面的包，不过我仍是想用第一个页面，因而我就切回去了。

那咱们再想一想，这些数据咱们是在哪里找到的？我不但愿看到大家说Preview啊，想清楚啊，想这样说的朋友，给大家一次从新组织语言的机会。

对，明明就是在Headers的General的url里面找到的嘛，Preview怎么爬？对吧。

原本不想多废话，可是我喜欢分析url，因此就多说两句呗。

第一个页面的URL：https://blog.csdn.net/phoenix/web/v1/comment/list/108858689?page=1&size=10&commentId= 第二个页面的URL：https://blog.csdn.net/phoenix/web/v1/comment/list/108858689?page=2&size=10&commentId= 第三个页面的URL：https://blog.csdn.net/phoenix/web/v1/comment/list/108858689?page=3&size=10&commentId= 123

一目了然了吧，不用我再多放了。

import requests from bs4 import BeautifulSoup import json headers = { 'origin':'https://lion-wu.blog.csdn.net', # 请求来源，本案例中实际上是不须要加这个参数的，只是为了演示 'referer':'https://lion-wu.blog.csdn.net/article/details/108858689', # 请求来源，携带的信息比“origin”更丰富，本案例中实际上是不须要加这个参数的，只是为了演示 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36' # 标记了请求从什么设备，什么浏览器上发出 } # 假装请求头 for i in range(5): res = requests.get('https://blog.csdn.net/phoenix/web/v1/comment/list/108858689?page='+str(i)+'&size=10&commentId=',headers=headers) print(res.status_code) soup = BeautifulSoup(res.text,'html.parser') json_items = json.loads(soup.text) items = json_items['data']['list'] for item in items: print(item['info']['content']) print('\n'+'----------'+'\n') 12345678910111213141516171819202122232425

强行灌输知识点

有时候呢，你会发现你抓取的几个页面不过是在重复（强行灌输知识点）

那就灌一下吧。

我也不知道什么是就要用上，反正先写上。

因此，其实咱们能够把Query String Parameters里的内容，直接复制下来，封装为一个字典，传递给params。只是有一点要特别注意：要给他们打引号，让它们变字符串。

因此，代码最后可能长这样：

伪代码

import requests
# 引用requests模块 url = 'https://blog.csdn.net/phoenix/web/v1/comment/list/108858689' for i in range(5): 'params' = { 'page': str(i) 'size': '10' 'commentId': } # 将参数封装为字典 res_comments = requests.get(url,params=params,头) 123456789101112

好极，好极，这篇就到这里啦，爽呐。

下一篇会比较轻松一些，这篇信息量有点大啊。

最后多说一句，想学习Python可联系小编，这里有我本身整理的整套python学习资料和路线，想要这些资料的均可以进q裙947618024领取。

本文章素材来源于网络，若有侵权请联系删除。