30 行 Python 代码爬取英雄联盟全英雄皮肤

距离上次写爬虫文章已通过了许久了,以前写过一篇20行Python代码爬取王者荣耀全英雄皮肤 [1],反响强烈,其中有不少同窗但愿我再写一篇针对英雄联盟官网的皮肤爬取,但苦于事情繁多,便一拖再拖,一直拖到了如今,那么本篇文章咱们就一块儿来学习一下如何爬取英雄联盟全英雄皮肤。html

爬取代码很是简单,从上到下可能只须要写30行左右就能完成,但重要的是分析过程,在此以前,咱们先来了解一下本篇文章须要用到的模块。python

requests模块介绍

首先是requests模块,这是一个模拟浏览器请求的模块,咱们能够经过它来获取网页上的信息,好比百度:git

import requests
url = 'http://www.baidu.com'response = requests.get(url)print(response.text)

运行结果:经过get函数就可以向指定参数的url发送请求,获得的response对象中封装了不少响应的信息,其中的text即为响应内容,注意到获取的内容里有乱码,这是编解码不一致形成的,只需先获取二进制数据,而后从新解码便可:github

import requests
url = 'http://www.baidu.com'response = requests.get(url)print(response.content.decode())

运行结果:json

json模块

json模块能够对json字符串和Python数据类型进行相互转换,好比将json转换为Python对象:浏览器

import json
json_str = '{"name":"zhangsan","age":"20"}'rs = json.loads(json_str)print(type(rs))print(rs)

使用loads函数便可将json字符串转为字典类型,运行结果:服务器

<class 'dict'>{'name': 'zhangsan', 'age': '20'}

而如果想将Python数据转为json字符串,也很是简单:微信

import json
str_dict = {'name': 'zhangsan', 'age': '20'}json_str = json.dumps(str_dict)print(type(json_str))print(json_str)

经过dumps函数便可将Python数据转为json字符串,运行结果:网络

<class 'str'>{"name": "zhangsan", "age": "20"}

准备工做

前面介绍了两个模块,经过这两个模块咱们就可以完成这个程序了。在正式开始编写代码以前,咱们首先须要分析数据来源,来到官网:https://lol.qq.com/main.shtml,往下拉找到英雄列表:咱们随意点击一个英雄进去查看:在皮肤图片上右键点击检查:这样就找到了这个皮肤的url,咱们再选择第二个皮肤,看看它的url:咱们将安妮全部皮肤的url所有拿出来看看:app

https://game.gtimg.cn/images/lol/act/img/skin/big1000.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1001.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1002.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1003.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1004.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1005.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1006.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1007.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1008.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1009.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1010.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1011.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big1012.jpg

从这些url中能发现什么规律呢?其实规律很是明显,url前面的内容都是同样的,惟一不一样的是big1000.jpg,而每一个皮肤图片就是在该url的基础上加1。

那么问题来了,它是如何区分这张图片所属的英雄的呢?咱们观察浏览器上方的地址:地址上有一个属性值id为1,那么咱们能够猜想一下,皮肤图片url中的big1000.jpg是否是由英雄id和皮肤id共同组成的呢?

要想证实咱们的猜测,就必须再去看看其它英雄皮肤是否是也知足这一条件:打开烬的详情页面,其id为202,由此,烬的皮肤图片url最后部分应为:big ' + 202 + ' 皮肤编号.jpg,因此其url应为:

https://game.gtimg.cn/images/lol/act/img/skin/big202000.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big202001.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big202002.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big202003.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big202004.jpghttps://game.gtimg.cn/images/lol/act/img/skin/big202005.jpg

事实是否是如此呢?检查一下便知:规律已经找到,可是咱们还面临着诸多问题,好比每一个英雄对应的id是多少呢?每一个英雄又分别有多少个皮肤呢?

查询英雄id

先来解决第一个问题,每一个英雄对应的id是多少?咱们只能从官网首页中找找线索,在首页位置打开网络调试台:点击Network,并选中XHR,XHR是浏览器与服务器请求数据所依赖的对象,因此经过它便能筛选出一些服务器的响应数据。此时咱们刷新页面,在筛选出的内容发现了这么一个东西:hero_list,英雄列表?这里面会不会存储着全部英雄的信息呢?点击右侧的Response,获得了一串json字符串,咱们将其解析一下:这些数据里果真存储的是英雄的信息,包括名字、id、介绍等等,那么接下来咱们的任务就是将英雄名字和id单独提取出来,过滤掉其它信息。

忘了告诉大家了,这个文件的url在这里能够找到:接下来开始写代码:

import jsonimport requests
# 定义一个列表,用于存放英雄名称和对应的idhero_id = []url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js?v=20'response = requests.get(url)text = response.text# 将json字符串转为列表hero_list = json.loads(text)['hero']# 遍历列表for hero in hero_list: # 定义一个字典 hero_dict = {'name': hero['name'], 'id': hero['heroId']} # 将列表加入字典 hero_id.append(hero_dict)
print(hero_id)

首先经过requests模块请求该url,就可以获取到一个json字符串,而后使用json模块将该字符串转为Python中的列表,最后循环取出每一个英雄的name和heroid属性,放入新定义的列表中,这个程序就完成了英雄id的提取。

查询皮肤个数

接下来解决第二个问题,如何知晓某个英雄究竟有多少个皮肤,按照刚才的思路,咱们能够猜想一下,对于皮肤也应该会有一个文件存储着皮肤信息,在某个英雄的皮肤页面打开网络调试台,并选中XHR,刷新页面,找找线索:找来找去确实找不到有哪一个文件是跟皮肤有关系的,可是这里发现了一个31.js文件,而当前英雄的id也为31,这真的是巧合吗?咱们将右边的json字符串解析一下:该json数据中有一个skins属性,该属性值即为当前英雄的皮肤信息,既然找到了数据,那接下来就好办了,开始写代码:

import jsonimport requests
url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/31.js'response = requests.get(url)text = response.text# 将json字符串转为列表skins_list = json.loads(text)['skins']skin_num = len(skins_list)

源程序实现

准备工做已经完成了咱们全部的前置任务,接下来就是在此基础上编写代码了:

import requestsimport jsonimport osfrom tqdm import tqdm
try: # 定义一个列表,用于存放英雄名称和对应的id hero_id = [] skins = [] url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js?v=20' response = requests.get(url) text = response.text # 将json字符串转为列表 hero_list = json.loads(text)['hero'] # 遍历列表 for hero in hero_list: # 定义一个字典 hero_dict = {'name': hero['name'], 'id': hero['heroId']} # 将列表加入字典 hero_id.append(hero_dict) # 获得每一个英雄对应的id后,便可得到英雄对应皮肤的url # 英雄id + 001 # 遍历列表 for hero in hero_id: # 获得英雄名字 hero_name = hero['name'] # 获得英雄id hero_id = hero['id'] # 建立文件夹 os.mkdir('C:/Users/Administrator/Desktop/lol/' + hero_name) # 进入文件夹 os.chdir('C:/Users/Administrator/Desktop/lol/' + hero_name) # 获得id后便可拼接存储该英雄信息的url hero_info_url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/' + hero_id + '.js' # 经过访问该url获取英雄的皮肤数量 text = requests.get(hero_info_url).text info_list = json.loads(text) # 获得皮肤名称 skin_info_list = info_list['skins'] skins.clear() for skin in skin_info_list: skins.append(skin['name']) # 得到皮肤数量 skin_info_list = len(info_list) # 得到皮肤数量后,便可拼接皮肤的url,如:安妮的皮肤url为: # https://game.gtimg.cn/images/lol/act/img/skin/big1000.jpg ~ https://game.gtimg.cn/images/lol/act/img/skin/big1012 s = '' for i in tqdm(range(skins_num), '正在爬取' + hero_name + '的皮肤'): if len(str(i)) == 1: s = '00' + str(i) elif len(str(i)) == 2: s = '0' + str(i) elif len(str(i)) == 3: pass # 拼接皮肤url skin_url = 'https://game.gtimg.cn/images/lol/act/img/skin/big' + hero_id + '' + s + '.jpg' # 访问当前皮肤url im = requests.get(skin_url) # 保存图片 if im.status_code == 200: # 判断图片名称中是否带有'/'、'\' if '/' in skins[i] or '\\' in skins[i]: skins[i] = skins[i].replace('/', '') skins[i] = skins[i].replace('\\', '') with open(skins[i] + '.jpg', 'wb') as f: f.write(im.content)except: print('网络异常')

运行效果:运行以前记得在桌面上建立一个lol文件夹,若是想改动的话也能够修改程序:程序中还考虑到了一些其它状况,好比在爬取这个皮肤的时候会出现问题:由于图片路径是以皮肤名字命名的,然而这个皮肤的名字中居然有个/,它是会影响到咱们的图片保存操做的,因此在保存前将斜杠替换成空字符便可。

还有一个问题就是即便是第一个皮肤,其编号也应该为000而不是0,因此还须要对其进行一个转化,让其始终是三位数。

最后

本篇文章一样继承了上篇文章精简的特色,抛去注释的话总共30行代码左右,程序固然还有一些其它地方能够进一步优化,这就交给你们自由发挥了。

文章代码已上传至GitHub:https://github.com/blizzawang/Spider_LOL,有什么好的建议,欢迎Issues。

References

[1] 20行Python代码爬取王者荣耀全英雄皮肤 : https://blizzawang.blog.csdn.net/article/details/103190981


本文分享自微信公众号 - ZackSock(ZackSock)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索