python爬取数据须要注意的问题

时间 2019-12-05

原文原文链接

1 爬取https的网站或是接口的时候，若是是不受信用的SSL证书，会报错，须要添加以下代码，以下代码能够保证当前代码块内全部的请求都自动屏蔽ssl证书问题：python

import ssl   # 这个是爬取https的连接须要的，以及下面一行代码
ssl._create_default_https_context = ssl._create_unverified_context

2 爬取jsonp的接口，返回的数据须要删除callback名字和最外层括号，能够经过如下方式过滤：json

text方法将取得的数据转为文本，而后re.match将字符串过滤掉callback名字和最外层括号，留下本来json部分的数据，而后经过json.loads将过滤出来的json转为python对象jsonp

import re
getOneSongInfoCallback=json.loads(re.match(".*?({.*}).*", requests.get(url, headers=headers).text)[1])

3 获取请求的地址后面跟的参数的方法，以下方式获得qs就能够进一步直接获取本身想要的参数值：网站

import urllib.parse as parse
parse_query=parse.urlparse(url).query
qs=parse.parse_qs(parse_query)