python爬取数据须要注意的问题

1 爬取https的网站或是接口的时候,若是是不受信用的SSL证书,会报错,须要添加以下代码,以下代码能够保证当前代码块内全部的请求都自动屏蔽ssl证书问题:python

import ssl   # 这个是爬取https的连接须要的,以及下面一行代码
ssl._create_default_https_context = ssl._create_unverified_context

 

2 爬取jsonp的接口,返回的数据须要删除callback名字和最外层括号,能够经过如下方式过滤:json

text方法将取得的数据转为文本,而后re.match将字符串过滤掉callback名字和最外层括号,留下本来json部分的数据,而后经过json.loads将过滤出来的json转为python对象jsonp

import re
getOneSongInfoCallback=json.loads(re.match(".*?({.*}).*", requests.get(url, headers=headers).text)[1])

 

3 获取请求的地址后面跟的参数的方法,以下方式获得qs就能够进一步直接获取本身想要的参数值:网站

import urllib.parse as parse
parse_query=parse.urlparse(url).query
qs=parse.parse_qs(parse_query)
相关文章
相关标签/搜索