1、cookiepython
1.requests能够自动处理cookie信息git
import requests rsp = requests.get("http://www.baidu.com") #若是对方服务器给传送过来cookie信息,则能够同经过反馈的cookie属性获得 #返回一个cookiejar的实例 cookiejar = rsp.cookies print(cookiejar) #能够将cookiejar转换为字典 cookiedict = requests.utils.dict_from_cookiejar(cookiejar) print(cookiedict)
2、sessiongithub
1.跟服务器端的session不是一个东西正则表达式
2.模拟一次会话,从客户端浏览器连接服务器开始,到客户端浏览器断开浏览器
3.能让咱们跨请求保持某些参数,好比在同一个session实例发出的全部请求之间保持cookie服务器
import requests #建立session对象,能够暴捶cookie的值 ss = requests.session() headers = {"User-Agent":"xxxxxxxxxxxxxxxxxxxxxxxxx"} data = {"name":"xxxxxxxxxxxxxxxxxxxxxx"} #此时,由建立的session管理请求,负责发出请求 ss.post("http://www.baidu.com",data=data,headers=headers) rsp = ss.get("xxxxxxxxxxxxx")
3、https请求验证ssl证书微信
1.参数verify负责表示是否须要验证ssl证书,默认是Truecookie
2.若是不须要验证ssl证书,则设置成False表示关闭session
import requests rsp1 = requests.get("https://www.baidu.com",verify=False) #若是用verify=True访问12306,会报错,由于它的证书有问题
4、数据提取post
1.页面解析和数据提取
(1)结构数据:现有的结构,后有的数据
例如:JSON文件(JSON Path)(转化为Python类型进行操做)、XML文件(转换为python类型(xmltodict)、Xpath、CSS选择器、正则
(2)非结构化数据:先有数据,后有的结构
例如:文本文件、电话号码、邮箱地址(一般处理此类数据,使用正则表达式)、Html文件(使用正则、Xpath、CSS选择器)
5、源码
Reptitle11_1_cookieAndSession.py
Reptitle11_2_SessionAnalysis.py
https://github.com/ruigege66/PythonReptile/blob/master/Reptitle11_1_cookieAndSession.py
https://github.com/ruigege66/PythonReptile/blob/master/Reptitle11_2_SessionAnalysis.py
2.CSDN:https://blog.csdn.net/weixin_44630050
3.博客园:https://www.cnblogs.com/ruigege0000/
4.欢迎关注微信公众号:傅里叶变换,我的公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料