Python requests 模块html
requests 模块是咱们使用的 python爬虫 模块 能够完成市场进80%的爬虫需求。python
安装ajax
使用json
requests模块代码编写的流程:浏览器
-------------案例------------------------- import requests # 指定url url="https://www.sogou.com/" # 发起请求 response = requests.get(url) # 获取响应对象中的数据 page_text = response.text # 持久化存储 with open('./sogou.html','w',encoding='utf-8') as fp: fp.write() -------------------------------------------
参数缓存
# post 数据 response = requests.post(url=url,data=data,headers=headers) # get 数据 response = requests.get(url=url,data=data,headers=headers) # 返回二进制数据 response.content # 返回字符串数据 response.text # 返回json对象 response.json()
其余了解服务器
一、该模块实现爬取数据前须要查找须要爬取数据的指定URL,可经过浏览器自带抓包功能。python爬虫
# 浏览器抓取 Ajax 请求
F12 --> Network --> XHR --> Name --> Response
二、上面的headers参数是进行UA假装为了反反爬post
反爬机制:UA检测 --> UA假装
三、下面是http咱们爬包是经常使用的请求头参数url
- accept: 浏览器经过这个头告诉服务器,他所支持的数据类型
- Accept-Charset:浏览器经过这个头告诉服务器,它支持那种字符集
- Accept-Encoding:浏览器经过这个头告诉服务器,支持的压缩格式
- Accept-Language:浏览器经过这个头告诉服务器,他的语言环境
- Host:浏览器同过这个头告诉服务器,想访问哪台主机
- If-ModifiedSince:浏览器经过这个头告诉服务器,缓存数据的时间
- Heferer:浏览器经过这个头告诉服务器,客户及时那个页面来的,防盗链
- Connection:浏览器经过这个头告诉服务器,请求完后是断开连接仍是保持连接
- X-Requested-With:XMLHttpRequest 表明经过ajax方式进行访问
- User-Agent:请求载体的身份标识
持续跟进...