Python requests 模块

时间 2019-11-06

标签 python requests 模块栏目 Python 繁體版

原文原文链接

Python requests 模块html

　　requests 模块是咱们使用的 python爬虫模块能够完成市场进80%的爬虫需求。python

安装ajax

pip install requests

使用json

requests模块代码编写的流程：浏览器

- 指定url
- 发起请求
- 获取响应对象中的数据
- 持久化存储

-------------案例-------------------------
import requests
# 指定url
url="https://www.sogou.com/"
# 发起请求
response = requests.get(url)
# 获取响应对象中的数据
page_text = response.text
# 持久化存储
with open('./sogou.html','w',encoding='utf-8') as fp:
    fp.write()
-------------------------------------------

参数缓存

# post 数据
response = requests.post(url=url,data=data,headers=headers)

# get 数据
response = requests.get(url=url,data=data,headers=headers)

# 返回二进制数据
response.content  

# 返回字符串数据    
response.text    

# 返回json对象     
response.json()

其余了解服务器

一、该模块实现爬取数据前须要查找须要爬取数据的指定URL，可经过浏览器自带抓包功能。python爬虫

# 浏览器抓取 Ajax 请求
F12 --> Network --> XHR --> Name --> Response

二、上面的headers参数是进行UA假装为了反反爬post

反爬机制：UA检测 --> UA假装

三、下面是http咱们爬包是经常使用的请求头参数url

　　- accept: 浏览器经过这个头告诉服务器，他所支持的数据类型

　　- Accept-Charset：浏览器经过这个头告诉服务器，它支持那种字符集

　　- Accept-Encoding：浏览器经过这个头告诉服务器，支持的压缩格式

　　- Accept-Language：浏览器经过这个头告诉服务器，他的语言环境

　　- Host：浏览器同过这个头告诉服务器，想访问哪台主机

　　- If-ModifiedSince：浏览器经过这个头告诉服务器，缓存数据的时间

　　- Heferer：浏览器经过这个头告诉服务器，客户及时那个页面来的，防盗链

　　- Connection：浏览器经过这个头告诉服务器，请求完后是断开连接仍是保持连接

　　- X-Requested-With：XMLHttpRequest 表明经过ajax方式进行访问

　　- User-Agent：请求载体的身份标识

持续跟进...