python爬虫学习笔记二：Requests库详解及HTTP协议

时间 2019-11-13

标签 python 爬虫学习笔记 requests 详解 http 协议栏目 Python 繁體版

原文原文链接

Requests库的安装：https://mp.csdn.net/postedit/83715574python

r=requests.get(url,params=None,**kwargs)服务器

这个r是Response对象网络

url ：拟获取页面的url连接app

params：url中的额外参数，字典或字节流格式，可选框架

**kwargs：12个控制访问的参数post

Requests库的2个重要对象网站

Requests库的7个主要方法


方法	说明
requests.request()	构造一个请求，支撑一下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

Response对象包含爬虫返回的内容ui

Response对象属性：编码

r.status_code HTTP请求的返回状态，200表示连接成功，404表示失败，返回不为200都是失败的url

r.text HTTP响应内容的字符串形式，即url对应的页面内容

r.encoding 从HTTP header中猜想的响应内容编码方式

r.apparent_encoding 从内容中分析出响应内容编码方式（备选编码方式）

r.content HTTP响应内容的二进制形式

理解Requests库的异常

异常	说明
requests.ConnectionError	网络链接错误异常，如DNS查询失败、拒绝链接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	链接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

理解Response对象很是重要。

理解Requests库的异常，通用代码框架：

r.raise_for_status() 若是不是200，产生异常requests.HTTPError ，用这个结合try catch能够抛出异常，写在try里面，判断网站的响应状态，若是未响应抛出异常，执行catch里面的方法。

import requests
def getHTMLText(url)
    try:
        r=requests.get（url，timeout=30）
        r.raise_for_status()    #若是状态不是200，引起HTTPError异常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if _name_=="_main_"：
    url="http://www.baidu.com"
    print(getHTMLText(url))

HTTP协议

url格式：http://host[:port][path]

port：端口号，缺省端口为80

path：请求资源的路径

url是经过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源

HTTP协议对资源的操做

方法说明

GET 请求获取URL位置的资源

HEAD 请求获取URL位置资源的响应消息报告，即获取该资源的头部信息

POST 请求向URL位置的资源后附加新的数据

PUT 请求向URL位置储存一个资源，覆盖原URL位置的资源

PATCH 请求局部更新URL位置的资源，即改变该处资源的部份内容

DELETE 请求删除URL位置存储的资源

理解PATCH和PUT的区别！

head和get是最经常使用到的！