urllib模块

时间 2019-12-02

标签 urllib 模块繁體版

原文原文链接

1、urllib介绍

　　urllib是python中自带的一个基于爬虫的模块，html

　　做用：urllib 模块是一个高级的 web 交流库，其核心功能就是模仿web浏览器等客户端，去请求相应的资源，并返回一个类文件对象。可使用代码模拟浏览器发起请求。python

　　详见官网资料：2.7.5：urllib — Open arbitrary resources by URLweb

　　　　　　　　　3.7.1：urllib — URL handling modulesajax

一、包含模块

　　urllib模块包括如下子模块：
　　（1）urllib.request 请求模块
　　（2）urllib.error 异常处理模块
　　（3）urllib.parse url解析模块
　　（4）urllib.robotparser robots.txt解析模块json

　　其中最经常使用的两个子模块是：request、parse。浏览器

`二、使用流程`

　　（1）指定url服务器

　　（2）发起请求：针对指定的url发起一个请求cookie

　　（3）获取页面数据：获取服务器响应回来的页面数据负载均衡

　　（4）持久化存储框架

2、urllib使用示例

一、需求：爬取搜狗首页的页面数据（ssl证书报错）

import urllib.request
import ssl
import os

ssl._create_default_https_context = ssl._create_unverified_context

# 1.指定url
url = "https://www.sogou.com/"

# 2.发起请求：urlopen()能够根据指定的url发起请求，且发回一个响应对象
# 出现报错：urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:749)>
response = urllib.request.urlopen(url=url)

# 3.获取页面数据：read函数返回的就是响应对象中存储的数据
page_text = response.read()

# 4.持久化存储
# print(page_text)
file_path = os.path.join('first_Jupyter', "sougou.html")
with open(file_path, "wb") as fp:
    fp.write(page_text)
    print("写入数据成功")

注意：

（1）引入ssl解决urllib.urlopen报错

　　不添加ssl执行会报错，SSL: CERTIFICATE_VERIFY_FAILED。Python 升级到 2.7.9 以后引入了一个新特性，当使用urllib.urlopen打开一个 https 连接时，会验证一次 SSL 证书。而当目标网站使用的是自签名的证书时就会抛出此异常。

　　解决方案有以下两种：

# 1）使用ssl建立未经验证的上下文，在urlopen中传入上下文参数
import ssl

context = ssl._create_unverified_context()
webPage = urllib.request.urlopen(req,context=context)

# 2）全局取消证书验证
import ssl

ssl._create_default_https_context = ssl._create_unverified_context

　　另外，若是用的是requests模块的get方法，里面有一个verify参数，将其设成False就能够了。

（2）持久化存储将爬取的html数据保存在sougou.html中

　　浏览器打开显示效果以下：

二、需求：爬取指定词条所对应的页面数据（涉及url编码处理）

import urllib.request
import urllib.parse
import ssl

ssl._create_default_https_context = ssl._create_unverified_context

# 指定url
# url = "https://www.sogou.com/web?query=人民币"
url = 'https://www.sogou.com/web?query='

# url特性：url不能够存在非ASCII编码的字符数据
word = urllib.parse.quote("人民币")   # 用quote对非ascii的字符进行转码
url += word   # 转码结果再拼接出有效的url

# 发请求
response = urllib.request.urlopen(url=url)

# 获取页面数据
page_text = response.read()

with open('renminbi.html','wb') as fp:
    fp.write(page_text)

注意：

（1）url编码处理

　　url特性：url不能够存在非ASCII编码的字符数据。若是存在则该url无效。若是对其发起请求，则会报以下错误：

UnicodeEncodeError: 'ascii' codec can't encode characters in position 15-17: ordinal not in range

　　因此必须对url中的非ascii的数据进行ascii的编码，则该url方可被发起请求。

　　解决方法以下所示：

# 指定url
# url = "https://www.sogou.com/web?query=人民币"
url = 'https://www.sogou.com/web?query='

# url特性：url不能够存在非ASCII编码的字符数据
word = urllib.parse.quote("人民币")   # 用quote对非ascii的字符进行转码
url += word   # 转码结果再拼接出有效的url

（2）打开renminbi.html文件显示以下

三、反爬机制

　　网站检查请求的UA，若是发现UA是爬虫程序，则拒绝提供网站数据。

　　User-Agent参数，简称UA：当前请求所对应的请求载体的身份标识。

　　若是咱们经过浏览器发起的请求，则该请求的载体为当前浏览器，则UA参数的值代表的是当前浏览器的身份标识表示的一串数据。若是咱们使用爬虫程序发起的一个请求，则该请求的载体为爬虫程序，那么该请求的UA为爬虫程序的身份标识表示的一串数据。有些网站会经过辨别请求的UA来判别该请求的载体是否为爬虫程序，若是为爬虫程序，则不会给该请求返回响应，那么咱们的爬虫程序则也没法经过请求爬取到该网站中的数据值，这也是反爬虫的一种初级技术手段。那么为了防止该问题的出现，则咱们能够给爬虫程序的UA进行假装，假装成某款浏览器的身份标识。

（1）Network(当前浏览器的抓包工具)

　　该工具用于抓取当前浏览器发起的任意请求。

　　查看某一个请求的user-agent请求头信息所对应的键值数据（表明了当前请求载体的身份标识）：

（2）Network抓包工具选项卡

　　Headers选项卡包含了Response Headers(响应头信息)、Request Headers(本次请求携带的请求头信息)。　　

　　Response选项卡包含了服务器端响应给客户端的一些页面数据。

四、反反爬机制（ua身份假装）

　　将爬虫程序请求的UA假装为任意一款浏览器的UA。

　　上述案例中，咱们是经过request模块中的urlopen发起的请求，该请求对象为urllib中内置的默认请求对象，咱们没法对其进行UA进行更改操做。urllib还为咱们提供了一种自定义请求对象的方式，咱们能够经过自定义请求对象的方式，给该请求对象中的UA进行假装（更改）操做。　　

（1）自定义请求对象实现UA假装

import urllib.request

url = 'https://www.baidu.com/'

# UA假装
# 1.自制定一个请求对象
headers = {
    # 自定制请求头：存储任意的请求头信息
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'
}

# 该请求对象的UA进行了成功的假装
# Request()会返回一个自制定的请求对象，url指定url，headers表示自定制请求头信息
request = urllib.request.Request(url=url,headers=headers)

# 2.针对自制定的请求对象发起请求
response = urllib.request.urlopen(request)

print(response.read())

（2）封装自定义的请求头信息的字典

　　将浏览器的UA数据获取，封装到一个字典中。该UA值能够经过抓包工具或者浏览器自带的开发者工具中获取某请求，从中获取UA的值。

　　在headers字典中能够封装任意的请求头信息。

3、urlib模块发起的POST请求（带参数）

一、需求：爬取百度翻译的翻译结果

import urllib.request
import urllib.parse

# 1.指定url
url = 'https://fanyi.baidu.com/sug'

# post请求携带的参数进行处理  流程：
# (1)将post请求参数封装到字典
data = {
    'kw':'西瓜'
}
# (2)使用parse模块中的urlencode(返回值类型为str)进行编码处理
data = urllib.parse.urlencode(data)
# (3)将步骤2的编码结果转换成byte类型
data = data.encode()

# 2.发起post请求
# urlopen函数data参数：表示的就是通过处理以后的post请求携带的参数
response = urllib.request.urlopen(url=url,data=data)  # 响应对象

response.read()

二、基于ajax的异步请求url获取

　　url对应的是针对词条发起的ajax请求对应的url。

　　XHR选项卡显示的是基于AJAX的POST请求。找到这些请求中携带参数是“西瓜”的那一个。

　　由此找到POST请求对应的url地址：

三、post请求携带的参数进行处理

# 流程：
# (1)将post请求参数封装到字典
data = {
    'kw':'西瓜'
}

# (2)使用parse模块中的urlencode(返回值类型为str)进行编码处理
data = urllib.parse.urlencode(data)

# (3)将步骤2的编码结果转换成byte类型
data = data.encode()

四、response.read()查看响应的数据

　　将上述数据，json格式化显示以下：

4、urllib模块的高级操做

　　通常不会使用基于urllib的代理和cookie操做，使用流程比较繁琐，效率也比较低。通常仍是使用requests模块和scrapy框架。

一、代理操做

（1）什么是代理？

　　代理就是第三方代替本体处理相关事务。例如：生活中的代理：代购，中介，微商......

（2）爬虫中为何须要使用代理？

　　一些网站会有相应的反爬虫措施，例如不少网站会检测某一段时间某个IP的访问次数，若是访问频率太快以致于看起来不像正常访客，它可能就会会禁止这个IP的访问。因此咱们须要设置一些代理IP，每隔一段时间换一个代理IP，就算IP被禁止，依然能够换个IP继续爬取。

（3）代理的分类

　　正向代理：代理客户端获取数据。正向代理是为了保护客户端防止被追求责任。

　　反向代理：代理服务器提供数据。反向代理是为了保护服务器或负责负载均衡。

import urllib.request
import urllib.parse

# 1.建立处理器对象，在其内部封装代理ip和端口
handler=urllib.request.ProxyHandler(proxies={'http':'95.172.58.224:52608'})

# 2.建立opener对象，而后使用该对象发起一个请求
opener=urllib.request.build_opener(handler)

url='http://www.baidu.com/s?ie=UTF-8&wd=ip'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
}
# 自制定请求对象
request = urllib.request.Request(url, headers=headers) 

# 3.使用opener对象发起请求，该请求对应的ip即为咱们设置的代理ip
response = opener.open(request)

with open('./daili.html','wb') as fp:
    fp.write(response.read())

二、cookie操做

（1）cookie的相关概念及做用

　　cookie概念：当用户经过浏览器首次访问一个域名时，访问的web服务器会给客户端发送数据，以保持web服务器与客户端之间的状态保持，这些数据就是cookie。

　　cookie做用：咱们在浏览器中，常常涉及到数据的交换，好比你登陆邮箱，登陆一个页面。咱们常常会在此时设置30天内记住我，或者自动登陆选项。那么它们是怎么记录信息的呢，答案就是今天的主角cookie了，Cookie是由HTTP服务器设置的，保存在浏览器中，但HTTP协议是一种无状态协议，在数据交换完毕后，服务器端和客户端的连接就会关闭，每次交换数据都须要创建新的连接。就像咱们去超市买东西，没有积分卡的状况下，咱们买完东西以后，超市没有咱们的任何消费信息，但咱们办了积分卡以后，超市就有了咱们的消费信息。cookie就像是积分卡，能够保存积分，商品就是咱们的信息，超市的系统就像服务器后台，http协议就是交易的过程。

（2）cookiejar对象及使用流程

　　cookiejar对象：

做用：自动保存请求中的cookie数据信息
注意：必须和handler和opener一块儿使用

　　cookiejar使用流程：

建立一个cookiejar对象

import http.cookiejar 
cj = http.cookiejar.CookieJar()

经过cookiejar建立一个handler

handler = urllib.request.HTTPCookieProcessor(cj)

根据handler建立一个opener

opener = urllib.request.build_opener(handler)

使用opener.open方法去发送请求，且将响应中的cookie存储到openner对象中，后续的请求若是使用openner发起，则请求中就会携带了cookie

（3）使用cookiejar实现爬取人人网我的主页页面数据

　　思路：

　　　　1.咱们须要使用爬虫程序对人人网的登陆时的请求进行一次抓取，获取请求中的cookie数据

　　　　2.在使用我的信息页的url进行请求时，该请求须要携带 1 中的cookie，只有携带了cookie后，服务器才可识别此次请求的用户信息，方可响应回指定的用户信息页数据

#使用cookiejar实现人人网的登录
import urllib.request
import urllib.parse
import http.cookiejar
cj = http.cookiejar.CookieJar() #请求中的cookie会自动存储到cj对象中
#建立处理器对象(携带cookiejar对象的)
handler=urllib.request.HTTPCookieProcessor(cj)
#建立opener对象 （携带cookiejar对象）
opener=urllib.request.build_opener(handler)

#要让cookiejar获取请求中的cookie数据值
url='http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201873958471'
#自定义一个请求对象，让该对象做为opener的open函数中的参数
data={
    "email":"www.zhangbowudi@qq.com",
    "icode":"",
    "origURL":"http://www.renren.com/home",
    "domain":"renren.com",
    "key_id":"1",
    "captcha_type":"web_login",
    "password":"40dc65b82edd06d064b54a0fc6d202d8a58c4cb3d2942062f0f7dd128511fb9b",
    "rkey":"41b44b0d062d3ca23119bc8b58983104",
  
 'f':"https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DpPKf2680yRLbbZMVdntJpyPGwrSk2BtpKlEaAuKFTsW%26wd%3D%26eqid%3Deee20f380002988c000000025b7cbb80"
}
data=urllib.parse.urlencode(data).encode()
request=urllib.request.Request(url,data=data)
opener.open(request)

#获取当前用户的二级子页面
s_url='http://www.renren.com/289676607/profile'
#该次请求中就携带了cookie
resonse=opener.open(s_url)

with open('./renren.html','wb') as fp:
    fp.write(resonse.read())