urllib是python中自带的一个基于爬虫的模块,html
做用:urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象。可使用代码模拟浏览器发起请求。python
详见官网资料:2.7.5:urllib
— Open arbitrary resources by URLweb
3.7.1:urllib
— URL handling modulesajax
urllib模块包括如下子模块:
(1)urllib.request 请求模块
(2)urllib.error 异常处理模块
(3)urllib.parse url解析模块
(4)urllib.robotparser robots.txt解析模块json
其中最经常使用的两个子模块是:request、parse。浏览器
二、使用流程
(1)指定url
服务器
(2)发起请求:针对指定的url发起一个请求
cookie
(3)获取页面数据:获取服务器响应回来的页面数据
负载均衡
(4)持久化存储
框架
import urllib.request import ssl import os ssl._create_default_https_context = ssl._create_unverified_context # 1.指定url url = "https://www.sogou.com/" # 2.发起请求:urlopen()能够根据指定的url发起请求,且发回一个响应对象 # 出现报错:urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:749)> response = urllib.request.urlopen(url=url) # 3.获取页面数据:read函数返回的就是响应对象中存储的数据 page_text = response.read() # 4.持久化存储 # print(page_text) file_path = os.path.join('first_Jupyter', "sougou.html") with open(file_path, "wb") as fp: fp.write(page_text) print("写入数据成功")
注意:
不添加ssl执行会报错,SSL: CERTIFICATE_VERIFY_FAILED。Python 升级到 2.7.9 以后引入了一个新特性,当使用urllib.urlopen打开一个 https 连接时,会验证一次 SSL 证书。而当目标网站使用的是自签名的证书时就会抛出此异常。
解决方案有以下两种:
# 1)使用ssl建立未经验证的上下文,在urlopen中传入上下文参数 import ssl context = ssl._create_unverified_context() webPage = urllib.request.urlopen(req,context=context) # 2)全局取消证书验证 import ssl ssl._create_default_https_context = ssl._create_unverified_context
另外,若是用的是requests模块的get方法,里面有一个verify参数,将其设成False就能够了。
浏览器打开显示效果以下:
import urllib.request import urllib.parse import ssl ssl._create_default_https_context = ssl._create_unverified_context # 指定url # url = "https://www.sogou.com/web?query=人民币" url = 'https://www.sogou.com/web?query=' # url特性:url不能够存在非ASCII编码的字符数据 word = urllib.parse.quote("人民币") # 用quote对非ascii的字符进行转码 url += word # 转码结果再拼接出有效的url # 发请求 response = urllib.request.urlopen(url=url) # 获取页面数据 page_text = response.read() with open('renminbi.html','wb') as fp: fp.write(page_text)
注意:
url特性:url不能够存在非ASCII编码的字符数据。若是存在则该url无效。若是对其发起请求,则会报以下错误:
UnicodeEncodeError: 'ascii' codec can't encode characters in position 15-17: ordinal not in range
因此必须对url中的非ascii的数据进行ascii的编码,则该url方可被发起请求。
解决方法以下所示:
# 指定url # url = "https://www.sogou.com/web?query=人民币" url = 'https://www.sogou.com/web?query=' # url特性:url不能够存在非ASCII编码的字符数据 word = urllib.parse.quote("人民币") # 用quote对非ascii的字符进行转码 url += word # 转码结果再拼接出有效的url
网站检查请求的UA,若是发现UA是爬虫程序,则拒绝提供网站数据。
User-Agent参数,简称UA:当前请求所对应的请求载体的身份标识。
若是咱们经过浏览器发起的请求,则该请求的载体为当前浏览器,则UA参数的值代表的是当前浏览器的身份标识表示的一串数据。若是咱们使用爬虫程序发起的一个请求,则该请求的载体为爬虫程序,那么该请求的UA为爬虫程序的身份标识表示的一串数据。有些网站会经过辨别请求的UA来判别该请求的载体是否为爬虫程序,若是为爬虫程序,则不会给该请求返回响应,那么咱们的爬虫程序则也没法经过请求爬取到该网站中的数据值,这也是反爬虫的一种初级技术手段。那么为了防止该问题的出现,则咱们能够给爬虫程序的UA进行假装,假装成某款浏览器的身份标识。
该工具用于抓取当前浏览器发起的任意请求。
查看某一个请求的user-agent请求头信息所对应的键值数据(表明了当前请求载体的身份标识):
Headers选项卡包含了Response Headers(响应头信息)、Request Headers(本次请求携带的请求头信息)。
Response选项卡包含了服务器端响应给客户端的一些页面数据。
将爬虫程序请求的UA假装为任意一款浏览器的UA。
上述案例中,咱们是经过request模块中的urlopen发起的请求,该请求对象为urllib中内置的默认请求对象,咱们没法对其进行UA进行更改操做。urllib还为咱们提供了一种自定义请求对象的方式,咱们能够经过自定义请求对象的方式,给该请求对象中的UA进行假装(更改)操做。
import urllib.request url = 'https://www.baidu.com/' # UA假装 # 1.自制定一个请求对象 headers = { # 自定制请求头:存储任意的请求头信息 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36' } # 该请求对象的UA进行了成功的假装 # Request()会返回一个自制定的请求对象,url指定url,headers表示自定制请求头信息 request = urllib.request.Request(url=url,headers=headers) # 2.针对自制定的请求对象发起请求 response = urllib.request.urlopen(request) print(response.read())
将浏览器的UA数据获取,封装到一个字典中。该UA值能够经过抓包工具或者浏览器自带的开发者工具中获取某请求,从中获取UA的值。
在headers字典中能够封装任意的请求头信息。
import urllib.request import urllib.parse # 1.指定url url = 'https://fanyi.baidu.com/sug' # post请求携带的参数进行处理 流程: # (1)将post请求参数封装到字典 data = { 'kw':'西瓜' } # (2)使用parse模块中的urlencode(返回值类型为str)进行编码处理 data = urllib.parse.urlencode(data) # (3)将步骤2的编码结果转换成byte类型 data = data.encode() # 2.发起post请求 # urlopen函数data参数:表示的就是通过处理以后的post请求携带的参数 response = urllib.request.urlopen(url=url,data=data) # 响应对象 response.read()
url对应的是针对词条发起的ajax请求对应的url。
XHR选项卡显示的是基于AJAX的POST请求。找到这些请求中携带参数是“西瓜”的那一个。
由此找到POST请求对应的url地址:
# 流程: # (1)将post请求参数封装到字典 data = { 'kw':'西瓜' } # (2)使用parse模块中的urlencode(返回值类型为str)进行编码处理 data = urllib.parse.urlencode(data) # (3)将步骤2的编码结果转换成byte类型 data = data.encode()
将上述数据,json格式化显示以下:
通常不会使用基于urllib的代理和cookie操做,使用流程比较繁琐,效率也比较低。通常仍是使用requests模块和scrapy框架。
(1)什么是代理?
代理就是第三方代替本体处理相关事务。例如:生活中的代理:代购,中介,微商......
(2)爬虫中为何须要使用代理?
一些网站会有相应的反爬虫措施,例如不少网站会检测某一段时间某个IP的访问次数,若是访问频率太快以致于看起来不像正常访客,它可能就会会禁止这个IP的访问。因此咱们须要设置一些代理IP,每隔一段时间换一个代理IP,就算IP被禁止,依然能够换个IP继续爬取。
(3)代理的分类
正向代理:代理客户端获取数据。正向代理是为了保护客户端防止被追求责任。
反向代理:代理服务器提供数据。反向代理是为了保护服务器或负责负载均衡。
import urllib.request import urllib.parse # 1.建立处理器对象,在其内部封装代理ip和端口 handler=urllib.request.ProxyHandler(proxies={'http':'95.172.58.224:52608'}) # 2.建立opener对象,而后使用该对象发起一个请求 opener=urllib.request.build_opener(handler) url='http://www.baidu.com/s?ie=UTF-8&wd=ip' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36', } # 自制定请求对象 request = urllib.request.Request(url, headers=headers) # 3.使用opener对象发起请求,该请求对应的ip即为咱们设置的代理ip response = opener.open(request) with open('./daili.html','wb') as fp: fp.write(response.read())
cookie概念:当用户经过浏览器首次访问一个域名时,访问的web服务器会给客户端发送数据,以保持web服务器与客户端之间的状态保持,这些数据就是cookie。
cookie做用:咱们在浏览器中,常常涉及到数据的交换,好比你登陆邮箱,登陆一个页面。咱们常常会在此时设置30天内记住我,或者自动登陆选项。那么它们是怎么记录信息的呢,答案就是今天的主角cookie了,Cookie是由HTTP服务器设置的,保存在浏览器中,但HTTP协议是一种无状态协议,在数据交换完毕后,服务器端和客户端的连接就会关闭,每次交换数据都须要创建新的连接。就像咱们去超市买东西,没有积分卡的状况下,咱们买完东西以后,超市没有咱们的任何消费信息,但咱们办了积分卡以后,超市就有了咱们的消费信息。cookie就像是积分卡,能够保存积分,商品就是咱们的信息,超市的系统就像服务器后台,http协议就是交易的过程。
cookiejar对象:
做用:自动保存请求中的cookie数据信息
注意:必须和handler和opener一块儿使用
cookiejar使用流程:
建立一个cookiejar对象
import http.cookiejar cj = http.cookiejar.CookieJar()
经过cookiejar建立一个handler
handler = urllib.request.HTTPCookieProcessor(cj)
根据handler建立一个opener
opener = urllib.request.build_opener(handler)
使用opener.open方法去发送请求,且将响应中的cookie存储到openner对象中,后续的请求若是使用openner发起,则请求中就会携带了cookie
思路:
1.咱们须要使用爬虫程序对人人网的登陆时的请求进行一次抓取,获取请求中的cookie数据
2.在使用我的信息页的url进行请求时,该请求须要携带 1 中的cookie,只有携带了cookie后,服务器才可识别此次请求的用户信息,方可响应回指定的用户信息页数据
#使用cookiejar实现人人网的登录 import urllib.request import urllib.parse import http.cookiejar cj = http.cookiejar.CookieJar() #请求中的cookie会自动存储到cj对象中 #建立处理器对象(携带cookiejar对象的) handler=urllib.request.HTTPCookieProcessor(cj) #建立opener对象 (携带cookiejar对象) opener=urllib.request.build_opener(handler) #要让cookiejar获取请求中的cookie数据值 url='http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201873958471' #自定义一个请求对象,让该对象做为opener的open函数中的参数 data={ "email":"www.zhangbowudi@qq.com", "icode":"", "origURL":"http://www.renren.com/home", "domain":"renren.com", "key_id":"1", "captcha_type":"web_login", "password":"40dc65b82edd06d064b54a0fc6d202d8a58c4cb3d2942062f0f7dd128511fb9b", "rkey":"41b44b0d062d3ca23119bc8b58983104", 'f':"https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DpPKf2680yRLbbZMVdntJpyPGwrSk2BtpKlEaAuKFTsW%26wd%3D%26eqid%3Deee20f380002988c000000025b7cbb80" } data=urllib.parse.urlencode(data).encode() request=urllib.request.Request(url,data=data) opener.open(request) #获取当前用户的二级子页面 s_url='http://www.renren.com/289676607/profile' #该次请求中就携带了cookie resonse=opener.open(s_url) with open('./renren.html','wb') as fp: fp.write(resonse.read())