python3——urllib模块的网络爬虫

时间 2019-11-05

标签 python3 python urllib 模块网络爬虫栏目 Python 繁體版

原文原文链接

urllib

urllib模块是python3的URL处理包html

其中：python

一、urllib.request主要是打开和阅读urls

我的平时主要用的1：chrome

打开对应的URL：urllib.request.open(url)浏览器

用urllib.request.build_opener([handler, ...])，来假装成对应的浏览器函数

import urllib
#要假装成的浏览器(我这个是用的chrome)
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
url='http://hotels.ctrip.com/'
opener = urllib.request.build_opener()
#将要假装成的浏览器添加到对应的http头部
opener.addheaders=[headers]
#读取相应的url
data = opener.open(url).read()
#将得到的html解码为utf-8
data=data.decode('utf-8')
print(data)

二、urllib.parse主要是用来解析url

主要方法：
ui

urllib.parse.urlparse(urlstring)url

功能：将对应的URL解析成六部分，并以元组的数据格式返回来。(在功能上和urlsplit()几乎如出一辙)spa

import urllib
o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())

对应的结果：code

ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html
htm

二、构建一个新的url——urllib.parse.urljoin(base, url)

参数：base:基本的URL连接

url:另外一个url

from urllib.parse import urljoin
a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')
print(a)

结果：http://www.cwi.nl/%7Eguido/FAQ.html

这个函数在爬虫的时候应该方便多了，我以前用的是比较笨的方法直接字符串拼接

三、异常处理 urllib.error

用 try-except来捕捉异常

主要的错误方式就两种 URLError和HTTPError

由于HTTPError是URLError的子类，因此URLError应该写在HttpError后面,说白了就是找到儿子必定知道父亲，找到父亲，不必定知道儿子。

try:
    data=urllib.request.urlopen(url)
    print(data.read().decode('utf-8'))
except urllib.error.HTTPError as e:
    print(e.code)
except urllib.error.URLError as e:
    print(e.reason)

结果：[WinError 10060] 因为链接方在一段时间后没有正确答复或链接的主机没有反应，链接尝试失败。

若是捕获到了HTTPError，则输出code，不会再处理URLError异常。若是发生的不是HTTPError，则会去捕获URLError异常，输出错误缘由