python爬虫系列(1.1-urllib模块经常使用方法的介绍)

时间 2019-11-16

标签 python 爬虫系列 1.1 urllib 模块经常使用方法介绍栏目 Python 繁體版

原文原文链接

1、关于`urllib`中经常使用方法的介绍

一、urlopen网络请求html

urlopen方法是网络请求的方法,默认是get请求,若是传递了data是post请求python

from urllib import request

if __name__ == "__main__":
    response = request.urlopen('http://www.baidu.com')
    print(response.read())
复制代码

二、urlretrieve下载文件网络

from urllib import request

if __name__ == "__main__":
    # 下载整个网页
    request.urlretrieve('http://www.baidu.com', 'baidu.html')
    # 下载图片
    request.urlretrieve('http://www.baidu.com/img/bd_logo1.png', 'baidu.png')
复制代码

2、关于编码的处理

一、urlencode将字典类型数据转换为parsed模式post

from urllib import parse

if __name__ == "__main__":
    dict1 = {
        "name": "hello",
        "age": "20",
        "gender": "man"
    }
    re = parse.urlencode(dict1)
    print(re) # name=hello&age=20&gender=man
复制代码

二、parse_qs和parse_qsl反序列化编码

from urllib import parse

if __name__ == "__main__":
    dict1 = {
        "name": "hello",
        "age": "20",
        "gender": "man"
    }
    re = parse.urlencode(dict1)
    print(re)
    print(parse.parse_qs(re))
复制代码

3、切割`url`的方法

一、urlsplit和urlparse方法url

from urllib import request, parse

if __name__ == "__main__":
    url = 'http://www.baidu.com?name=hello&age=20'
    print(parse.urlsplit(url))
    print(parse.urlparse(url))

# 输出
# SplitResult(scheme='http', netloc='www.baidu.com', path='', query='name=hello&age=20', fragment='')
# ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='name=hello&age=20', fragment='')
复制代码

python爬虫系列(1.1-urllib模块经常使用方法的介绍)

1、关于urllib中经常使用方法的介绍

2、关于编码的处理

3、切割url的方法

4、更多关于python爬虫文章能够访问

1、关于`urllib`中经常使用方法的介绍

3、切割`url`的方法

4、更多关于`python`爬虫文章能够访问