python爬虫系列(1.1-urllib模块经常使用方法的介绍)

1、关于urllib中经常使用方法的介绍

  • 一、urlopen网络请求html

    urlopen方法是网络请求的方法,默认是get请求,若是传递了datapost请求python

    from urllib import request
    
    if __name__ == "__main__":
        response = request.urlopen('http://www.baidu.com')
        print(response.read())
    复制代码
  • 二、urlretrieve下载文件网络

    from urllib import request
    
    if __name__ == "__main__":
        # 下载整个网页
        request.urlretrieve('http://www.baidu.com', 'baidu.html')
        # 下载图片
        request.urlretrieve('http://www.baidu.com/img/bd_logo1.png', 'baidu.png')
    复制代码

2、关于编码的处理

  • 一、urlencode将字典类型数据转换为parsed模式post

    from urllib import parse
    
    if __name__ == "__main__":
        dict1 = {
            "name": "hello",
            "age": "20",
            "gender": "man"
        }
        re = parse.urlencode(dict1)
        print(re) # name=hello&age=20&gender=man
    复制代码
  • 二、parse_qsparse_qsl反序列化编码

    from urllib import parse
    
    if __name__ == "__main__":
        dict1 = {
            "name": "hello",
            "age": "20",
            "gender": "man"
        }
        re = parse.urlencode(dict1)
        print(re)
        print(parse.parse_qs(re))
    复制代码

3、切割url的方法

  • 一、urlspliturlparse方法url

    from urllib import request, parse
    
    if __name__ == "__main__":
        url = 'http://www.baidu.com?name=hello&age=20'
        print(parse.urlsplit(url))
        print(parse.urlparse(url))
    
    # 输出
    # SplitResult(scheme='http', netloc='www.baidu.com', path='', query='name=hello&age=20', fragment='')
    # ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='name=hello&age=20', fragment='')
    复制代码

4、更多关于python爬虫文章能够访问

相关文章
相关标签/搜索