Python爬虫 requests库基础

时间 2020-04-17

标签 python 爬虫 requests 基础栏目 Python 繁體版

原文原文链接

requests库简介html

requests是使用Apache2 licensed 许可证的HTTP库。python

用python编写。数据库

比urllib2模块更简洁。浏览器

Request支持HTTP链接保持和链接池，支持使用cookie保持会话，支持文件上传，支持自动响应内容的编码，支持国际化的URL和POST数据自动编码。cookie

在python内置模块的基础上进行了高度的封装，从而使得python进行网络请求时，变得人性化，使用Requests能够垂手可得的完成浏览器可有的任何操做。网络

现代，国际化，友好。编码

requests会自动实现持久链接keep-aliveurl

requests库安装spa

pip install requests

第一个爬虫程序：爬取搜狗首页的页面数据code

import requests
def main():
    #一、指定url
    url='https://www.sogou.com/'
    #二、发起get请求，会返回一个相应对象
    response=requests.get(url=url)
    #三、获取响应数据，调用响应对象的text属性，可获取页面源码数据
    page_text=response.text
    print(page_text)
    #四、进行持久化存储，这里是写入文件，也能够存入数据库
    with open('./sogou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬虫结束！')
if __name__=='__main__':
    main()

这样就能够自动获取到搜狗首页的数据了，下面是部分截图