requests库简介html
requests是使用Apache2 licensed 许可证的HTTP库。python
用python编写。数据库
比urllib2模块更简洁。浏览器
Request支持HTTP链接保持和链接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码。cookie
在python内置模块的基础上进行了高度的封装,从而使得python进行网络请求时,变得人性化,使用Requests能够垂手可得的完成浏览器可有的任何操做。网络
现代,国际化,友好。编码
requests会自动实现持久链接keep-aliveurl
requests库安装spa
pip install requests
第一个爬虫程序:爬取搜狗首页的页面数据code
import requests def main(): #一、指定url url='https://www.sogou.com/' #二、发起get请求,会返回一个相应对象 response=requests.get(url=url) #三、获取响应数据,调用响应对象的text属性,可获取页面源码数据 page_text=response.text print(page_text) #四、进行持久化存储,这里是写入文件,也能够存入数据库 with open('./sogou.html','w',encoding='utf-8') as fp: fp.write(page_text) print('爬虫结束!') if __name__=='__main__': main()
这样就能够自动获取到搜狗首页的数据了,下面是部分截图