python爬虫学习笔记(一)

HTTP协议与requests库

HTTP(Hypertext Transfer Protocol)超文本传输协议

HTTP是一个基于“请求与响应”模式的,无状态的应用层协议

HTTP协议采用URL作为定位网络资源的标识

URL格式     http://host [:port] [path]

host:表示合法的Internet主机域名或IP地址

port:端口号,缺省为80

path:请求资源的路径(服务器内部路径)

HTTP URL理解:

URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。就好比电脑里一个文件的路径,只不过这个文件是存在互联网上。

在HTTP协议的“世界”里,网络通道和服务器,它能看到的就是URL链接和对URL链接的相关操作

requests库介绍

requests库是目前爬取网页比较好的第三方库,http://www.python-requests.org

requests库其实只有“一个”方法,其余方法都是由request方法封装的

requests库的方法跟HTTP协议一一对应