HTTP是一个基于“请求与响应”模式的,无状态的应用层协议
HTTP协议采用URL作为定位网络资源的标识
host:表示合法的Internet主机域名或IP地址
port:端口号,缺省为80
path:请求资源的路径(服务器内部路径)
URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。就好比电脑里一个文件的路径,只不过这个文件是存在互联网上。
requests库是目前爬取网页比较好的第三方库,http://www.python-requests.org