python爬虫学习笔记（一）

时间 2021-07-14 标签 python

HTTP协议与requests库

HTTP是一个基于“请求与响应”模式的，无状态的应用层协议

HTTP协议采用URL作为定位网络资源的标识

host:表示合法的Internet主机域名或IP地址

port:端口号，缺省为80

path:请求资源的路径（服务器内部路径）

URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。就好比电脑里一个文件的路径，只不过这个文件是存在互联网上。

requests库是目前爬取网页比较好的第三方库，http://www.python-requests.org