爬虫实际上是向网络服务器发送请求,服务器收到请求并返回请求结果的一个过程(详细可了解http协议等相关内容)。平时我们上网,输入网页(又叫域名或url)后按回车,稍等片刻即在浏览器中显示我们想要查看的内容,此即为爬虫的一个简单过程。但是程序员编写的爬虫程序有点不一样,我们一般用get或post来发送请求。
get:url中可带参数
post:url中不带参数,参数一般以dataframe形式放在headers里
import requests host = 'https://www.baidu.com' content = request.get(host) print(content)
断开网络连接,status = content, print status
(哭脸:失败了!)
headers即为请求头,请求头里包含系统,浏览器版本信息等,更加真实地模拟浏览器获取请求,chrome里按F12
图中3处useragent即为我们要的headers