爬虫就是请求网站并提取数据的自动化程序json
经过HTTP库向目标站点发送请求,即发送一个Request。浏览器
请求能够包含额外的headers等信息,等待服务器相应服务器
服务器接到请求后,会返回一个Response,Response的内容就是所要获取的页面内容。异步
返回的Response多是HTML、json、二进制数据(图片视频)等类型网站
根据获得的Response类型,选择对应的方法进行解析url
将咱们想要的数据提取出来进行保存。视频
最多见的请求方式是GET和POST。除此以外还有其余的方式,好比HEAD、PUT、DELETE、OPTIONS等图片
GET和POST最大的区别在于:ip
a. GET将因此请求的参数都放在url里;POST将因此请求的参数放在表单里资源
b. GET请求能够直接经过url访问;POST请求须要构建表单才能访问
url全称统一资源定位符。经过url得到网页/文档/图片等
请求头是请求时的头部信息。如User-Agent、Host、Cookies等信息。
网页在进行反爬虫时,请求头是一个很是重要的断定元素
通常来讲,在使用POST请求时,须要传入相应的请求体来得到Response
2XX:成功访问
3XX:重定向
4XX:请求错误
5XX:服务器错误
如内容类型、内容长度、服务器信息等
最主要的部分,包含了请求资源的内容,如网页HTML、图片二进制数据等
1)AjAX异步加载分析
2)Selenium/WebDriver 模拟浏览器操做
3)Splash模拟JS
4)PyV八、Ghost.py模拟加载JS