python爬虫入门一：爬虫基本原理

时间 2019-11-08

标签 python 爬虫入门基本原理栏目 Python 繁體版

原文原文链接

1. 什么是爬虫

爬虫就是请求网站并提取数据的自动化程序json

经过HTTP库向目标站点发送请求，即发送一个Request。浏览器

请求能够包含额外的headers等信息，等待服务器相应服务器

服务器接到请求后，会返回一个Response，Response的内容就是所要获取的页面内容。异步

返回的Response多是HTML、json、二进制数据(图片视频)等类型网站

根据获得的Response类型，选择对应的方法进行解析url

将咱们想要的数据提取出来进行保存。视频

最多见的请求方式是GET和POST。除此以外还有其余的方式，好比HEAD、PUT、DELETE、OPTIONS等图片

GET和POST最大的区别在于：ip

a. GET将因此请求的参数都放在url里；POST将因此请求的参数放在表单里资源

b. GET请求能够直接经过url访问；POST请求须要构建表单才能访问

url全称统一资源定位符。经过url得到网页/文档/图片等

请求头是请求时的头部信息。如User-Agent、Host、Cookies等信息。

网页在进行反爬虫时，请求头是一个很是重要的断定元素

通常来讲，在使用POST请求时，须要传入相应的请求体来得到Response

2XX：成功访问

3XX：重定向

4XX：请求错误

5XX：服务器错误

如内容类型、内容长度、服务器信息等

最主要的部分，包含了请求资源的内容，如网页HTML、图片二进制数据等

1）AjAX异步加载分析

2）Selenium/WebDriver 模拟浏览器操做

3）Splash模拟JS

4）PyV八、Ghost.py模拟加载JS