爬虫基础知识

时间 2019-11-30

原文原文链接

HTTP       超文本传输协议                 默认端口号:80

HTTPS      HTTP + SSL(安全套接字层)       默认端口号：443

HTTPS比HTTP更安全，可是性能更低

HTTP常见请求头

1. Host (主机和端口号)
2. Connection (连接类型)
3. Upgrade-Insecure-Requests (升级为HTTPS请求)
4. User-Agent (浏览器名称) 5. Accept (传输文件类型)
6. Referer (页面跳转处)
7. Accept-Encoding（文件编解码格式）
8. Cookie （Cookie） 9. x-requested-with :XMLHttpRequest  (是Ajax 异步请求)

------------------------------ajax

爬虫的分类：聚焦爬虫和通类爬虫-浏览器

--------------------------------安全

微指数-新浪异步

-----------------------------------性能

robots.txt网站

Robots协议：网站经过Robots协议告诉搜索引擎哪些页面能够抓取，哪些页面不能抓取。搜索引擎

------------------------------------url

爬虫的概念

爬虫是模拟浏览器发送请求，获取响应spa

爬虫的流程

url--->发送请求，获取响应--->提取数据---》保存code
发送请求，获取响应--->提取url

------------------------------------

爬虫要根据当前url地址对应的响应为准，当前url地址的elements的内容和url的响应不同

页面上的数据在哪里

当前url地址对应的响应中
其余的url地址对应的响应中
- 好比ajax请求中
js生成的
- 部分数据在响应中
- 所有经过js生成

-----------------------------------------------

爬虫基础知识

爬虫的概念

爬虫的流程

爬虫要根据当前url地址对应的响应为准 ，当前url地址的elements的内容和url的响应不同

页面上的数据在哪里

爬虫要根据当前url地址对应的响应为准，当前url地址的elements的内容和url的响应不同