HTTP 超文本传输协议 默认端口号:80 HTTPS HTTP + SSL(安全套接字层) 默认端口号:443
HTTPS比HTTP更安全,可是性能更低
HTTP常见请求头
1. Host (主机和端口号) 2. Connection (连接类型) 3. Upgrade-Insecure-Requests (升级为HTTPS请求) 4. User-Agent (浏览器名称) 5. Accept (传输文件类型) 6. Referer (页面跳转处) 7. Accept-Encoding(文件编解码格式) 8. Cookie (Cookie) 9. x-requested-with :XMLHttpRequest (是Ajax 异步请求)
------------------------------ajax
爬虫的分类:聚焦爬虫和通类爬虫-浏览器
--------------------------------安全
微指数-新浪异步
-----------------------------------性能
robots.txt网站
Robots协议:网站经过Robots协议告诉搜索引擎哪些页面能够抓取,哪些页面不能抓取。搜索引擎
------------------------------------url
爬虫是模拟浏览器发送请求,获取响应spa
url--->发送请求,获取响应--->提取数据---》保存code
发送请求,获取响应--->提取url
------------------------------------
当前url地址对应的响应中
其余的url地址对应的响应中
好比ajax请求中
js生成的
部分数据在响应中
所有经过js生成
-----------------------------------------------