爬虫基础知识

HTTP       超文本传输协议                 默认端口号:80

HTTPS      HTTP + SSL(安全套接字层)       默认端口号:443

HTTPS比HTTP更安全,可是性能更低
HTTP常见请求头

1
. Host (主机和端口号) 2. Connection (连接类型) 3. Upgrade-Insecure-Requests (升级为HTTPS请求) 4. User-Agent (浏览器名称) 5. Accept (传输文件类型) 6. Referer (页面跳转处) 7. Accept-Encoding(文件编解码格式) 8. Cookie (Cookie) 9. x-requested-with :XMLHttpRequest (是Ajax 异步请求)

------------------------------ajax

爬虫的分类:聚焦爬虫和通类爬虫-浏览器

--------------------------------安全

微指数-新浪异步

-----------------------------------性能

robots.txt网站

Robots协议:网站经过Robots协议告诉搜索引擎哪些页面能够抓取,哪些页面不能抓取。搜索引擎

------------------------------------url

爬虫的概念

  • 爬虫是模拟浏览器发送请求,获取响应spa

爬虫的流程

  • url--->发送请求,获取响应--->提取数据---》保存code

  • 发送请求,获取响应--->提取url

------------------------------------

爬虫要根据当前url地址对应的响应为准 ,当前url地址的elements的内容和url的响应不同

页面上的数据在哪里

  • 当前url地址对应的响应中

  • 其余的url地址对应的响应中

    • 好比ajax请求中

  • js生成的

    • 部分数据在响应中

    • 所有经过js生成

-----------------------------------------------

相关文章
相关标签/搜索