爬虫学习笔记1-了解爬虫以及Http协议

1.了解爬虫 爬虫的概念:模拟浏览器,发送请求,获取响应 爬虫的作用:数据采集、软件测试、网络安全…… 爬虫的分类: 通用爬虫: 搜索引擎的主要组成,作用就是将互联网的上页面整体的爬取下来之后,保存到本地 聚焦爬虫: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。 爬虫的流程: 1)获取一个url 2)向url发送请求,并获取响应(需要http协议) 3)如果从
相关文章
相关标签/搜索