爬虫随笔 一

爬虫的概念 爬虫是模拟浏览器发送请求,获取响应 爬虫的分类 通用爬虫 聚焦爬虫 爬虫的流程 url—>发送请求,获取响应—>提取数据—>保存 发送请求,获取响应—>提取url 通用搜索引擎的局限性 通用搜索引擎所返回的网页里90%的内容无用。 图片、音频、视频多媒体的内容通用搜索引擎无能为力 不同用户搜索的目的不全相同,但是返回内容相同 爬虫要根据当前url地址对应的响应为准 ,当前url地址的e
相关文章
相关标签/搜索