爬虫的工作流程

爬虫的工作流程(重点) 总结: 搜索引擎流程 与 聚焦爬虫流程的区别: 搜索引擎流程: 爬取范围: 整个网络, 见到URL就爬 保存的数据: 保存的是原始的HTML 预处理: 主要是 分词, 排名 聚焦爬虫流程 爬取范围: 特定的URL, 只有有需要的数据的URL,才爬取 保存的数据: 保存的是需要的数据.
相关文章
相关标签/搜索