爬虫基础篇—之理论篇

1.网络爬虫又称网络蜘蛛、网络机器人是一种按照一定的规则,自动抓取万维网信息的程序或脚本 2.搜索引擎就是通用网络爬虫,如:google、百度(通用爬虫) 通用爬虫具有一定的局限性 3.网络爬虫类型:通用网络爬虫、聚集网络爬虫、分布式网络爬 4.爬虫主要步骤: 1.对爬取目标的 url 定义 2.对网页数据分析与协议获取对应 HTML 3.对页面进行提取 HTML 页面有价值的数据 通用爬虫需要遵
相关文章
相关标签/搜索