00_爬虫基本原理

什么是爬虫 请求网站并提取数据的自动化程序 爬虫分类 通用爬虫:不分类,比如百度搜索引擎 聚焦爬虫:是“⾯向特定主题”的⼀种⽹络 爬⾍程序。它与我们通常所说的爬⾍(通⽤爬⾍)的区别之处就在于, 聚焦爬⾍在实施⽹⻚抓取时要进⾏主题筛选。它尽量保证只抓取与主题相关的⽹⻚信息 爬虫的设计思路 首先确定需要爬取的网页URL地址 通过HTTP/HTTPS协议来获取对应的HTML页面 提取HTML页面里有用的
相关文章
相关标签/搜索