Python基础入门教程之爬虫工作流程及常用的urllib模块

时间 2021-01-17

标签 Python Python入门教程 Python基础入门教程栏目 Python 繁體版

原文原文链接

根据使用场景，网络爬虫可分为通用爬虫（传统爬虫）和聚焦爬虫两种通用网络爬虫捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。但是大多数情况下，网页里面90%的内容对用户来说是无用的。聚焦爬虫需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的

>>阅读原文<<