Python爬虫---理论基础

时间 2021-01-15

标签 python 爬虫栏目 Python 繁體版

原文原文链接

其实爬虫没有大家想象的那么复杂，有时候也就是几行代码的事儿，千万不要把自己吓倒了。这篇就清晰地讲解一下利用Python爬虫的理论基础。首先说明爬虫分为三个步骤，也就需要用到三个工具。利用网页下载器将网页的源码等资源下载。利用URL管理器管理下载下来的URL 利用网页解析器解析需要的URL，进而进行匹配。网页下载器网页下载器常用的有两个。一个是Python自带的urllib2模块；另一个是

>>阅读原文<<