python3爬取1000个百度百科页面（一）

时间 2020-12-30

原文原文链接

一、基本概念爬虫：一段自动抓取互联网信息的程序二、简单爬虫架构１、URL管理器：管理已经爬取和未曾爬取的url，防止重复、循环抓取 python中set可以直接去除重复元素２、网页下载器：将网页下载到本地，urllib2,request, ３、网页解析器：从网页中提取有价值的数据的工具，可以解析网页含有的url和数据，方式有