python3爬取1000个百度百科页面(一)

一、基本概念        爬虫:一段自动抓取互联网信息的程序 二、简单爬虫架构         1、URL管理器:管理已经爬取和未曾爬取的url,防止重复、循环抓取        python中set可以直接去除重复元素            2、网页下载器:将网页下载到本地,urllib2,request, 3、网页解析器:从网页中提取有价值的数据的工具,可以解析网页含有的url和数据,方式有
相关文章
相关标签/搜索