爬虫系统入门知识点

Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 抓取 这一步,你要明确要得到的内容是什么?是HTML源码,还是Json格式的字符串等。 1. 最基本的抓取 抓取大多数情况属于get请求,Python中自带urllib及urllib2这两个模块,基本上能满足一般的页面抓取。另外,requests也是非常有用的包,与此类似的,还有httplib2等等。   此外,对于带有查询字段的url
相关文章
相关标签/搜索