先弄清楚本身为何要学习爬虫知识?- 基于专业版数据的特性,对业务数据进行测试分析,检验数据的准确性和有效性。python
对于零基础的小白,能够分为3个阶段来实现:正则表达式
--第一阶段:入门。 掌握必备的基础知识,如python基础、网络请求的基本原理算法
--第二阶段:模仿。看着别人的爬虫代码,弄懂,了解主流爬虫工具sql
--第三阶段:本身动手,根据本身的解题思路,独立设计爬虫系统数据库
知识储备json
python基础:基本语法,函数、类、list、dict等经常使用方法和类型服务器
HTML知识cookie
HTTP知识:爬虫的基本原理就是经过网络请求从远程服务器上下载数据的过程,因此须要了解http协议的基本原理网络
网络请求模块类库:(python自带)urllib、urllib二、httplib、Cookie,requests等函数
数据处理:
JSON数据:使用json;
HTML数据:能够使用BeautifulSoup、lxml等库处理;
XML数据:untangle、xmltodict等第三方库;
爬虫工具:Chrome或者Firefox的审查元素、跟踪请求信息等
数据清洗:正则表达式,re模块
持久化存储:
文件存储:csv文件,txt文件
数据库存储:sqlite、Mysql、MongoDB
攻克反爬虫策略:一般网站会设置有阻止爬数据的方式,如必须登陆、输入验证码、对请求速度作限制、对ip作限制、对数据加密处理等,因此此时就要求理解常见的加解密算法,http中的cookie、HTTP代理、各类HEADER等等
。。。
总之,学习爬虫是按部就班的过程