学习Python爬虫 - 初识爬虫

先弄清楚本身为何要学习爬虫知识?- 基于专业版数据的特性,对业务数据进行测试分析,检验数据的准确性和有效性。python

对于零基础的小白,能够分为3个阶段来实现:正则表达式

--第一阶段:入门。 掌握必备的基础知识,如python基础、网络请求的基本原理算法

--第二阶段:模仿。看着别人的爬虫代码,弄懂,了解主流爬虫工具sql

--第三阶段:本身动手,根据本身的解题思路,独立设计爬虫系统数据库


知识储备json

  1. python基础:基本语法,函数、类、list、dict等经常使用方法和类型服务器

  2. HTML知识cookie

  3. HTTP知识:爬虫的基本原理就是经过网络请求从远程服务器上下载数据的过程,因此须要了解http协议的基本原理网络

  4. 网络请求模块类库:(python自带)urllib、urllib二、httplib、Cookie,requests等函数

  5. 数据处理:

    • JSON数据:使用json;

    • HTML数据:能够使用BeautifulSoup、lxml等库处理;

    • XML数据:untangle、xmltodict等第三方库;

  6. 爬虫工具:Chrome或者Firefox的审查元素、跟踪请求信息等

  7. 数据清洗:正则表达式,re模块

  8. 持久化存储:

    • 文件存储:csv文件,txt文件

    • 数据库存储:sqlite、Mysql、MongoDB

  9. 攻克反爬虫策略:一般网站会设置有阻止爬数据的方式,如必须登陆、输入验证码、对请求速度作限制、对ip作限制、对数据加密处理等,因此此时就要求理解常见的加解密算法,http中的cookie、HTTP代理、各类HEADER等等

 。。。


总之,学习爬虫是按部就班的过程