<读书笔记>如何入门爬虫?

大部分爬虫框架都是python

  1. 发送请求
  2. 得到页面
  3. 解析页面
  4. 下载内容
  5. 存储内容

定个宏伟目标mysql

  1. 淘宝1000页
  2. 知乎
  3. 豆瓣
  4. ...

 

python基础正则表达式

  1. list、dict:序列化爬取的内容
  2. 切片:分割爬取内容,获取须要的部分
  3. 条件判断:只找须要的,过滤掉没用的
  4. 循环和迭代:重复爬虫动做,直到爬取完成
  5. 文件读写操做:读取参数,将爬取的内容保存
  6. 编码常识:转码和解码  

 

知识储备redis

  1. 网页基础知识:HTML、POST、GET、JS
  2. 分析语言:正则表达式、XPath、Beautifulsoup

 

辅助工具sql

  1. 开发者工具:F12
  2. 抓包工具:Fiddler 4
  3. 正则表达式测试http://tool.chinaz.com/regex/
  4. 谷歌翻译https://translate.google.cn/
  5. JSON解析https://www.json.cn/
  6. PyCharm(Windows)
  7. Eclipse for Python(Linux)

 

各类模块  mongodb

  1. urllib
  2. urllib2
  3. requests
  4. scrapy
  5. selenium
  6. phantomJS

反爬虫策略数据库

  1. 打码平台
  2. PIL(图像处理标准库)
  3. OpenCV((开源)发行的跨平台计算机视觉库) 
  4. Pybrain(号称最好用的Python神经网络库)
  5. 。。。

数据库编程

  1. mysql
  2. mongodb
  3. sqlite(scrapy自带的)
  4. redis(分布式须要)

数据分析json

  1. numpy:数据分析,相似matlab
  2. pandas:基于numpy的数据分析模块

进阶技术网络

  1. 多线程
  2. 分布式

  Scrapy + MongoDB + Redis 分布式爬虫系统

  a). Redis 用来存储要爬取的网页队列,也就是任务队列

  b). MongoDB 用来存储爬取的内容结果。

  c) . Scrapy 里放爬虫crawler , 分别爬取不一样的网页内容。

学以至用

  1. 多练习,多使用
  2. 编程是最容易得到的超能力。你还在等什么?
相关文章
相关标签/搜索