<读书笔记>如何入门爬虫？

时间 2019-11-12

标签读书笔记如何入门爬虫栏目网络爬虫繁體版

原文原文链接

大部分爬虫框架都是python

发送请求
得到页面
解析页面
下载内容
存储内容

定个宏伟目标mysql

淘宝1000页
知乎
豆瓣
...

python基础正则表达式

list、dict:序列化爬取的内容
切片：分割爬取内容，获取须要的部分
条件判断：只找须要的，过滤掉没用的
循环和迭代：重复爬虫动做，直到爬取完成
文件读写操做：读取参数，将爬取的内容保存
编码常识：转码和解码

知识储备redis

网页基础知识：HTML、POST、GET、JS
分析语言：正则表达式、XPath、Beautifulsoup

辅助工具sql

开发者工具：F12
抓包工具：Fiddler 4
正则表达式测试：http://tool.chinaz.com/regex/
谷歌翻译：https://translate.google.cn/
JSON解析：https://www.json.cn/
PyCharm（Windows）
Eclipse for Python(Linux)

各类模块　　mongodb

urllib
urllib2
requests
scrapy
selenium
phantomJS

反爬虫策略数据库

打码平台
PIL（图像处理标准库）
OpenCV（（开源）发行的跨平台计算机视觉库）　
Pybrain（号称最好用的Python神经网络库）
。。。

数据库编程

mysql
mongodb
sqlite(scrapy自带的)
redis(分布式须要)

数据分析json

numpy:数据分析，相似matlab
pandas:基于numpy的数据分析模块

进阶技术网络

多线程
分布式

　　Scrapy + MongoDB + Redis 分布式爬虫系统

　　a）. Redis 用来存储要爬取的网页队列，也就是任务队列

　　b）. MongoDB 用来存储爬取的内容结果。

　　c) . Scrapy 里放爬虫crawler , 分别爬取不一样的网页内容。

学以至用

多练习，多使用
编程是最容易得到的超能力。你还在等什么？

相关文章

相关标签/搜索

FSFA 读书笔记

MySQL 读书笔记

Nginx读书笔记

爬虫－反爬虫

如何阅读一本书

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<