python爬虫学习指引

时间 2019-11-29

标签 python 爬虫学习指引栏目 Python 繁體版

原文原文链接

须要有python基础html
- 官方中文文档：docs.python.org/zh-cn/3/
- 入门的话看菜鸟教程就好
python爬虫相关网络请求包python
- urllib库
- requests库
- 二者区别：urllib出来比较早，比较原生，而requests在urllib基础上封装的，一些方法更好用。二者能够实现的功能差很少相同。
curl简单去学习curl，在模拟请求的时候能够用curl去调试web
chrome浏览器：通常的web的抓取，用chrome的调试工具调试便可，大部分问题能够解决（包括抓包、调试js代码），切记熟练使用chrome调试工具。chrome
火狐浏览器：当chrome隐藏了一些请求头信息的时候，能够使用火狐浏览器去抓包，火狐中能够看到。windows
抓包工具charles（Mac os）和fiddler（windows）必须熟悉其中一种。抓app数据包时必须用获得。浏览器
爬虫框架：scrapy网络
- scrapy中文文档：scrapy-chs.readthedocs.io/zh_CN/lates…
解析经常使用python包app
- 一些不规则数据：用正则—>re模块
- dom树结构（html网页）：xpath
- xpath有语法规则：上菜鸟教程上搜索，这个xpath经常使用语法必须熟练
某些网站作反扒作的很严重，须要调用浏览器来抓取了python爬虫
- selenium + headless（chromedriver、phantomjs）

总结

上面这些应付web端爬虫目前是能够了，app端抓取可能会使用到一些其余技术，好比说anyproxy等。框架