须要有python基础html
python爬虫相关网络请求包python
curl简单去学习curl,在模拟请求的时候能够用curl去调试web
chrome浏览器:通常的web的抓取,用chrome的调试工具调试便可,大部分问题能够解决(包括抓包、调试js代码),切记熟练使用chrome调试工具。chrome
火狐浏览器:当chrome隐藏了一些请求头信息的时候,能够使用火狐浏览器去抓包,火狐中能够看到。windows
抓包工具charles(Mac os)和fiddler(windows)必须熟悉其中一种。抓app数据包时必须用获得。浏览器
爬虫框架:scrapy网络
解析经常使用python包app
某些网站作反扒作的很严重,须要调用浏览器来抓取了python爬虫
上面这些应付web端爬虫目前是能够了,app端抓取可能会使用到一些其余技术,好比说anyproxy等。框架