按照网络爬虫的的思路:javascript
将工具按照以上分类说明,按照学习路线顺序给出参考文章css
requests(必学)html
scrapyhtml5
selenium+chrome + PhantomJS(抓取动态网页,不推荐)java
Splash(抓取动态网页,推荐)python
总结:
对于下载器而言,python自带的urllib就不要花时间去学了,学了就忘,直接requests
能知足大部分测试+抓取需求,进阶工程化scrapy
,动态网页优先找API接口
,若是有简单加密就破解,实在困难就使用splash渲染
mysql
BeautifulSoup(入门级)git
pyquery (相似jQuery)github
lxmlsql
parsel
scrapy的Selector (强烈推荐, 比较高级的封装,基于parsel)
总结:
其实解析器学习一个就够了,其余都不用学,不少培训会教你从上到下的学习,我不是很推荐,直接学习scrapy的Selector
就行,简单、直接、高效
总结:
数据存储没有什么可深究的,按照业务需求来就行,通常快速测试使用MongoDB
,业务使用MySQL
execjs :执行js
Python爬虫:execjs在python中运行javascript代码
pyv8: 执行js
mac安装pyv8模块-JavaScript翻译成python
html5lib
1. Python爬虫:scrapy利用html5lib解析不规范的html文本
本人的一个开源项目:PageParser
https://github.com/mouday/PageParser用于解析网页,最终实现6行代码写爬虫,能够贡献代码,顺便练习网页解析的能力