Python爬虫：经常使用的爬虫工具汇总

时间 2021-08-13

标签 javascript css html html5 java python mysql git github sql 栏目 Python 繁體版

原文原文链接

按照网络爬虫的的思路：javascript

页面下载

页面解析

数据存储

将工具按照以上分类说明，按照学习路线顺序给出参考文章css

1、页面下载器

requests(必学)html
scrapyhtml5
selenium+chrome + PhantomJS(抓取动态网页，不推荐)java
Splash(抓取动态网页，推荐)python

总结：
对于下载器而言，python自带的urllib就不要花时间去学了，学了就忘，直接requests能知足大部分测试+抓取需求，进阶工程化scrapy，动态网页优先找API接口，若是有简单加密就破解，实在困难就使用splash渲染mysql

2、页面解析器

BeautifulSoup(入门级)git
1. Python爬虫入门BeautifulSoup模块
pyquery （相似jQuery）github
1. Python爬虫：pyquery模块解析网页
lxmlsql
1. Python爬虫：使用lxml解析网页内容
parsel
1. Extract text using CSS or XPath selectors
scrapy的Selector (强烈推荐, 比较高级的封装，基于parsel)
1. 选择器(Selectors)
2. python爬虫：scrapy框架xpath和css选择器语法

总结：
其实解析器学习一个就够了，其余都不用学，不少培训会教你从上到下的学习，我不是很推荐，直接学习scrapy的Selector 就行，简单、直接、高效

3、数据存储

txt文本
1. Python全栈之路：文件file经常使用操做
csv文件
1. python读取写入csv文件
sqlite3 （python自带）
1. Python编程：使用数据库sqlite3
MySQL
1. SQL：pymysql模块读写mysql数据
MongoDB
1. Python编程：mongodb的基本增删改查操做

总结：
数据存储没有什么可深究的，按照业务需求来就行，通常快速测试使用MongoDB，业务使用MySQL

4、其余工具

execjs ：执行js
Python爬虫：execjs在python中运行javascript代码
pyv8: 执行js
mac安装pyv8模块-JavaScript翻译成python
html5lib
1. Python爬虫：scrapy利用html5lib解析不规范的html文本

5、关于xpath练习

本人的一个开源项目：PageParser
https://github.com/mouday/PageParser用于解析网页，最终实现6行代码写爬虫，能够贡献代码，顺便练习网页解析的能力

相关文章

相关标签/搜索

爬虫－反爬虫

python爬虫-爬微博

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<