Python 爬虫的工具链

时间 2019-11-30

标签 python 爬虫工具栏目 Python 繁體版

原文原文链接

资料爬虫是资料分析的入门砖，Python 更是资料爬虫的热门工具。由于热门，因此也会有许许多多相关的配套工具出现。但对于新手来讲，该如何寻找到适合的工具实际上是很麻烦的。这一篇文章会介绍一下几个比较主流的相关工具，与他们适合的使用时机。css

Requests / urllib

Requests 或是 urllib 这两个套件都是用于处理 HTTP 协定的工具。 urllib 是内建于 Python 有比较完整的 HTTP 的功能（包含网址编码、档案下载之类的），Requests 则比较着重在友善地处理 Request/Response 的传输。html

BeautifulSoup / Pyquery

BeautifulSoup 与 Pyquery 是用在接到 HTML 字串的 Response 以后，要如何将他们解析为一个 DOM base 的物件使用。 lxml 跟 html5lib 是两个做为读懂 HTML 字串的解析器（parser）。这两个套件都支援使用相似 css selector 的方式找资料。html5

Xpath

XPath 是基于 XML 格式的定位技术，也能够将 HTML 视为是 XML 的方式处理，再使用 XPath 找到须要的资料。python

小结

以上这些爬虫工具大体能够分为几个类型：ide

静态网站的资料取得：Requests / urllib
网页资料的解析爬取：BeautifulSoup / Pyquery / Xpath
动态网站的资料取得：Selenium / PhantomJS / Ghost
多页面的爬虫框架：Scrapy / Pyspider

License

本著做由Chang Wei-Yaun (v123582)制做，以创用CC 姓名标示-相同方式分享 3.0 Unported受权条款释出。

Python 爬虫的工具链

Requests / urllib

BeautifulSoup / Pyquery

Xpath

Selenium

PhantomJS

Ghost

Scrapy

Pyspider

小结

License