Python爬虫之三种网页抓取方法性能比较

时间 2020-07-21

原文原文链接

<div class="markdown_views">  下面咱们将介绍三种抓取网页数据的方法，首先是正则表达式，而后是流行的 BeautifulSoup 模块，最后是强大的 lxml 模块。css

1. 正则表达式html

若是你对正则表达式还不熟悉，或是须要一些提示时，能够查阅<a href="https://docs.python.org/2/howto/regex.html" rel="nofollow" target="_blank">Regular Expression HOWTO</a> 得到完整介绍。python

当咱们使用正则表达式抓取国家面积数据时，首先要尝试匹配元素中的内容，以下所示:css3

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">>>> import re >>> import urllib2 >>> url = 'http://example.webscraping.com/view/United-Kingdom-239' >>> html = urllib2.urlopen(url).read() >>> re.findall('<td class="w2p_fw">(.*?)</td>', html) ['<img src="/places/static/images/flags/gb.png" />', '244,820 square kilometres', '62,348,447', 'GB', 'United Kingdom', 'London', '<a href="/continent/EU">EU</a>', '.uk', 'GBP', 'Pound', '44', '@# #@@|@## #@@|@@# #@@|@@## #@@|@#@ #@@|@@#@ #@@|GIR0AA', '^(([A-Z]\\d{2}[A-Z]{2})|([A-Z]\\d{3}[A-Z]{2})|([A-Z]{2}\\d{2}[A-Z]{2})|([A-Z]{2}\\d{3}[A-Z]{2})|([A-Z]\\d[A-Z]\\d[A-Z]{2})|([A-Z]{2}\\d[A-Z]\\d[A-Z]{2})|(GIR0AA))$', 'en-GB,cy-GB,gd', '<div><a href="/iso/IE">IE </a></div>'] >>> </code></pre>web

从上述结果看出，多个国家眷性都使用了< td class=”w2p_fw” >标签。要想分离出面积属性，咱们能够只选择其中的第二个元素，以下所示:正则表达式

<pre class="prettyprint" name="code"><code class="hljs vbnet has-numbering">>>> re.findall('<td class="w2p_fw">(.*?)</td>', html)[1] '244,820 square kilometres'</code></pre>express

虽然如今可使用这个方案，可是若是网页发生变化，该方案极可能就会失效。好比表格发生了变化，去除了第二行中的国土面积数据。若是咱们只在如今抓取数据，就能够忽略这种将来可能发生的变化。可是，若是咱们但愿将来还能再次抓取该数据，就须要给出更加健壮的解决方案，从而尽量避免这种布局变化所带来的影响。想要该正则表达式更加健壮，咱们能够将其父元素< tr >也加入进来。因为该元素具备ID属性，因此应该是惟一的。api

<pre class="prettyprint" name="code"><code class="hljs xml has-numbering">>>> re.findall('<tr id="places_area__row"><td class="w2p_fl"><label for="places_area" id="places_area__label">Area: </label></td><td class="w2p_fw">(.*?)</td>', html) ['244,820 square kilometres']</code></pre>缓存

这个迭代版本看起来更好一些，可是网页更新还有不少其余方式，一样可让该正则表达式没法知足。好比，将双引号变为单引号，< td >标签之间添加多余的空格，或是变动area_label等。下面是尝试支持这些可能性的改进版本。markdown

<pre class="prettyprint" name="code"><code class="hljs scilab has-numbering">>>> re.findall('<tr id="places_area__row">.*?<td\s*class=["\']w2p_fw["\']>(.*?)</td>',html)['244,820 square kilometres']</code></pre>

虽然该正则表达式更容易适应将来变化，但又存在难以构造、可读性差的问题。此外，还有一些微小的布局变化也会使该正则表达式没法知足，好比在< td >标签里添加title属性。  从本例中能够看出，正则表达式为咱们提供了抓取数据的快捷方式，可是，该方法过于脆弱，容易在网页更新后出现问题。幸亏还有一些更好的解决方案，后期将会介绍。

2. Beautiful Soup

Beautiful Soup是一个很是流行的 Python 模块。该模块能够解析网页，并提供定位内容的便捷接口。若是你尚未安装该模块，可使用下面的命令安装其最新版本(须要先安装 pip，请自行百度):

<pre class="prettyprint" name="code"><code class="hljs cmake has-numbering">pip install beautifulsoup4</code></pre>

使用 Beautiful Soup 的第一步是将已下载的 HTML 内容解析为 soup 文档。因为大多数网页都不具有良好的 HTML 格式，所以 Beautiful Soup 须要对其实际格式进行肯定。例如，在下面这个简单网页的列表中，存在属性值两侧引号缺失和标签未闭合的问题。

<pre class="prettyprint" name="code"><code class="hljs xml has-numbering"><ul class=country> <li>Area <li>Population </ul></code></pre>

若是 Population 列表项被解析为 Area 列表项的子元素，而不是并列的两个列表项的话，咱们在抓取时就会获得错误的结果。下面让咱们看一下 Beautiful Soup 是如何处理的。

<pre class="prettyprint" name="code"><code class="hljs xml has-numbering">>>> from bs4 import BeautifulSoup >>> broken_html = '<ul class=country><li>Area<li>Population</ul>' >>> # parse the HTML >>> soup = BeautifulSoup(broken_html, 'html.parser') >>> fixed_html = soup.prettify() >>> print fixed_html <ul class="country"> <li> Area <li> Population </li> </li> </ul></code></pre>

从上面的执行结果中能够看出，Beautiful Soup 可以正确解析缺失的引号并闭合标签。如今可使用 find() 和 find_all() 方法来定位咱们须要的元素了。

<pre class="prettyprint" name="code"><code class="hljs xml has-numbering">>>> ul = soup.find('ul', attrs={'class':'country'}) >>> ul.find('li') # return just the first match <li>Area<li>Population</li></li> >>> ul.find_all('li') # return all matches [<li>Area<li>Population</li></li>, <li>Population</li>]</code></pre>

Note: 因为不一样版本的Python内置库的容错能力有所区别，可能处理结果和上述有所不一样，具体请参考: <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser" rel="nofollow" target="_blank">https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser</a>。想了解所有方法和参数，能够查阅 Beautiful Soup 的 <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/" rel="nofollow" target="_blank">官方文档</a>

下面是使用该方法抽取示例国家面积数据的完整代码。

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">>>> from bs4 import BeautifulSoup >>> import urllib2 >>> url = 'http://example.webscraping.com/view/United-Kingdom-239' >>> html = urllib2.urlopen(url).read() >>> # locate the area row >>> tr = soup.find(attrs={'id':'places_area__row'}) >>> # locate the area tag >>> td = tr.find(attrs={'class':'w2p_fw'}) >>> area = td.text # extract the text from this tag >>> print area 244,820 square kilometres</code></pre>

这段代码虽然比正则表达式的代码更加复杂，但更容易构造和理解。并且，像多余的空格和标签属性这种布局上的小变化，咱们也无需再担忧了。

3. Lxml

Lxml 是基于 libxml2 这一 XML 解析库的 Python 封装。该模块使用 C语言编写，解析速度比 Beautiful Soup 更快，不过安装过程也更为复杂。最新的安装说明能够参考 <a href="http://lxml.de/installation.html" rel="nofollow" target="_blank">http://lxml.de/installation.html</a> .**

和 Beautiful Soup 同样，使用 lxml 模块的第一步也是将有可能不合法的 HTML 解析为统一格式。下面是使用该模块解析一个不完整 HTML 的例子:

<pre class="prettyprint" name="code"><code class="hljs xml has-numbering">>>> import lxml.html >>> broken_html = '<ul class=country><li>Area<li>Population</ul>' >>> # parse the HTML >>> tree = lxml.html.fromstring(broken_html) >>> fixed_html = lxml.html.tostring(tree, pretty_print=True) >>> print fixed_html <ul class="country"> <li>Area</li> <li>Population</li> </ul></code></pre>

一样地，lxml 也能够正确解析属性两侧缺失的引号，并闭合标签，不过该模块没有额外添加 < html > 和 < body > 标签。

解析完输入内容以后，进入选择元素的步骤，此时 lxml 有几种不一样的方法，好比 XPath 选择器和相似 Beautiful Soup 的 find() 方法。不过，后续咱们将使用 CSS 选择器，由于它更加简洁，而且可以在解析动态内容时得以复用。此外，一些拥有 jQuery 选择器相关经验的读者会对其更加熟悉。

下面是使用 lxml 的 CSS 选择器抽取面积数据的示例代码:

<pre class="prettyprint" name="code"><code class="hljs python has-numbering">>>> import urllib2 >>> import lxml.html >>> url = 'http://example.webscraping.com/view/United-Kingdom-239' >>> html = urllib2.urlopen(url).read() >>> tree = lxml.html.fromstring(html) >>> td = tree.cssselect('tr#places_area__row > td.w2p_fw')[0] # *行代码 >>> area = td.text_content() >>> print area 244,820 square kilometres</code></pre>

*行代码首先会找到 ID 为 places_area__row 的表格行元素，而后选择 class 为 w2p_fw 的表格数据子标签。

CSS 选择器表示选择元素所使用的模式，下面是一些经常使用的选择器示例:

<pre class="prettyprint" name="code"><code class="hljs livecodeserver has-numbering">选择全部标签: * 选择 <a> 标签: a 选择全部 class="link" 的元素: .link 选择 class="link" 的 <a> 标签: a.link 选择 id="home" 的 <a> 标签: a#home 选择父元素为 <a> 标签的全部 子标签: a > span 选择 <a> 标签内部的全部 标签: a span 选择 title 属性为"Home"的全部 <a> 标签: a[title=Home]</code></pre>

W3C 已提出 CSS3 规范，其网址为 <a href="https://www.w3.org/TR/2011/REC-css3-selectors-20110929/" rel="nofollow" target="_blank">https://www.w3.org/TR/2011/REC-css3-selectors-20110929/</a>

Lxml 已经实现了大部分 CSS3 属性，其不支持的功能能够参见: <a href="https://cssselect.readthedocs.io/en/latest/" rel="nofollow" target="_blank">https://cssselect.readthedocs.io/en/latest/</a> .

Note: lxml在内部的实现中，其实是将 CSS 选择器转换为等价的 XPath 选择器。

4. 性能对比

在如下这段代码中，每一个爬虫都会执行 1000 次，每次执行都会检查抓取结果是否正确，而后打印总用时。

<pre class="prettyprint" name="code"><code class="hljs python has-numbering"># -*- coding: utf-8 -*- import csv import time import urllib2 import re import timeit from bs4 import BeautifulSoup import lxml.html FIELDS = ('area', 'population', 'iso', 'country', 'capital', 'continent', 'tld', 'currency_code', 'currency_name', 'phone', 'postal_code_format', 'postal_code_regex', 'languages', 'neighbours') def regex_scraper(html): results = {} for field in FIELDS: results[field] = re.search('<tr id="places_{}__row">.*?<td class="w2p_fw">(.*?)</td>'.format(field), html).groups()[0] return results def beautiful_soup_scraper(html): soup = BeautifulSoup(html, 'html.parser') results = {} for field in FIELDS: results[field] = soup.find('table').find('tr', id='places_{}__row'.format(field)).find('td', class_='w2p_fw').text return results def lxml_scraper(html): tree = lxml.html.fromstring(html) results = {} for field in FIELDS: results[field] = tree.cssselect('table > tr#places_{}__row > td.w2p_fw'.format(field))[0].text_content() return results def main(): times = {} html = urllib2.urlopen('http://example.webscraping.com/view/United-Kingdom-239').read() NUM_ITERATIONS = 1000 # number of times to test each scraper for name, scraper in ('Regular expressions', regex_scraper), ('Beautiful Soup', beautiful_soup_scraper), ('Lxml', lxml_scraper): times[name] = [] # record start time of scrape start = time.time() for i in range(NUM_ITERATIONS): if scraper == regex_scraper: # the regular expression module will cache results # so need to purge this cache for meaningful timings re.purge() # *行代码 result = scraper(html) # check scraped result is as expected assert(result['area'] == '244,820 square kilometres') times[name].append(time.time() - start) # record end time of scrape and output the total end = time.time() print '{}: {:.2f} seconds'.format(name, end - start) writer = csv.writer(open('times.csv', 'w')) header = sorted(times.keys()) writer.writerow(header) for row in zip(*[times[scraper] for scraper in header]): writer.writerow(row) if __name__ == '__main__': main()</code></pre>

注意，咱们在 *行代码 中调用了 re.purge() 方法。默认状况下，正则表达式会缓存搜索结果，为了公平起见，咱们须要使用该方法清除缓存。

下面是个人电脑运行该脚本的结果:

因为硬件条件的区别，不一样电脑的执行结果也会存在必定差别。不过，每种方法之间的相对差别应当是至关的。从结果中能够看出，在抓取咱们的示例网页时，Beautiful Soup 比其余两种方法慢了超过 7 倍之多。实际上这一结果是符合预期的，由于 lxml 和正则表达式模块都是 C 语言编写的，而 Beautiful Soup 则是纯 Python 编写的。一个有趣的事实是，lxml 表现的和正则表达式差很少好。因为 lxml 在搜索元素以前，必须将输入解析为内部格式，所以会产生额外的开销。而当抓取同一网页的多个特征时，这种初始化解析产生的开销就会下降，lxml 也就更具竞争力，因此说，lxml 是一个强大的模块。

5. 总结

三种网页抓取方法优缺点:

<table> <thead> <tr> <th align="center">     抓取方法</th> <th align="center">    性能</th> <th align="center">      使用难度</th> <th align="center">      安装难度</th> </tr> </thead> <tbody><tr> <td align="center">正则表达式</td> <td align="center">快</td> <td align="center">困难</td> <td align="center">简单(内置模块)</td> </tr> <tr> <td align="center">Beautiful Soup</td> <td align="center">慢</td> <td align="center">简单</td> <td align="center">简单(纯Python)</td> </tr> <tr> <td align="center">Lxml</td> <td align="center">快</td> <td align="center">简单</td> <td align="center">相对困难</td> </tr> </tbody></table>

若是你的爬虫瓶颈是下载网页，而不是抽取数据的话，那么使用较慢的方法（如 Beautiful Soup）也不成问题。正则表达式在一次性抽取中很是有用，此外还能够避免解析整个网页带来的开销，若是只需抓取少许数据，而且想要避免额外依赖的话，那么正则表达式可能更加适合。不过，一般状况下，lxml 是抓取数据的最好选择，这是由于它不只速度快，功能也更加丰富，而正则表达式和 Beautiful Soup只在某些特定场景下有用。 </div>