5 个用 Python 编写 web 爬虫的方法

时间 2019-12-07

标签 python 编写 web 爬虫方法栏目 Python 繁體版

原文原文链接

你们在读爬虫系列的帖子时经常问我怎样写出不阻塞的爬虫，这很难，但可行。经过实现一些小策略可让你的网页爬虫活得更久。那么今天我就将和你们讨论这方面的话题。python

我刚整理了一套2018最新的0基础入门和进阶教程，无私分享，加python学习q-u-n ：二二七，四三五，四五零便可获取，内附：开发工具和安装包，以及系统学习路线图

用户代理

你须要关心的第一件事是设置用户代理。用户代理是用户访问的工具，并告知服务器用户正在使用哪一个网络浏览器访问网站。若是未设置用户代理，许多网站不会让你查看内容。若是你正在使用rquests库，能够执行以下操做：web

你能够经过在 Google 搜索栏中输入 User-Agent 来获取用户代理的信息，而且它会返回你当前的用户代理信息。数据库

如今，你已经有了一个用户代理，但如何去使用它？那么，最好的方法是从文本文件、数据库、Python 的列表中选择一个随机的 User-Agent 。 Udger 分享了大量的 UA w.r.t 浏览器。好比，对于 Chrome 而言，它看起来像这样，对 Firefox 来讲，又像这样。如今让咱们来建立一个函数，它将返回一个随机 UA ，你能够在请求中使用：网页爬虫

ua_file.txt 包含一个来自我上面共享的网站的每行 UA 。函数 get_random_ua 将始终从该文件中返回惟一的 UA 。你如今能够调用以下函数：浏览器

Referrers

接下来你须要设置的是引用。通常的规则是，若是它是一个列表页面或主页，那么你能够设置该国家的 Google 主页网址。例如，若是我正在爬取 olx.com.pk ，那么我会设置 https://google.com.pk 而不是 https://google.ca。服务器

若是你要抓取各个产品页面，能够在引用中设置相关类别的网址，或者能够找到要抓取的域的反向连接。我一般使用 SEMRush 来这么作。针对连接 https://www.olx.com.pk/furniture-home-decor/categories/ 经过 SEMRush 会返回以下所示的内容：网络

若是你点击查看放大的图像，你能够看到一些连接指向我所需的类别。一旦你收集全部这些真实的反向连接，你能够经过复制逻辑 insideget_random_ua（）返回随机引用，并将它们用做引用。以下所示：dom

代理 IP

我不得不强调这一点。若是认真研究，那么你必须使用多个代理 IP 来避免阻塞。大多数网站会根据你的服务器或主机提供商的静态 IP 来阻止抓取工具。这些网站使用智能的工具来肯定某个 IP 或 IP 池的方式，并简单地阻止它们。ide

这也是为何建议购买几个 IP 地址，50-100个至少要避免阻塞。有许多可用的服务，但我对 Shaders（如今称为 OxyLabs ）感到满意。它们虽然很贵，但服务质量很好。确保你在订购多个 IP 时，要求提供随机 IP 或至少不遵循 1.2.3.4 到 1.2.3.100 等特定模式。站点管理员将很简单的设置 IP 地址不所有为 1.2.3.* 。就这么简单。函数

若是你正在使用请求，你能够像下面这样使用它：

若是你在 Selenium 使用代理 IP ，那么这将有点棘手。

不用说，get_random_proxy() 是返回一个惟一且随机代理的方法，就像上面得到惟一且随机的 UA 和 Referer 同样。

你能够思考一个这样的系统，在系统中你能够设置一个 IP 天天或每小时访问网站频率，若是它超过了，那么它将被放入一个笼子里直到次日。我所在的公司设计了一个这样的系统，不只设置了 IP 访问频率，还记录了哪一个 IP 被阻止。最后，我只是使用代理服务提供者仅替换这些代理。因为这超出了本文的范围，因此我不会详细介绍它。

Request Headers

到目前为止，事情你都已经作得很好，可是仍然有些狡猾的网站要求你作更多的事情。当你访问页面的时候他们会查找特定的请求响应头信息，若是特定的头信息没有被发现，他们会阻止内容显示或者展现一个虚假的内容。模拟一个你想访问的网站的请求是很是简单的。

例如，好比你正准备访问一个 Craigslist URL ，而且想知道哪一个头部信息是须要的。进入 Chrome/Firefox 浏览器，检查正在访问的页面，你应该会看到下面这些内容：

若是你点击了图标并查看，你能找到除了 referer 和 user-agent 以外的大量信息。你能一次性全都实现也能够一个个的实现并测试。

不管访问哪一个网站，我老是去设置这些信息。请确保你不仅是复制粘贴这些信息去访问全部网站，由于这些信息一般会因网站不一样而改变。

延时

在请求之间放置一些延迟老是很好的。我使用 numpy.random.choice() 来实现这一目标，该函数将在我想延迟的服务中传递随机数列表：

若是你尚未使用过 numpy 库，你也可使用 random.choice 来达到一样的目的。

若是你真的很急，那么你能够并行执行 URL。

结语

Web 爬虫被阻塞的不肯定性永远不会变为零，但你老是能够采起一些措施来规避它。我讨论了一些你应该以某种或其余方式在 web 爬虫中实现的策略。

若是你知道其余策略或技巧，请经过分享评论让我获知。一如既往地，期待你的反馈。