记一次基于Cloudflare服务的爬虫

时间 2019-12-09

原文原文链接

前言

前几天有个朋友托我帮忙爬一个网站，第一次打开那个网站时，我去，它居然就要验证码，不过当时是想加几个header应该就能解决，不过事实证实我仍是错了。接下来将记录下爬虫中遇到的一些坑以及解决办法。javascript

开始

乱码问题

原本是准备用比较拿手的java写这次爬虫，java请求返回的内容老是出现一些乱码的问题。已经设置为utf-8方式而且像gzip、br等解压缩都尝试了，稍微好点的状况只有body标签内的内容为乱码，糟糕的状况就是整个返回的内容皆为乱码。后来就用python试了试，乱码问题直接没了，有点迷！html

验证码问题

以前用python解决乱码问题后，紧接着又出现的就是访问须要验证码了。当时我是浏览器里访问不须要验证码，但python访问无论如何，一直出现百度云加速的验证码认证。出现这种状况，个人第一反应是python中是否是少了某些关键头部，因而将浏览器中的header带到python中一一去试，但并无起到啥做用。这里我就贼纳闷了，究竟为甚吗？？？后来才忽然想起来我浏览器走了代理，因而我干脆给电脑设置了个全局代理，而后用python继续访问，让人感动的一幕发生了-----> 命令行中返回了目标网站的页面源代码！这时我才察觉，个人本地IP已经进入了目标网站的黑名单 。到这里，验证码也就绕过了。java

JS致使页面url发生重定向

在把前面的目标网站的页面下载到本地后，而后用浏览器打开该文件，浏览器会加载页面中的一些图片css还有js等资源文件，其中有个js会检测当前页面url中的协议是不是https，若是不是，将重定向至对应的https协议的页面。这里显然，咱们打开的本地文件url是文件的目录，不是以https开始的。
好比火狐浏览器中打开目标文件，地址栏的url以下python

file:///C:/Users/Asche/vscode/Shopify/temp/Customers/How%20to%20add%20or%20edit%20a%20customer%E2%80%99s%20address.html

被重定向后的url以下浏览器

https://c/Users/Asche/vscode/Shopify/temp/Customers/How%20to%20add%20or%20edit%20a%20customer%E2%80%99s%20address.html

显然，重定向后的页面是不存在的。固然，咱们也能够在页面重定向前手动取消重定向的请求，不过这样毕竟体验很差，因此继续想办法解决重定向问题。
因而，准备寻找起重定向做用的·js代码，浏览一番渲染后的页面源代码，发如今body标签结束前，多了这样一段代码：安全

<script type="text/javascript" id="">"https:"!=location.protocol&&(location.href="https:"+window.location.href.substring(window.location.protocol.length));</script>

并且这段代码在最初的页面内是没有的，说明是被别的js动态加载进来的。因此我就选择其中的一段代码‘location.protocol‘，在其他几个可疑的js文件内搜索，遗憾的是没有找到。
另外原本想使用js的debug功能，奈何一到dubug页面，浏览器就未响应！！！
最后没有办法，我就直接在目标文件上选择性的注释js引入，可疑的js文件都被注释掉了，却发现任然存在重定向！！！最后，只剩下一个google相关的js，把那个js注释掉，重定向终于消失了！那段js代码大概以下：async

<script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
})(window,document,'script','dataLayer','GTM-NPVH4QZ');</script>

原本觉得这段代码就像google分析那样的一些没啥影响的Google服务，结果却让人有点意外！多是出于安全的考虑把。
到这里，重定向也解决！网站

主要部分Python代码

import requests
import os
from bs4 import BeautifulSoup

# Author: Asche
# date: 2019年7月6日
print('Shopify start...')

BASE_URL = 'https://avada.io'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
           'Cookie': '__cfduid=db73a1a3b63a54e86f435f615f5ec37791562300679; _ga=GA1.2.1048718546.1562300686; _gid=GA1.2.312498482.1562300686',
           'Accept': '*/*', 'Accept-Encoding': 'gzip', 'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7,mt;q=0.6'}


def getHtml(url):
    req = requests.get(url, headers=headers)
    return req.text


def saveFile(name, dir, content):
    folder = os.path.exists(dir)
    if not folder:
        os.mkdir(dir)
    with open( dir + '/' + name.replace('/', '_') + '.html', 'w', encoding='utf-8') as f:
        f.write(content)


def crawlSubpage(url, dir):
        subPage = requests.get(url, headers=headers)
        # print(strHome.headers)

        soup = BeautifulSoup(subPage.content, 'lxml')
        print(soup.title)

        titles = soup.select('div.collection a')
        for title in titles:
            print(title.text, title['href'])
            saveFile(title.text, dir, getHtml(title['href']))


strHome = requests.get(BASE_URL, headers=headers)
# print(strHome.text)
print(strHome.headers)


soup = BeautifulSoup(strHome.content, 'lxml')
# print(soup.prettify)
print(soup.title)

titles = soup.select('h3.header a')
for title in titles:
    print(title.text, title['href'])
    crawlSubpage(title['href'], title.text)