Selenium 最强反反爬方案来了!

在前天的公众号文章《别去送死了。Selenium 与 Puppeteer 能被网站探测的几十个特征》中,咱们提到目前网上的反检测方法几乎都是掩耳盗铃,由于模拟浏览器有几十个特征能够被检测,仅仅隐藏 webdriver 这一个值是没有任何意义的。
html

今天咱们就来讲说应该如何正确解决这个问题node

咱们首先给出解决方案,而后再说明这个解决方案,我是经过什么方式找到的web

解决这个问题的关键,就是一个 js 文件,叫作stealth.min.js,稍后我会说明如何生成这个文件chrome

咱们须要设定,让 Selenium 或者 Pyppeteer 在打开任何页面以前,先运行这个 Js 文件json

这里,我以 Selenium 为例来讲明如何操做,咱们编写以下代码:浏览器

import time
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36')

driver = Chrome('./chromedriver', options=chrome_options)

with open('/Users/kingname/test_pyppeteer/stealth.min.js'as f:
    js = f.read()

driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
  "source": js
})
driver.get('https://bot.sannysoft.com/')
time.sleep(5)
driver.save_screenshot('walkaround.png')

# 你能够保存源代码为 html 再双击打开,查看完整结果
source = driver.page_source
with open('result.html''w'as f:
    f.write(source)

运行截图以下:微信

能够看到,虽然我使用的是无头模式,可是可以被识别的特征都被成功隐藏。你们还能够双击打开保存下来的 html 文件,看看是否是结果跟普通浏览器几乎同样。app

若是你使用的是 Pyppeteer,那么能够根据我上面文章中给出的方法,试着加载一下这个 js 文件,看看是否是也能成功隐藏特征。less

那么,这个stealth.min.js文件是怎么来的呢?这就要说到puppeteer了。咱们知道,Python 版本的pyppeteer已经好久没有人维护了,可是Node.js 版本的 puppeteer持续有人维护,而且在持续更新,生态也愈来愈好。编辑器

有开发者给 puppeteer 写了一套插件,叫作puppeteer-extra。其中,就有一个插件叫作puppeteer-extra-plugin-stealth[1]。这个东西,就来专门用来让 puppeteer 隐藏模拟浏览器的指纹特征。

这个东西是专门给 puppeteer 用的。因此,若是你使用的是 puppeteer,那么你能够根据它的 Readme说明,直接使用。

那么,咱们用 Python 的人怎么办呢?实际上也有办法。就是把其中的隐藏特征的脚本提取出来,作成一个单独的 js 文件。而后让 Selenium 或者 Pyppeteer 在打开任意网页以前,先运行一下这个 js 文件里面的内容。

puppeteer-extra-plugin-stealth的做者还写了另一个工具,叫作extract-stealth-evasions[2]。这个东西就是用来生成stealth.min.js文件的。

若是你在国外,而且网速足够快的话。那么你根据它的 Readme,首先安装 Node.js,而后安装 Npm,接着运行以下命令:

npx extract-stealth-evasions

就会在你执行命令的文件夹下面生成一个stealth.min.js文件。而后你就能够正常使用了。

若是你在国内,那么执行这个命令的过程当中,会有一个下载 Chromium 的过程,速度很是慢,虽然只有130MB,可是可能会下载好几个小时。

此时,你须要把它的package.jsonindex.js两个文件保存到本地。而后打开package.json文件,修改其中的dependencies这一项,把里面的puppeteer改为puppeteer-core,以下图所示:

而后修改index.js,给.launch()函数增长一个参数executablePath,指向你电脑上的 Chrome 浏览器,以下图所示:

修改完成之后。首先执行yarn install安装依赖包。而后执行node index.js运行程序。1秒钟之后就会生成stealth.min.js了。

我已经将这个文件上传到公众号后台,回复关键字 stealth 便可获取!

若是你以为文章还不错,请你们 点赞、分享、留言 下,由于这将是我持续输出更多优质文章的最强动力!



推荐阅读


Python 爬虫,推荐一款简单的抓包工具

带你用 Python 实现自动化群控(入门篇)

别去送死了!爬虫使用 Selenium 与 Puppeteer 能被网站探测的几十个特征



本文分享自微信公众号 - AirPython(AirPython)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索