puppeteer填坑指南

puppeteer填坑指南

前言

原文地址:zhangzippo.github.io/posts/2019/…javascript

相信你们在使用puppeteer的时候会遇到各类各样的问题,好比本来在mac上跑的好好的却发如今centos/docker上遭遇各类各样的问题, 这里把我所遇到的坑跟你们说一下。html

安装

首当其中就是安装的问题了,这个在mac上没什么问题,这里介绍在centos上的问题,puppeteer含有两个包puppeteer VS puppeteer-core,什么区别呢?简单来讲就是puppeteer = api+chromeium(最新),puppeteer-core = only Api,官方是这么说的:java

puppeteer-core 与 puppeteer 不一样的地方:node

  • puppeteer-core 在安装时不会自动下载 Chromium。
  • puppeteer-core忽略全部的 PUPPETEER_* env 变量.

当你本身安装chromeium的时候,在启动(puppeteer.launch())的时候须要指定chromeium的启动路径,固然本身安装存在更新的问题,可能因为更新不及时致使与puppeteer的api不匹配的状况,因此咱们推荐直接安装puppeteer。而后呢,当你在centos上安装的时候毫无疑问的会报错。由于缺乏chromeium启动的依赖,本人在centos6和7上都遇到了坑,下面是官方列举的centos上的所需依赖:linux

pango.x86_64 libXcomposite.x86_64 libXcursor.x86_64 libXdamage.x86_64 libXext.x86_64 libXi.x86_64 libXtst.x86_64 cups-libs.x86_64 libXScrnSaver.x86_64 libXrandr.x86_64 GConf2.x86_64 alsa-lib.x86_64 atk.x86_64 gtk3.x86_64 ipa-gothic-fonts xorg-x11-fonts-100dpi xorg-x11-fonts-75dpi xorg-x11-utils xorg-x11-fonts-cyrillic xorg-x11-fonts-Type1 xorg-x11-fonts-miscgit

只须要一顿 yum install 就好。固然事情可能不是这样的,当你启动chromeium时(推荐在服务器上测试的时候先进入到node_modules/puppeteer/.local-chromium/linux-496140/chrome-linux/chrome目录下执行./chrome进行测试,能成功运行表明经过puppeteer的api调用也能成功)你可能会遇到例如:github

error while loading shared libraries: libpangocairo-1.0.so.0: cannot open shared object file: No such file or directory 这样的错误,提示你缺乏的是一个so文件,你能够在执行文件目录下执行这个命令进行查看缺乏哪些依赖: ldd chrome | grep not 命令执行后会显示你当前缺乏的依赖,当你不知道对应的.so在哪一个包中的时候执行这个命令: yum provides | grep xx.so.0chrome

找到对应的包进行yum install 安装,注意32仍是64位的,不要装错。当ldd chrome | grep not 结果为空时表明全部依赖都已经安装,本人在centos6.5上测试时,安装了全部依赖依然提示缺乏某个依赖,查了一下,居然发现存在于firefox的包中,很是费解,segmentfault.com/a/119000001… 这篇文章的做者与我遇到一样的问题解决了,然而我相同作法后依然没有解决,仍是没法启动chrome,并且chrome要依赖别的浏览器的包实在有点儿...后来google了一下好像是6.5版本对于chrome的支持有限,遂我换成了centos7.6,继续,安装很顺利..没什么坑。其余可能遇到下载chromium失败的状况,这个在.npmrc指定一下下载源docker

PUPPETEER_DOWNLOAD_HOST = npm.taobao.org/mirrorsnpm

启动

你觉得安装完就没坑了?no,no,no。启动还能坑你一回,若是你直接启动会报这个错误:

No usable sandbox! Update your kernel or see chromium.googlesource.com/chromium/sr… for more information on developing with the SUID sandbox. If you want to livedangerously and need an immediate workaround, you can try using --no-sandbox.

啥意思呢?就是你正常应该将chrome运行在一个沙盒中,可是你没配置,对应的网址和puppeteer的文档中有写怎么操做建立沙盒,下面这个:github.com/GoogleChrom…

然而我照着作并不行,仍是报错,因而采用planB 加 --no-sandbox,官方的例子是:

const browser = await puppeteer.launch({args: ['--no-sandbox', '--disable-setuid-sandbox']});
复制代码

咱们测试的时候能够执行 ./chrome --no-sandbox --disable-setuid-sandbox 而后若是你是直接执行./chrome (js中的例子默认headless=true )你又会看到这个错误:

Gtk-WARNING **: 23:01:03.809: cannot open display 我不太熟悉linux,但这个意思就是说你不能打开一个图形界面,别去百度了,若是你也是linux小白。咱们在后面加上 --headless 就能够了,到此启动也没问题了。

运行puppeteer

启动都没问题了还有什么坑呢?我这里在使用时遇到一些问题,与你们共勉吧,若是你也遇到的话注意排查问题。

  • 遇到获取页面错误的问题 这个固然有不少可能了,好比缺乏cookie被拦截,这个好办,还有一种状况是某些网站存在反爬机制判断UA标示不是浏览器端或者带headless标示(chromeium headless模式默认UA会带),因此你最终获得的并不是想要的页面,还有各类被重定向的状况都有可能得不到想要的页面,这个时候最好在 page = await page.goto(); 以后调用page.text()方法检查页面是否符合预期
  • timeout状况 这个你们可能遇到的最多,goto方法加载一个页面默认超时是30秒,你能够更改,也能够直接写0表明一直等待。我遇到某些状况致使页面很慢才加载结束,尤为是当你设置waitUntil = networkidle0的时候,怎么排查这个问题呢?使用 page.on('requestfailed')方法看看什么资源阻滞了页面跳转,page.on('request')方法拦截对应的请求abort()掉,我在应用中碰到线下机器访问不了内网域名的状况,苦苦跟了好久。

结尾

可能后面还会遇到不少坑,慢慢看吧.....

参考文章:

github.com/GoogleChrom…

相关文章
相关标签/搜索