PHP 爬虫体验(三) - 使用PHP + puppeteer爬取js动态渲染的页面内容

以前写的两篇爬虫体验基本上涵盖了通常的Html页面提取场景,可是有些时候,若是目标页面不是纯静态的页面,而是使用js动态渲染的页面(好比one),以前的爬虫就很差使了,这种时候就要借助一些其余工具来进行实现。php

通常爬取动态页面的思路是经过软件模拟浏览器行为获取到渲染后的页面镜像,而后再对渲染后的页面进行分析,经常使用的工具备selenium,phantomJs,puppeteer等,经过对项目维护程度、对PHP友好度的对比,我选用的是puppeteer。html

根据官方介绍,谷歌在2017年开发了自家Chrome浏览器的Headless特性,puppeteer即是这个时候诞生的,它的原理是经过调用Chrome DevTools开放的接口与Chrome通讯,将浏览器开放接口进行封装,方便用户调用,能够很容易地实现浏览器行为的模拟。node

尝试一下puppeteer,安装起来其实很是简单:git

npm i puppeteer

 根据官方API写了example.js进行测试:github

async function start(){
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('http://wufazhuce.com');
  return page.content();
};

(async () => {
  const a = await start();
  process.stdout.write(a);
})();

执行node example.js即可以看到控制台输出了渲染完成以后的页面Html,这个时候便可以使用php的fopen读取stdout获取到html文本进行下一步处理了。npm

在github上面查找相关支持,发现有spatie/browsershot这个项目直接把操做步骤封装好了,这样即可以使用puppeteer进行动态生成html内容的获取,而后继续使用dom-crawler来获取想要抓取的内容了:浏览器

$this->crawler = new Crawler();
$html = Browsershot::url($this->url)
    ->setOption('args', [
        '--no-sandbox',
        '--disable-setuid-sandbox'
    ])
    ->bodyHtml();
$this->crawler->addHtmlContent($html);
相关文章
相关标签/搜索