pyppeteer模块的基本使用

Pyppeteer

 
pyppeteer模块的基本使用

引言

Selenium 在被使用的时候有个麻烦事,就是环境的相关配置,得安装好相关浏览器,好比 Chrome、Firefox 等等,而后还要到官方网站去下载对应的驱动,最重要的还须要安装对应的 Python Selenium 库,确实是否是很方便,另外若是要作大规模部署的话,环境配置的一些问题也是个头疼的事情。那么本节就介绍另外一个相似的替代品,叫作 Pyppeteer。html

Pyppeteer简介

注意,本节讲解的模块叫作 Pyppeteer,不是 Puppeteer。Puppeteer 是 Google 基于 Node.js 开发的一个工具,有了它咱们能够经过 JavaScript 来控制 Chrome 浏览器的一些操做,固然也能够用做网络爬虫上,其 API 极其完善,功能很是强大。 而 Pyppeteer 又是什么呢?它其实是 Puppeteer 的 Python 版本的实现,但他不是 Google 开发的,是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本。git

在 Pyppetter 中,实际上它背后也是有一个相似 Chrome 浏览器的 Chromium 浏览器在执行一些动做进行网页渲染,首先说下 Chrome 浏览器和 Chromium 浏览器的渊源。github

 
  1. Chromium 是谷歌为了研发 Chrome 而启动的项目,是彻底开源的。两者基于相同的源代码构建,Chrome 全部的新功能都会先在 Chromium 上实现,待验证稳定后才会移植,所以 Chromium 的版本更新频率更高,也会包含不少新的功能,但做为一款独立的浏览器,Chromium 的用户群体要小众得多。两款浏览器“同根同源”,它们有着一样的 Logo,但配色不一样,Chrome 由蓝红绿黄四种颜色组成,而 Chromium 由不一样深度的蓝色构成。

Pyppeteer 就是依赖于 Chromium 这个浏览器来运行的。那么有了 Pyppeteer 以后,咱们就能够免去那些繁琐的环境配置等问题。若是第一次运行的时候,Chromium 浏览器没有安装,那么程序会帮咱们自动安装和配置,就免去了繁琐的环境配置等工做。另外 Pyppeteer 是基于 Python 的新特性 async 实现的,因此它的一些执行也支持异步操做,效率相对于 Selenium 来讲也提升了。web

环境安装

  • 因为 Pyppeteer 采用了 Python 的 async 机制,因此其运行要求的 Python 版本为 3.5 及以上
  • pip install pyppeteer

快速上手

 

- 爬取http://quotes.toscrape.com/js/ 所有页面数据浏览器

 

 
  1. import asyncio
  2. from pyppeteer import launch
  3. from lxml import etree
  4.  
  5. async def main():
  6. browser = await launch()
  7. page = await browser.newPage()
  8. await page.goto('http://quotes.toscrape.com/js/')
  9. page_text = await page.content()
  10. tree = etree.HTML(page_text)
  11. div_list = tree.xpath('//div[@class="quote"]')
  12. print(len(div_list))
  13. await browser.close()
  14.  
  15. asyncio.get_event_loop().run_until_complete(main())

运行结果:10
解释:launch 方法会新建一个 Browser 对象,而后赋值给 browser,而后调用 newPage 方法至关于浏览器中新建了一个选项卡,同时新建了一个 Page 对象。而后 Page 对象调用了 goto 方法就至关于在浏览器中输入了这个 URL,浏览器跳转到了对应的页面进行加载,加载完成以后再调用 content 方法,返回当前浏览器页面的源代码。而后进一步地,咱们用 pyquery 进行一样地解析,就能够获得 JavaScript 渲染的结果了。在这个过程当中,咱们没有配置 Chrome 浏览器,没有配置浏览器驱动,免去了一些繁琐的步骤,一样达到了 Selenium 的效果,还实现了异步抓取,爽歪歪!网络

详细用法

  • 开启浏览器
    • 调用 launch 方法便可,相关参数介绍:
      • ignoreHTTPSErrors (bool): 是否要忽略 HTTPS 的错误,默认是 False。
      • headless (bool): 是否启用 Headless 模式,即无界面模式,若是 devtools 这个参数是 True 的话,那么该参数就会被设置为 False,不然为 True,即默认是开启无界面模式的。
      • executablePath (str): 可执行文件的路径,若是指定以后就不须要使用默认的 Chromium 了,能够指定为已有的 Chrome 或 Chromium。
      • args (List[str]): 在执行过程当中能够传入的额外参数。
      • devtools (bool): 是否为每个页面自动开启调试工具,默认是 False。若是这个参数设置为 True,那么 headless 参数就会无效,会被强制设置为 False。
  • 关闭提示条:”Chrome 正受到自动测试软件的控制”,这个提示条有点烦,那咋关闭呢?这时候就须要用到 args 参数了,禁用操做以下:
     
    1. browser = await launch(headless=False, args=['--disable-infobars'])
  • 处理页面显示问题:访问淘宝首页app

     
    1. import asyncio
    2. from pyppeteer import launch
    3.  
    4. async def main():
    5. browser = await launch(headless=False)
    6. page = await browser.newPage()
    7. await page.goto('https://www.taobao.com')
    8. await asyncio.sleep(10)
    9.  
    10. asyncio.get_event_loop().run_until_complete(main())


    发现页面显示出现了问题,须要手动调用setViewport方法设置显示页面的长宽像素。设置以下:less

     
    1. import asyncio
    2. from pyppeteer import launch
    3.  
    4. width, height = 1366, 768
    5.  
    6. async def main():
    7. browser = await launch(headless=False)
    8. page = await browser.newPage()
    9. await page.setViewport({'width': width, 'height': height})
    10. await page.goto('https://www.taobao.com')
    11. await asyncio.sleep(3)
    12.  
    13. asyncio.get_event_loop().run_until_complete(main())
  • 执行js程序:拖动滚轮。调用evaluate方法。dom

     
    1. import asyncio
    2. from pyppeteer import launch
    3. width, height = 1366, 768
    4. async def main():
    5. browser = await launch(headless=False)
    6. page = await browser.newPage()
    7. await page.setViewport({'width': width, 'height': height})
    8. await page.goto('https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action=')
    9. await asyncio.sleep(3)
    10. #evaluate能够返回js程序的返回值
    11. dimensions = await page.evaluate('window.scrollTo(0,document.body.scrollHeight)')
    12. await asyncio.sleep(3)
    13. print(dimensions)
    14. await browser.close()
    15.  
    16. asyncio.get_event_loop().run_until_complete(main())
  • 规避webdriver检测:异步

     
    1. import asyncio
    2. from pyppeteer import launch
    3. async def main():
    4. browser = await launch(headless=False, args=['--disable-infobars'])
    5. page = await browser.newPage()
    6. await page.goto('https://login.taobao.com/member/login.jhtml?redirectURL=https://www.taobao.com/')
    7. await page.evaluate(
    8. '''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')
    9. await asyncio.sleep(10)
    10.  
    11. asyncio.get_event_loop().run_until_complete(main())
  • UA假装:
     
    1. await self.page.setUserAgent('xxx')
  • 节点交互

     
    1. import asyncio
    2. from pyppeteer import launch
    3. async def main():
    4. # headless参数设为False,则变成有头模式
    5. browser = await launch(
    6. headless=False
    7. )
    8.  
    9. page = await browser.newPage()
    10. # 设置页面视图大小
    11. await page.setViewport(viewport={'width': 1280, 'height': 800})
    12.  
    13. await page.goto('https://www.baidu.com/')
    14. #节点交互
    15. await page.type('#kw','周杰伦',{'delay': 1000})
    16. await asyncio.sleep(3)
    17. await page.click('#su')
    18. await asyncio.sleep(3)
    19. #使用选择器选中标签进行点击
    20. alist = await page.querySelectorAll('.s_tab_inner > a')
    21. a = alist[3]
    22. await a.click()
    23. await asyncio.sleep(3)
    24. await browser.close()
    25. asyncio.get_event_loop().run_until_complete(main())

    综合练习

  • 爬取头条和网易的新闻标题

     
    1. import asyncio
    2. from pyppeteer import launch
    3. from lxml import etree
    4. async def main():
    5. # headless参数设为False,则变成有头模式
    6. browser = await launch(
    7. headless=False
    8. )
    9.  
    10. page1 = await browser.newPage()
    11.  
    12. # 设置页面视图大小
    13. await page1.setViewport(viewport={'width': 1280, 'height': 800})
    14.  
    15. await page1.goto('https://www.toutiao.com/')
    16. await asyncio.sleep(2)
    17. # 打印页面文本
    18. page_text = await page1.content()
    19.  
    20. page2 = await browser.newPage()
    21. await page2.setViewport(viewport={'width': 1280, 'height': 800})
    22. await page2.goto('https://news.163.com/domestic/')
    23. await page2.evaluate('window.scrollTo(0,document.body.scrollHeight)')
    24. page_text1 = await page2.content()
    25.  
    26. await browser.close()
    27.  
    28. return {'wangyi':page_text1,'toutiao':page_text}
    29.  
    30. def parse(task):
    31. content_dic = task.result()
    32. wangyi = content_dic['wangyi']
    33. toutiao = content_dic['toutiao']
    34. tree = etree.HTML(toutiao)
    35. a_list = tree.xpath('//div[@class="title-box"]/a')
    36. for a in a_list:
    37. title = a.xpath('./text()')[0]
    38. print('toutiao:',title)
    39. tree = etree.HTML(wangyi)
    40. div_list = tree.xpath('//div[@class="data_row news_article clearfix "]')
    41. print(len(div_list))
    42. for div in div_list:
    43. title = div.xpath('.//div[@class="news_title"]/h3/a/text()')[0]
    44. print('wangyi:',title)
    45.  
    46. tasks = []
    47. task1 = asyncio.ensure_future(main())
    48. task1.add_done_callback(parse)
    49. tasks.append(task1)
    50. asyncio.get_event_loop().run_until_complete(asyncio.wait(tasks))

    爬取结果:toutiao: 「央视快评」坚守初心 为国奉献toutiao: 南航一A380客机北京降落时遭冰雹风挡现裂痕 已平安降落无人受伤toutiao: 美国正开启第二战场:围猎中国高科技企业 |“双线做战”战略意图toutiao: 云南省陆良县:农民给供销社打“白条”toutiao: 媒体:90后副县长若非靠拼爹上位 需拿出业绩服众toutiao: 南航A380飞北京客机遭遇冰雹袭击,挡风玻璃全碎toutiao: 秘鲁北部发生7.8级地震toutiao: 1958年,由捷克斯洛伐克援建的北京电影洗印厂曾为全国行业的老大toutiao: 一箭60星,发射成功!马斯克卫星互联网计划启动69wangyi: 中美经贸摩擦背后:有人在干,有人在骗wangyi: 华为回应个别标准组织撤销资格:产品服务不受影响wangyi: 隔空约架?中方主播刘欣23年前就赢得国际演讲比赛wangyi: 从钱学森到任正非 中国教育有多少底气应对全球化wangyi: 2个月内二度履新 35岁清华博士任安徽省直单位领导wangyi: 南阳“水氢发动机汽车”引热议 官方回应四大疑问wangyi: 31岁北大博士跻身县委常委 主笔6万字全县发展规划wangyi: 干部退休15年后投案自首 省委巡视办:头一次碰到wangyi: 台湾被标注"中国台湾省" 台外事部门要求更正被拒wangyi: 190天3次现场办公!南阳领导为什么钟爱青年汽车项目

相关文章
相关标签/搜索