Python利用Phantomjs抓取渲染JS后的网页

时间 2019-11-09

标签 python 利用 phantomjs 抓取渲染网页栏目 Python 繁體版

原文原文链接

最近须要爬取某网站，无奈页面都是JS渲染后生成的，普通的爬虫框架搞不定，因而想到用Phantomjs搭一个代理。html

Python调用Phantomjs貌似没有现成的第三方库（若是有，请告知小2），漫步了一圈，发现只有pyspider提供了现成的方案。python

简单试用了一下，感受pyspider更像一个为新手打造的爬虫工具，比如一个老妈子，有时无微不至，有时喋喋不休。
轻巧的小工具应该更受人喜好，我也怀着一点私心，能够带着我最爱的BeautifulSoup一起用，而不用再学PyQuery（pyspider用来解析HTML），更不用忍受浏览器写Python的糟糕体验（偷笑）。git

因此花了一个下午的时间，把pyspider当中实现Phantomjs代理的部分拆了出来，独立成一个小的爬虫模块，但愿你们会喜欢（感谢binux！）。github

准备工做

你固然要有Phantomjs，废话！（Linux下最好用supervisord守护，必须保持抓取的时候Phantomjs一直处于开启状态）
用项目路径下的phantomjs_fetcher.js启动：phantomjs phantomjs_fetcher.js [port]
安装tornado依赖（使用了tornado的httpclient模块）

调用是超级简单的

pythonfrom tornado_fetcher import Fetcher

# 建立一个爬虫
>>> fetcher=Fetcher(
    user_agent='phantomjs', # 模拟浏览器的User-Agent
    phantomjs_proxy='http://localhost:12306', # phantomjs的地址
    poolsize=10, # 最大的httpclient数量
    async=False # 同步仍是异步
    )
# 开始链接Phantomjs的代理，能够渲染JS！
>>> fetcher.phantomjs_fetch(url)
# 渲染成功后执行额外的JS脚本（注意用function包起来！）
>>> fetcher.phantomjs_fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')

老规矩，代码在小2的Github了，欢迎指正：PhantomjsFetchersegmentfault

来自：建造者说浏览器