最近须要爬取某网站,无奈页面都是JS渲染后生成的,普通的爬虫框架搞不定,因而想到用Phantomjs搭一个代理。html
Python调用Phantomjs貌似没有现成的第三方库(若是有,请告知小2),漫步了一圈,发现只有pyspider提供了现成的方案。python
简单试用了一下,感受pyspider更像一个为新手打造的爬虫工具,比如一个老妈子,有时无微不至,有时喋喋不休。
轻巧的小工具应该更受人喜好,我也怀着一点私心,能够带着我最爱的BeautifulSoup一起用,而不用再学PyQuery(pyspider用来解析HTML),更不用忍受浏览器写Python的糟糕体验(偷笑)。git
因此花了一个下午的时间,把pyspider当中实现Phantomjs代理的部分拆了出来,独立成一个小的爬虫模块,但愿你们会喜欢(感谢binux!)。github
phantomjs phantomjs_fetcher.js [port]
pythonfrom tornado_fetcher import Fetcher # 建立一个爬虫 >>> fetcher=Fetcher( user_agent='phantomjs', # 模拟浏览器的User-Agent phantomjs_proxy='http://localhost:12306', # phantomjs的地址 poolsize=10, # 最大的httpclient数量 async=False # 同步仍是异步 ) # 开始链接Phantomjs的代理,能够渲染JS! >>> fetcher.phantomjs_fetch(url) # 渲染成功后执行额外的JS脚本(注意用function包起来!) >>> fetcher.phantomjs_fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')
老规矩,代码在小2的Github了,欢迎指正:PhantomjsFetchersegmentfault
来自:建造者说浏览器