之前写爬虫,遇到须要登陆的页面,通常都是经过chrome的检查元素,查看登陆须要的参数和加密方法,若是网站的加密很是复杂,例如登陆qq的,就会很蛋疼
在后面,有了Pyv8,就能够把加密的js文件扔给它,而后返回加密后的字符串。可是Pyv8只能安装在Centos7的版本,并且耗用内存也比较大。
如今有了PhantomJS,不再须要考虑登陆的参数和加密了,用PhantomJS打开页面,经过JS或JQuery语句,填入帐号和密码,而后点击登陆,而后把Cookies保存下来,就能够模拟登陆了。javascript
# yum -y install gcc gcc-c++ make flex bison gperf ruby \ openssl-devel freetype-devel fontconfig-devel libicu-devel sqlite-devel \ libpng-devel libjpeg-devel # git clone git://github.com/ariya/phantomjs.git # cd phantomjs # git checkout 2.0 # ./build.sh
var page = require('webpage').create();
page.open('http://www.baidu.com', function() { });
第二个参数是打开页面后回调的函数html
page.evaluate(function() { $("button").click(); console.info($("button")) });
包裹在evaluate里面的js语句是在沙箱里面运行的,沙箱的上下文环境就是open的页面的环境,因此在这里能够经过js语句访问页面的元素,例如$("body").html()
因为在沙箱中执行,因此console.info不会输出的终端,若是须要输出到终端,就要设置回调函数:java
page.onConsoleMessage = function(msg) { console.log(msg); };
获取页面的cookiesc++
console.info(JSON.stringify(page.cookies))
cookies的数据结构,至关于{"age":"12"}
:git
[ { "domain": "info.aaa.com", "httponly": false, "name": "age", "path": "/", "secure": false, "value": "12" } ]
page.viewportSize = { width: 1366, height: 600 };//设置页面的尺寸 page.render('info_test.png');
若是截图后,中文字符显示为方框,安装字体库github
yum install bitmap-fonts bitmap-fonts-cjk
var page = require('webpage').create(), system = require('system'), address, output, size; if (system.args.length != 5) { console.log('Usage: test.js domain username password projects screen_shot_path '); phantom.exit(1); } else { var domain = system.args[1] var username = system.args[2] var password = system.args[3] var projects = system.args[4] var root_shot_path = system.args[5] }
setTimtout
setInterval
来等待沙箱中执行的js语句,例如等待里面的ajax完成等。var page = require('webpage').create(); page.viewportSize = { width: 1366, height: 600 }; var url='http://www.mysite.com/login' page.open(url, function() { ret=page.evaluate(function() { $("#username")[0].value='lujianxing' $("#password")[0].value='test' $("#submit").click(); }); setTimeout('print_cookies()',10000) }); function print_cookies(){ console.info(JSON.stringify(page.cookies, undefined, 4)) phantom.exit() }
phantomjs test.js
参考
PhantomJS官网web
转载请带上我ajax