Node.js爬虫--网页请求模块

注:如您下载最新的nodegrass版本,因为部分方法已经更新,本文的例子已经再也不适应,详细请查看开源地址中的例子。
1、为何我要写这样一个模块?html

源于笔者想使用Node.js写一个爬虫,虽然Node.js官方API提供的请求远程资源的方法已经很是简便,具体参考node

http://nodejs.org/api/http.html 其中对于Http的请求提供了,http.get(options, callback)和http.request(options, callback)两个方法,git

看方法便知,get方法用于get方式的请求,而request方法提供更多的参数,例如其它请求方式,请求主机的端口等等。对于Https的请求于Http相似。一个最简单的例子:github

 

 1   var https = require('https');  
  2   
  3 https.get('https://encrypted.google.com/',   function(res) {  
  4   console.log("statusCode: ", res.statusCode);  
  5   console.log("headers: ", res.headers);  
  6   
  7   res.on('data',   function(d) {  
  8     process.stdout.write(d);  
  9   });  
 10   
 11 }).on('error',   function(e) {  
 12   console.error(e);  
 13 });编程

对于以上代码,咱们无非就是想请求远程主机,获得响应信息,例如响应状态,响应头,响应主体内容。其中get方法的第二个参数是一个回调函数,咱们异步的获取响应信息,而后,在该回调函数中,res对象又监听data,on方法中第二个参数又是一个回调,而你获得d(你请求到的响应信息)后,极可能在对它进行操做的时候再次引入回调,一层层下去,最后就晕了。。。对于异步方式的编程,对于一些习惯同步方式写代码的同窗是很是纠结的,固然国内外已经对此提供了一些很是优秀的同步类库,例如老赵的Wind.js......好像有点扯远了。其实,咱们调用get最终要获得的无非就是响应信息,而不关心res.on这样的监听过程,由于太懒惰。不想每次都res.on('data',func),因而诞生了今天我要介绍的nodegrass。api

 

2、nodegrass请求资源,像Jquery的$.get(url,func)服务器

一个最简单的例子:app

 

1   var nodegrass = require('nodegrass');  
 2 nodegrass.get("http://www.baidu.com",  function(data,status,headers){  
 3     console.log(status);  
 4     console.log(headers);  
 5     console.log(data);  
 6 },'gbk').on('error',   function(e) {  
 7     console.log("Got error: " + e.message);  
 8 });异步

咋一看,和官方原来的get没啥区别,确实差很少=。=!只不过少了一层res.on('data',func)的事件监听回调而已。无论你信不信,反正我看上去感受舒服多了,第二个参数一样是一个回调函数,其中的参数data是响应主体内容,status是响应状态,headers是响应头。获得响应内容,咱们就能够对获得的资源提取任何咱们感兴趣的信息啦。固然这个例子中,只是简单的打印的控制台而已。第三个参数是字符编码,目前Node.js不支持gbk,这里nodegrass内部引用了iconv-lite进行了处理,因此,若是你请求的网页编码是gbk的,例如百度。只需加上这个参数就好了。函数

 

那么对于https的请求呢?若是是官方api,你得引入https模块,可是请求的get方法等和http相似,因而nodegrass顺便把他们整合在一块了。看例子:

 

1   var nodegrass = require('nodegrass');  
 2 nodegrass.get("https://github.com",  function(data,status,headers){  
 3     console.log(status);  
 4     console.log(headers);  
 5     console.log(data);  
 6 },'utf8').on('error',   function(e) {  
 7     console.log("Got error: " + e.message);  
 8 });

 

nodegrass会根据url自动识别是http仍是https,固然你的url必须得有,不能只写www.baidu.com/而须要http://www.baidu.com/

 

对于post的请求,nodegrass提供了post方法,看例子:

 

 

var ng=require('nodegrass');  
ng.post("https://api.weibo.com/oauth2/access_token",  function(data,status,headers){  
      var accessToken = JSON.parse(data);  
      var err =   null;  
      if(accessToken.error){  
         err = accessToken;  
    }  
    callback(err,accessToken);  
    },headers,options,'utf8');

 

以上是新浪微博Auth2.0请求accessToken的一部分,其中使用nodegrass的post请求access_token的api。

post方法相比get方法多提供了headers请求头参数,options--post的数据,它们都是对象字面量的类型:

 

 1   var headers = {  
  2         'Content-Type': 'application/x-www-form-urlencoded',  
  3         'Content-Length':data.length  
  4     };  
  5   
  6   var options = {  
  7              client_id : 'id',  
  8          client_secret : 'cs',  
  9          grant_type : 'authorization_code',  
 10          redirect_uri : 'your callback url',  
 11          code: acode  
 12     };

 

3、利用nodegrass作代理服务器?……**

看例子:

 

var ng = require('nodegrass'),  
     http=require('http'),  
     url=require('url');  
 
     http.createServer(  function(req,res){  
          var pathname = url.parse(req.url).pathname;  
          
          if(pathname === '/'){  
            ng.get('http://www.cnblogs.com/',  function(data){  
                res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'});  
                res.write(data+"\n");  
                res.end();  
                },'utf8');  
            }  
     }).listen(8088);  
     console.log('server listening 8088...');

 

 就这么简单,固然代理服务器还有复杂的多,这个不算是,但至少你访问本地8088端口,看到的是否是博客园的页面呢?

nodegrass的开源地址:https://github.com/scottkiss/nodegrass

相关文章
相关标签/搜索