最近从新玩起了node,便总结下基本的东西,在本文中经过node的superagent与cheerio来抓取分析网页的数据。css
superagent 抓取网页html
cheerio 分析网页node
Node(个人6.0)jquery
三个依赖, express(4X),superagent 和 cheerio。git
superagent(http://visionmedia.github.io/superagent/ ) 是个 http 方面的库,能够发起 get 或 post 请求。github
cheerio(https://github.com/cheeriojs/cheerio )为服务器特别定制的,快速、灵活、实施的jQuery. 用来从网页中以 css selector 取数据,使用方式跟 jquery 同样。express
那么我将抓取本身博客的数据。(有兴趣的朋友能够锦上添花一下,用正则筛选阅读数很多于400的文章.)服务器
1 var express = require('express'); 2 var superagent = require('superagent'); 3 var cheerio = require('cheerio'); 4 5 var app = express(); 6 app.get('/', function (req, res, next) { 7 superagent.get('http://www.cnblogs.com/LIUYANZUO') 8 .end(function (err, sres) { 9 if (err) { 10 return next(err); 11 } 12 // sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 以后 13 // 就能够获得一个实现了 jquery 接口的变量,咱们习惯性地将它命名为 `$` 14 // 剩下就都是 jquery 的内容了 15 var $ = cheerio.load(sres.text); 16 var items = []; 17 $('.day .postTitle2').each(function (index, element) { 18 var $element = $(element); 19 items.push({ 20 标题: $element.text(), 21 网址: $element.attr('href') 22 }); 23 }); 24 res.send(items); 25 }); 26 }); 27 28 app.listen(4000, function () { 29 console.log('app is listenling at port 4000'); 30 });
在命令行运行,获得截图并发
固然这是最简单的,下一篇我想介绍下node的异步并发。app