nodejs爬虫

所谓爬虫就是,获取html文档,而后从中爬取出须要的数据信息。html

 

1.如何用node获取html文档node

var http = require('http')jquery

var url = 'http://www.ziroom.com/';
 

http.get(url, function (res) {
var html = '';
 
res.on('data', function (data) {
html += data;
})

res.on('end', function () {
   
 console.log(html);//这里已经彻底获取到了html
});

}).on('error', function () {
console.log('获取数据出错!');
});
 
 
2.如何操做这个html文档并进行爬虫
 
要使用cheerio这个包
https://www.npmjs.com/package/cheerio
 
这个玩意能够经过cheerio.load() 来加载一段html字符串
 
而后经过jquery操做来获取 想要的东西。
 
 
 
3.最后能够console.log或者用fs给写出来。
相关文章
相关标签/搜索