nodejs爬虫

时间 2019-11-16

标签 nodejs 爬虫栏目网络爬虫繁體版

原文原文链接

所谓爬虫就是，获取html文档，而后从中爬取出须要的数据信息。html

1.如何用node获取html文档node

var http = require('http')jquery

var url = 'http://www.ziroom.com/';

http.get(url, function (res) {

var html = '';

res.on('data', function (data) {

html += data;

})

res.on('end', function () {

console.log(html);//这里已经彻底获取到了html

});

}).on('error', function () {

console.log('获取数据出错!');

});

2.如何操做这个html文档并进行爬虫

要使用cheerio这个包

https://www.npmjs.com/package/cheerio

这个玩意能够经过cheerio.load() 来加载一段html字符串

而后经过jquery操做来获取想要的东西。

3.最后能够console.log或者用fs给写出来。

相关文章

相关标签/搜索

爬虫－反爬虫

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<