NodeJS基础-9 HTTP小爬虫

1、代码

//网页爬虫
var http = require('http');
var url = 'http://www.imooc.com/learn/348';

http.get(url,function(res){
	var html =''
	
	res.on('data',function(data){ //当response 有data事件触发,有一个回调函数
		html += data;
	})
	
	res.on('end',function(){ //最后触发一个end事件
		console.log(html);
	})
}).on('error' ,function(){
	console.log('获取课程数据出错!')
}); //超时或异常

获取到url页面内全部内javascript

二、分析源码,过滤出章节信息

//网页爬虫
var http = require('http');
var url = 'http://www.imooc.com/learn/348';

http.get(url,function(res){
	var html =''
	
	res.on('data',function(data){ //当response 有data事件触发,有一个回调函数
		html += data;
	})
	
	res.on('end',function(){ //最后触发一个end事件
		//将html做为参数穿给信息过滤函数
		
		filterChapters(html);// 过滤出章节信息
	})
}).on('error' ,function(){
	console.log('获取课程数据出错!')
}); //超时或异常


//在服务器端解析html代码

function filterChapters(){
	
}

为了在服务器端解析html代码须要安装模块cheerio,像jquery同样能够操做装载后的HTMLhtml

3.安装cheerio

直接安装模块发现出现错误java

解决方式:node

切换到安装nodejs文件下的nodejs\node_modules\npm  后执行npm install cheeriojquery

而后能够在nodeJS中直接requirenpm

相关文章
相关标签/搜索