最近打算买一辆电瓶车来上下班,但又不知道哪一个好,网上是各说纷纭啊,因而就想着,干脆用node.js本身写一个小爬虫,来爬一下中关村在线里面电瓶车的信息吧。node
(之后完整代码请前往 www.yubowen2003.com 暂时还在建设中,欢迎你们提issue😂 。)es6
该demo采用node.js做为爬虫,为方便,有些地方使用es6语法,若有不懂,欢迎咨询😊数组
本文涉及到 cheerio(相似jQuery),fetch,async/await,Promise,Set等知识,若是不懂,可能看起来稍微有一点懵promise
var cheerio = require('cheerio');
var fetch = require('node-fetch');
// cheerio 是一个相似浏览器端的jQuery,用来解析HTML的
// fetch 用来发送请求
复制代码
// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 因为每一个a标签下是相对路径,故须要一个根地址来拼接,以下
var urlRoot = "http://detail.zol.com.cn"
// 存放全部url,之因此用set,是为了防止有相同的而重复爬去
var urls = new Set()
// 存储全部数据
var data = []
复制代码
至此,咱们的准备部分结束了😅,接下来,开始表演了浏览器
每行4款,每页是48款,一共16页bash
思路:app
首先咱们定义一个函数以下async
// 这是获得每一个页面的48个连接,并开始发送请求
function ad(arg){
// 参数 arg 先无论
// 本地化一下须要爬取的连接
let url2 = arg || url;
// 请求第一页该网页,拿到数据以后,复制给 app
var app = await fetch(url2).then(res=>res.text())
// 而后伪装用jQuery解析了
var $ = cheerio.load(app)
// 获取当前页全部电瓶车的a标签
var ele = $("#J_PicMode a.pic")
// 存放已经爬取过的url,防止重复爬取
var old_urls = []
var urlapp = []
//拿到全部a标签地址以后,存在数组里面,等会儿要开始爬的
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
// 用把URL一块丢给promise处理
urlapp = await Promise.all(old_urls)
// 处理完成以后,循环加入jQuery😂
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
// 至此,一页的数据就爬完了
// console.log(data);
// 而后开始爬取下一页
var nextURL = $(".next").attr('href')
// 判断当前页是否是最后一页
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
// 获取下一页的标签,拿到地址,走你
ad(urlRoot+nextURL)
}
return data
}
ad()
复制代码
完整代码以下函数
var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = []
async function ad(arg){
let url2 = arg || url;
var app = await fetch(url2).then(res=>res.text())
var $ = cheerio.load(app)
var ele = $("#J_PicMode a.pic")
var old_urls = []
var urlapp = []
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
urlapp = await Promise.all(old_urls)
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
var nextURL = $(".next").attr('href')
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
ad(urlRoot+nextURL)
}
return data
}
ad()
复制代码