以前断断续续学习了node.js,今天就拿拉勾网练练手,顺便经过数据了解了解最近的招聘行情哈!node方面算是萌新一个吧,但愿能够和你们共同窗习和进步。
咱们首先须要明确具体的需求:php
node index 城市 职位
来爬取相关信息./data
目录下新建项目目录前端
在合适的磁盘目录下建立项目目录 node-crwl-lagou
初始化项目java
- 进入node-crwl-lagou文件夹下
- 执行npm init,初始化package.json文件
安装依赖包node
- npm install async
- npm install superagent
- npm install node-xlsx
对于在命令行输入的内容,能够用process.argv
来获取,他会返回个数组,数组的每一项就是用户输入的内容。
区分node index 地域 职位
和node index start
两种输入,最简单的就是判断process.argv的长度,长度为四的话,就直接调用爬虫主程序爬取数据,长度为三的话,咱们就须要经过预约义的城市和职位数组来拼凑url了,而后利用async.mapSeries循环调用主程序。关于命令分析的主页代码以下:python
if (process.argv.length === 4) { let args = process.argv console.log('准备开始请求' + args[2] + '的' + args[3] + '职位数据'); requsetCrwl.controlRequest(args[2], args[3]) } else if (process.argv.length === 3 && process.argv[2] === 'start') { let arr = [] for (let i = 0; i < defaultArgv.city.length; i++) { for (let j = 0; j < defaultArgv.position.length; j++) { let obj = {} obj.city = defaultArgv.city[i] obj.position = defaultArgv.position[j] arr.push(obj) } } async.mapSeries(arr, function (item, callback) { console.log('准备开始请求' + item.city + '的' + item.position + '职位数据'); requsetCrwl.controlRequest(item.city, item.position, callback) }, function (err) { if (err) throw err }) } else { console.log('请正确输入要爬取的城市和职位,正确格式为:"node index 城市 关键词" 或 "node index start" 例如:"node index 北京 php" 或"node index start"') }
预约义好的城市和职位数组以下:android
{ "city": ["北京","上海","广州","深圳","杭州","南京","成都","西安","武汉","重庆"], "position": ["前端","java","php","ios","android","c++","python",".NET"] }
接下来就是爬虫主程序部分的分析了。ios
首先咱们打开拉勾网首页,输入查询信息(好比node),而后查看控制台,找到相关的请求,如图:c++
这个post请求https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false
就是咱们所须要的,经过三个请求参数来获取不一样的数据,简单的分析就可得知:参数first
是标注当前是不是第一页,true为是,false为否;参数pn
是当前的页码;参数kd
是查询输入的内容。git
首先须要明确得是,整个程序是异步的,咱们须要用async.series来依次调用。
查看分析返回的response:github
能够看到content.positionResult.totalCount就是咱们所须要的总页数
咱们用superagent直接调用post请求,控制台会提示以下信息:
{'success': False, 'msg': '您操做太频繁,请稍后再访问', 'clientIp': '122.xxx.xxx.xxx'}
这实际上是反爬虫策略之一,咱们只须要给其添加一个请求头便可,请求头的获取方式很简单,以下:
而后在用superagent调用post请求,主要代码以下:
// 先获取总页数 (cb) => { superagent .post(`https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=${city}&kd=${position}&pn=1`) .send({ 'pn': 1, 'kd': position, 'first': true }) .set(options.options) .end((err, res) => { if (err) throw err // console.log(res.text) let resObj = JSON.parse(res.text) if (resObj.success === true) { totalPage = resObj.content.positionResult.totalCount; cb(null, totalPage); } else { console.log(`获取数据失败:${res.text}}`) } }) },
拿到总页数后,咱们就能够经过总页数/15
获取到pn参数,循环生成全部url并存入urls中:
(cb) => { for (let i=0;Math.ceil(i<totalPage/15);i++) { urls.push(`https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=${city}&kd=${position}&pn=${i}`) } console.log(`${city}的${position}职位共${totalPage}条数据,${urls.length}页`); cb(null, urls); },
有了全部的url,在想爬到全部的数据就不是难事了,继续用superagent的post方法循环请求全部的url,每一次获取到数据后,在data目录下建立json文件,将返回的数据写入。这里看似简单,可是有两点须要注意:
node index start
这个命令,咱们使用得是async.mapSeries,每次调用主函数都传递了(city, position, callback)
,因此若是是node index start
的话,须要在每次获取数据完后将null传递回去,不然没法进行下一次循环主要代码以下:
// 控制并发为3 (cb) => { async.mapLimit(urls, 3, (url, callback) => { num++; let page = url.split('&')[3].split('=')[1]; superagent .post(url) .send({ 'pn': totalPage, 'kd': position, 'first': false }) .set(options.options) .end((err, res) => { if (err) throw err let resObj = JSON.parse(res.text) if (resObj.success === true) { console.log(`正在抓取第${page}页,当前并发数量:${num}`); if (!fs.existsSync('./data')) { fs.mkdirSync('./data'); } // 将数据以.json格式储存在data文件夹下 fs.writeFile(`./data/${city}_${position}_${page}.json`, res.text, (err) => { if (err) throw err; // 写入数据完成后,两秒后再发送下一次请求 setTimeout(() => { num--; console.log(`第${page}页写入成功`); callback(null, 'success'); }, 2000); }); } }) }, (err, result) => { if (err) throw err; // 这个arguments是调用controlRequest函数的参数,能够区分是那种爬取(循环仍是单个) if (arguments[2]) { ok = 1; } cb(null, ok) }) }, () => { if (ok) { setTimeout(function () { console.log(`${city}的${position}数据请求完成`); indexCallback(null); }, 5000); } else { console.log(`${city}的${position}数据请求完成`); } // exportExcel.exportExcel() // 导出为excel }
导出的json文件以下:
将json文件导出为excel有多种方式,我使用的是node-xlsx
这个node包,这个包须要将数据按照固定的格式传入,而后导出便可,因此咱们首先作的就是先拼出其所需的数据格式:
function exportExcel() { let list = fs.readdirSync('./data') let dataArr = [] list.forEach((item, index) => { let path = `./data/${item}` let obj = fs.readFileSync(path, 'utf-8') let content = JSON.parse(obj).content.positionResult.result let arr = [['companyFullName', 'createTime', 'workYear', 'education', 'city', 'positionName', 'positionAdvantage', 'companyLabelList', 'salary']] content.forEach((contentItem) => { arr.push([contentItem.companyFullName, contentItem.phone, contentItem.workYear, contentItem.education, contentItem.city, contentItem.positionName, contentItem.positionAdvantage, contentItem.companyLabelList.join(','), contentItem.salary]) }) dataArr[index] = { data: arr, name: path.split('./data/')[1] // 名字不能包含 \ / ? * [ ] } }) // 数据格式 // var data = [ // { // name : 'sheet1', // data : [ // [ // 'ID', // 'Name', // 'Score' // ], // [ // '1', // 'Michael', // '99' // // ], // [ // '2', // 'Jordan', // '98' // ] // ] // }, // { // name : 'sheet2', // data : [ // [ // 'AA', // 'BB' // ], // [ // '23', // '24' // ] // ] // } // ] // 写xlsx var buffer = xlsx.build(dataArr) fs.writeFile('./result.xlsx', buffer, function (err) { if (err) throw err; console.log('Write to xls has finished'); // 读xlsx // var obj = xlsx.parse("./" + "resut.xls"); // console.log(JSON.stringify(obj)); } ); }
导出的excel文件以下,每一页的数据都是一个sheet,比较清晰明了:
咱们能够很清楚的从中看出目前西安.net的招聘状况,以后也能够考虑用更形象的图表方式展现爬到的数据,应该会更加直观!
其实整个爬虫过程并不复杂,注意就是注意的小点不少,好比async的各个方法的使用以及导出设置header等,总之,也是收获满满哒!
gitbug地址: https://github.com/fighting12...