node爬取拉勾网数据并导出为excel文件

时间 2019-12-04

标签 node 拉勾数据导出 excel 文件栏目 Microsoft Office 繁體版

原文原文链接

前言

以前断断续续学习了node.js，今天就拿拉勾网练练手，顺便经过数据了解了解最近的招聘行情哈！node方面算是萌新一个吧，但愿能够和你们共同窗习和进步。

1、概要

咱们首先须要明确具体的需求：php

能够经过node index 城市职位来爬取相关信息
也能够输入node index start直接爬取咱们预约义好的城市和职位数组，循环爬取不一样城市的不一样职位信息
将最终爬取的结果存储在本地的./data目录下
生成对应的excel文件，并存储到本地

2、爬虫用到的相关模块

fs: 用于对系统文件及目录进行读写操做
async：流程控制
superagent：客户端请求代理模块
node-xlsx：将必定格式的文件导出为excel

3、爬虫主要步骤：

初始化项目

新建项目目录前端

在合适的磁盘目录下建立项目目录 node-crwl-lagou

初始化项目java

进入node-crwl-lagou文件夹下

执行npm init，初始化package.json文件

安装依赖包node

npm install async

npm install superagent

npm install node-xlsx

命令行输入的处理

对于在命令行输入的内容，能够用process.argv来获取，他会返回个数组，数组的每一项就是用户输入的内容。
区分node index 地域职位和node index start两种输入，最简单的就是判断process.argv的长度，长度为四的话，就直接调用爬虫主程序爬取数据，长度为三的话，咱们就须要经过预约义的城市和职位数组来拼凑url了，而后利用async.mapSeries循环调用主程序。关于命令分析的主页代码以下：python

if (process.argv.length === 4) {
  let args = process.argv
  console.log('准备开始请求' + args[2] + '的' + args[3] + '职位数据');
  requsetCrwl.controlRequest(args[2], args[3])
} else if (process.argv.length === 3 && process.argv[2] === 'start') {
  let arr = []
  for (let i = 0; i < defaultArgv.city.length; i++) {
    for (let j = 0; j < defaultArgv.position.length; j++) {
      let obj = {}
      obj.city = defaultArgv.city[i]
      obj.position = defaultArgv.position[j]
      arr.push(obj)
    }
  }
  async.mapSeries(arr, function (item, callback) {
    console.log('准备开始请求' + item.city + '的' + item.position + '职位数据');
    requsetCrwl.controlRequest(item.city, item.position, callback)
  }, function (err) {
    if (err) throw err
  })
} else {
  console.log('请正确输入要爬取的城市和职位，正确格式为："node index 城市 关键词" 或 "node index start" 例如："node index 北京 php" 或"node index start"')
}

预约义好的城市和职位数组以下：android

{
    "city": ["北京","上海","广州","深圳","杭州","南京","成都","西安","武汉","重庆"],
    "position": ["前端","java","php","ios","android","c++","python",".NET"]
}

接下来就是爬虫主程序部分的分析了。ios

分析页面，找到请求地址

首先咱们打开拉勾网首页，输入查询信息（好比node），而后查看控制台，找到相关的请求，如图：c++

这个post请求https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false就是咱们所须要的，经过三个请求参数来获取不一样的数据，简单的分析就可得知：参数first是标注当前是不是第一页，true为是，false为否；参数pn是当前的页码；参数kd是查询输入的内容。git

经过superagent请求数据

首先须要明确得是，整个程序是异步的，咱们须要用async.series来依次调用。
查看分析返回的response：github

能够看到content.positionResult.totalCount就是咱们所须要的总页数
咱们用superagent直接调用post请求，控制台会提示以下信息：

{'success': False, 'msg': '您操做太频繁,请稍后再访问', 'clientIp': '122.xxx.xxx.xxx'}

这实际上是反爬虫策略之一，咱们只须要给其添加一个请求头便可，请求头的获取方式很简单，以下：

而后在用superagent调用post请求，主要代码以下：

// 先获取总页数
    (cb) => {
      superagent
        .post(`https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=${city}&kd=${position}&pn=1`)
        .send({
          'pn': 1,
          'kd': position,
          'first': true
        })
        .set(options.options)
        .end((err, res) => {
          if (err) throw err
          // console.log(res.text)
          let resObj = JSON.parse(res.text)
          if (resObj.success === true) {
            totalPage = resObj.content.positionResult.totalCount;
            cb(null, totalPage);
          } else {
            console.log(`获取数据失败:${res.text}}`)
          }
        })
    },

拿到总页数后，咱们就能够经过总页数/15获取到pn参数，循环生成全部url并存入urls中：

(cb) => {
      for (let i=0;Math.ceil(i<totalPage/15);i++) {
        urls.push(`https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=${city}&kd=${position}&pn=${i}`)
      }
      console.log(`${city}的${position}职位共${totalPage}条数据，${urls.length}页`);
      cb(null, urls);
    },

有了全部的url，在想爬到全部的数据就不是难事了，继续用superagent的post方法循环请求全部的url，每一次获取到数据后，在data目录下建立json文件，将返回的数据写入。这里看似简单，可是有两点须要注意：

为了防止并发请求太多而致使被封IP：循环url时候须要使用async.mapLimit方法控制并发为3，每次请求完都要过两秒在发送下一次的请求
在async.mapLimit的第四个参数中，须要经过判断调用主函数的第三个参数是否存在来区分一下是那种命令输入，由于对于node index start这个命令，咱们使用得是async.mapSeries，每次调用主函数都传递了(city, position, callback)，因此若是是node index start的话，须要在每次获取数据完后将null传递回去，不然没法进行下一次循环

主要代码以下：

// 控制并发为3
    (cb) => {
      async.mapLimit(urls, 3, (url, callback) => {
        num++;
        let page = url.split('&')[3].split('=')[1];
        superagent
          .post(url)
          .send({
            'pn': totalPage,
            'kd': position,
            'first': false
          })
          .set(options.options)
          .end((err, res) => {
            if (err) throw err
            let resObj = JSON.parse(res.text)
            if (resObj.success === true) {
              console.log(`正在抓取第${page}页，当前并发数量：${num}`);
              if (!fs.existsSync('./data')) {
                fs.mkdirSync('./data');
              }
              // 将数据以.json格式储存在data文件夹下
              fs.writeFile(`./data/${city}_${position}_${page}.json`, res.text, (err) => {
                if (err) throw err;
                // 写入数据完成后，两秒后再发送下一次请求
                setTimeout(() => {
                  num--;
                  console.log(`第${page}页写入成功`);
                  callback(null, 'success');
                }, 2000);
              });
            }
          })
      }, (err, result) => {
        if (err) throw err;
        // 这个arguments是调用controlRequest函数的参数，能够区分是那种爬取（循环仍是单个）
        if (arguments[2]) {
          ok = 1;
        }
        cb(null, ok)
      })
    },
    () => {
      if (ok) {
        setTimeout(function () {
          console.log(`${city}的${position}数据请求完成`);
          indexCallback(null);
        }, 5000);
      } else {
        console.log(`${city}的${position}数据请求完成`);
      }
      // exportExcel.exportExcel() // 导出为excel
    }

导出的json文件以下：

json文件导出为excel

将json文件导出为excel有多种方式，我使用的是node-xlsx这个node包，这个包须要将数据按照固定的格式传入，而后导出便可，因此咱们首先作的就是先拼出其所需的数据格式：

function exportExcel() {
  let list = fs.readdirSync('./data')
  let dataArr = []
  list.forEach((item, index) => {
    let path = `./data/${item}`
    let obj = fs.readFileSync(path, 'utf-8')
    let content = JSON.parse(obj).content.positionResult.result
    let arr = [['companyFullName', 'createTime', 'workYear', 'education', 'city', 'positionName', 'positionAdvantage', 'companyLabelList', 'salary']]
    content.forEach((contentItem) => {
      arr.push([contentItem.companyFullName, contentItem.phone, contentItem.workYear, contentItem.education, contentItem.city, contentItem.positionName, contentItem.positionAdvantage, contentItem.companyLabelList.join(','), contentItem.salary])
    })
    dataArr[index] = {
      data: arr,
      name: path.split('./data/')[1] // 名字不能包含 \ / ? * [ ]
    }
  })

// 数据格式
// var data = [
//   {
//     name : 'sheet1',
//     data : [
//       [
//         'ID',
//         'Name',
//         'Score'
//       ],
//       [
//         '1',
//         'Michael',
//         '99'
//
//       ],
//       [
//         '2',
//         'Jordan',
//         '98'
//       ]
//     ]
//   },
//   {
//     name : 'sheet2',
//     data : [
//       [
//         'AA',
//         'BB'
//       ],
//       [
//         '23',
//         '24'
//       ]
//     ]
//   }
// ]

// 写xlsx
  var buffer = xlsx.build(dataArr)
  fs.writeFile('./result.xlsx', buffer, function (err)
    {
      if (err)
        throw err;
      console.log('Write to xls has finished');

// 读xlsx
//     var obj = xlsx.parse("./" + "resut.xls");
//     console.log(JSON.stringify(obj));
    }
  );
}

导出的excel文件以下，每一页的数据都是一个sheet，比较清晰明了：

咱们能够很清楚的从中看出目前西安.net的招聘状况，以后也能够考虑用更形象的图表方式展现爬到的数据，应该会更加直观！

总结

其实整个爬虫过程并不复杂，注意就是注意的小点不少，好比async的各个方法的使用以及导出设置header等，总之，也是收获满满哒！

源码

gitbug地址： https://github.com/fighting12...