使用 Swift语言进行 Hadoop 数据流应用程序开发

时间 2019-11-16

标签使用 swift 语言进行 hadoop 数据流应用程序开发栏目 Swift 繁體版

原文原文链接

本文详细源代码请参考 Github Perfect Examplesgit

该项目展现了如何使用 Swift 语言开发 Hadoop 流处理应用程序。github

该软件使用SPM进行编译和测试，本软件也是Perfect项目的一部分。本软件包可独立使用，所以使用时能够脱离PerfectLib等其余组件。swift

请确保您已经安装并激活了最新版本的 Swift 3.0 tool chain 工具链。服务器

问题报告、内容贡献和客户支持

咱们目前正在过渡到使用JIRA来处理全部源代码资源合并申请、修复漏洞以及其它有关问题。所以，GitHub 的“issues”问题报告功能已经被禁用了。微信

若是您发现了问题，或者但愿为改进本文提供意见和建议，请在这里指出.app

在您开始以前，请参阅目前待解决的问题清单.工具

简介

本项目包括两类 Hadoop 流处理应用程序：映射器 mapper 和总结器 reducer。这两类程序都是标准的控制台终端程序，即从标准输入读数据readLine()后推送到标准输出print()。oop

映射器的范例程序 mapper 是未来自标准输入的文本拆分为一个一个的英语单词，而后采用下列格式进行打印（假设输入内容是Hello, world! hello!）:性能

hello 1
world 1
hello 1

而总结器 reducer 的目标是将这些输入进行统计，最后造成单词统计表：测试

hello 2
world 1

两个程序的结合使用便可提供单词统计的功能。

Hadoop 的 Map Reduce 正是为上述任务在大数据环境下而设计的，这里的大数据指的是单个文件输入达到 GB 甚至 TB。

映射器 mapper

import CoreFoundation

// 处理每一行文本
public func lineMain() -> Bool {

  // 从输入中读取一行；若是为nil则表示输入已经关闭了
  guard let line = readLine() else {
    return false
  }

  // 简单处理一下文字，取小写并过滤符号
  let filter = line.lowercased().characters.filter{ $0 >= "a" && $0 <= "z" || $0 == " " }

  // 而后再把单词输出，并增长一个“1”
  filter.split(separator: " ").forEach { raw in
    let word = String(raw)
    print("\(word)\t1")
  }
  return true
}

// 从输入流中读取全部文本行
while(lineMain()){}

总结器 reducer

import CoreFoundation

// 单词表
var dic: [String: Int] = [:]

// 行处理器
public func lineMain() -> Bool {

  // 从标准输入读取一行数据
  guard let line = readLine() else {
    return false
  }

  // 拆分红单词及其统计数量
  let e = line.characters.split(separator: "\t")
  if e.count < 2 {
    return true
  }//end if
  // 保存到单词表
  let key = String(e[0])
  let value = Int(String(e[1])) ?? 0
  let count = dic[key] ?? 0
  dic[key] = count + value
  return true
}


// 处理全部行
while(lineMain()){}

// 打印结果
dic.keys.sorted().forEach { key in
  let value = dic[key] ?? 0
  print("\(key)\t\(value)")
}

编译

因为采用标准流程序开发，所以编译这些应用不须要任何其余依存关系。您只需打开一个终端窗口并运行swift build命令便可：

$ cd mapper
$ swift build
$ cd ../reducer
$ swift build

测试

在部署到Hadoop 集群以前，您能够尝试在普通的命令行环境下进行测试（testdata.txt 文件是一个常规的文本文件，采用ASCII或UTF-8编码便可）。本工程目录下包括了能够用于测试的数据文件和脚本。

$ cat testdata.txt | ./mapper/.build/release/mapper | sort | ./reducer/.build/release/reducer

在 Hadoop 上运行程序

和上面的管道操做相似，试验成功后您能够尝试在一个真正的 Hadoop 集群上跑一下新编写的程序了：

$ mapred streaming -input /user/rockywei/input -output /user/rockywei/output -mapper /usr/local/bin/mapper -reducer /usr/local/bin/reducer

若是任务成功，您能够用下列命令在集群上查看输出：

$ hadoop fs -cat /user/rockywei/output/part-00000

详细说明

上述映射-总结程序的细节解释参考以下：

mapred streaming: 向 Hadoop 集群申请一个新的应用程序任务，采用流处理模式（即纯文本）。
-input /user/rockywei/input: 在HADOOP HDFS文件系统上的 输入文件夹。典型状况是您须要向Hadoop 管理员帮助您用hadoop fs -mkdir命令行创建文件，而后再经过命令将待处理数据上传到该文件夹：hadoop fs -put [cluster folder] /local/pathto/data.txt。
-output /user/rockywei/output: 在HADOOP HDFS文件系统上的 输出文件夹。特别注意最后一个子目录/output不该该建立，也就是说，只要您有/user/rockywei就好，mapreduce 会自动建立这个输出文件夹。
-mapper /usr/local/bin/mapper: 咱们刚编译好的映射器，您能够采用下列命令安装到服务器本地文件夹： swift build; sudo mv ./.build/release/mapper /usr/local/bin。
-reducer /usr/local/bin/reducer: 咱们刚编译好的总结器，您能够采用下列命令安装到服务器本地文件夹swift build; sudo mv ./.build/release/reducer /usr/local/bin。

下一步：Perfect Hadoop

Hadoop 是一个大数据生态系统 —— 包括 HDFS 高性能多冗余文件系统，Map-Reduce 文件处理程序和 YARN 集群资源管理系统 —— 构成了最基本的大数据系统。

如上所示，在 Hadoop 上编写流处理程序是一个很简单的工做，也不须要依赖于特定的软件体系。可是，除了编写流处理程序以外，您还可使用 Perfect Hadoop 作更多更强大的事情——任务控制、大文件上下载、集群节点监控——如今全部这些工做均可以使用Swift 语言实现了！