利用Spark Streaming来实现实时的数据管道服务

时间 2019-11-17

标签利用 spark streaming 实现实时数据管道服务栏目 Spark 繁體版

原文原文链接

如今须要搜集用户的行为记录，以前咱们打算采用AWS提供的服务，大体架构是这样的：html

创建一个rest来收集来自服务器或者是终端的(从手机端，网页)的数据，以后将这些数据放到 Kinesis Streaming之中，而后经过AWS的firehose将数据放到S3或者RedShift中。可是如今有两个问题，Amazon中国目前尚未firehose这个service，二是可能打算将获取到的数据流放到HDFS或者其余地方，而且可能须要作一些比较简单的运算。考虑到效率以及拓展性，咱们采用了Spark Streaming来代替firehose(关于Spark Streaming效率问题，能够参考这里)。java

为何不本身写呢？我想用这句话回答会比较好－"You can spend more time focusing on your application and less time on your infrastructure."。看你关心的层面了，作数据分析，应该把更多精力放在核心业务上。apache

关于Spark Streaming以及如何作集成Kinesis，能够参看官方文档：服务器

1.Spark Streaming Programming Guide架构

2.Spark Streaming + Kinesis Integrationapp

关于spark-streaming-kinesis-asl_2.10, 和spark-core会有版本冲突，下面给出个人依赖关系，供你们参考：less

scalaVersion := "2.10.4"

libraryDependencies ++= Seq(
  "com.amazonaws" % "aws-java-sdk-kinesis" % "1.10.4",
  "com.amazonaws" % "amazon-kinesis-client" % "1.4.0",
  "org.apache.spark" % "spark-core_2.10" % "1.4.1" % "provided",
  "org.apache.hadoop" % "hadoop-client" % "2.6.0",
  "org.apache.hbase" % "hbase-client" % "1.0.0",
  "org.apache.hbase" % "hbase-common" % "1.0.0",
  "org.apache.spark" % "spark-streaming_2.10" % "1.4.1",
  "org.apache.spark" % "spark-streaming-kinesis-asl_2.10" %  "1.4.1"
)