1)定义html
Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streamsjava
1)在线安装nc命令mysql
#安装web
上传nc-1.84-22.el6.x86_64.rpm包到software目录,再安装sql
#启动shell
启动以后在下边能够进行数据输入,而后就可以从spark端进行词频统计(如2)所示)数据库
2)运行Spark Streaming 的WordCountapache
#数据输入编程
#结果统计bootstrap
注:把日志级别调整为WARN才能出现以上效果,不然会被日志覆盖,影响观察
3)把文件经过管道做为nc的输入,而后观察spark Streaming计算结果
文件具体内容
1)Spark Streaming数据流处理
2)接收器工做原理
3)综合工做原理
1)StreamingContext初始化的两种方式
#第一种
#第二种
2)集群测试
#启动spark
#在nc服务器端输入数据
#结果统计
1)spark-shell运行Streaming程序,要么线程数大于1,要么基于集群。
2)spark 运行模式
a)编写测试代码,并本地运行
b)启动nc服务发送数据
1)保存到mysql数据库
而后在nc服务器端输入数据,统计结果则会写入数据库内的webCount表中。
2)保存到hdfs
这种方法相比于写入数据库则更简单了,感兴趣的请参考下面代码自行测试一下。
特别说明:每次执行,HDFS文件内容都会被重置覆盖!
1)complete输出模式
2)update输出模式
这种模式下你在nc服务器端继续输入,则会一直统计刚才输入及历史输入的值,而若是把outputMod修改成“update”,则会根据历史输入进行统计更新,而且只显示出最近一次输入value值更新后的统计结果。
3)append输出模式
把outputMod修改成“append”的话代码也要有一点小小的修改
能够看出,这种模式只是把每次输入进行简单追加而已。
1)准备工做
根据官网要求,咱们以前的kafka的版本低了,须要下载一个至少0.10.0版本的。
下载地址 http://kafka.apache.org/downloads
修改配置很简单,只须要把咱们原来配置的/config文件夹复制过来替换便可,并按照原来的配置新建kafka-logs和logs文件夹。而后,将配置文件夹中路径修改掉便可。
2)编写测试代码并启动运行
咱们把包上传上来(3个节点都这样作)
启动spark-shell
把代码拷贝进来
这个时候必定要保持kafka和生产者是开启的:
在生产者这边输入几个单词
回到spark-shell界面能够看到统计结果
咱们先把mysqld的test数据库的webCount的表的内容清除
打开idea,咱们编写两个程序
在pom.xml文件里添加这个依赖包
我在这里说一下这个依赖包版本的选择上最好要跟你集群里面的依赖包版本同样,否则可能会报错的,能够参考hive里的Lib路径下的版本。
保持集群的dfs,hbase,yarn,zookeeper,都是启动的状态
启动咱们节点1和节点2的flume,在启动以前咱们先修改一下flume的配置,由于咱们把jdk版本和kafka版本后面更换了,因此咱们要修改配置文件(3个节点的都改)
启动节点1的flume
启动节点1的kafka
启动节点2的flume
在节点2上把数据启动起来,实时产生数据
回到idea咱们把程序运行一下
回到mysql里面查看webCount表,已经有数据进来了
咱们把配置文件修改以下
把表删除了
从新建立表
从新在运行一次程序
能够看到没有中文乱码了,同时咱们也能够经过可视化工具链接mysql查看
以上就是博主为你们介绍的这一板块的主要内容,这都是博主本身的学习过程,但愿能给你们带来必定的指导做用,有用的还望你们点个支持,若是对你没用也望包涵,有错误烦请指出。若有期待可关注博主以第一时间获取更新哦,谢谢!同时也欢迎转载,但必须在博文明显位置标注原文地址,解释权归博主全部!