Spark入门（一）--用Spark-Shell初尝Spark滋味

时间 2019-11-09

标签 spark 入门 shell 滋味栏目 Spark 繁體版

原文原文链接

Spark-Shell的使用

执行scala命令的spark-shell

进入spark的sbin目录，打开键入python

./spark-shell
复制代码

便可进入spark-shell的目录 shell

spark-shell运行过程从上层来看，每个spark应用都是由驱动器程序发起集群上的并行操做，在spark-shell中驱动器程序就是spark-shell自己。驱动器经过SparkContext对象来访问spark。事实上在shell启动时就建立了一个SparkContext的对象，其变量是sc，经过shell来查看sc以下bash

经过sc来读取文件：oop

hello文件中的内容为spa

u'you,jump i,jump you,jump i,jump u,jump 复制代码

咱们在命令行键入命令行

val lines = sc.textFile("/spark/hello”) lines.count() lines.first() 复制代码

这里注意到，因为个人sapark是在hadoop集群环境下的，因此这里完整的目录能够理解成hdfs:///spark/hello。scala

以上这条命令，就把spark目录下hello文件装载到sc当中，但事实上，因为spark的懒加载，此时的文件只有在被操做时才会真正被读取，即lines.count()和lines.first()被执行时，才回去读取内容code

执行python命令的spark-shell

固然咱们也能够用进入执行python命令的spark-shell。方法以下进入spark的sbin目录，打开键入cdn

./pyspark-shell
复制代码

经过python-shell统计hadoop文件目录下的 /spark/hello文件，以下对象

lines = sc.textFile('/spark/hello’) lines.count() lines.first() 复制代码

结果以下：

到这里咱们的spark-shell就算是正常执行，其中

读取/spark/hello文件：

lines = sc.textFile('/spark/hello’) 复制代码

获取总行数：

lines.count()
复制代码

第一行内容：

lines.first()
复制代码