进入spark的sbin目录,打开键入python
./spark-shell
复制代码
便可进入spark-shell的目录 shell
spark-shell运行过程从上层来看,每个spark应用都是由驱动器程序发起集群上的并行操做,在spark-shell中驱动器程序就是spark-shell自己。驱动器经过SparkContext对象来访问spark。事实上在shell启动时就建立了一个SparkContext的对象,其变量是sc,经过shell来查看sc以下bash
经过sc来读取文件:oop
hello文件中的内容为spa
u'you,jump i,jump you,jump i,jump u,jump 复制代码
咱们在命令行键入命令行
val lines = sc.textFile("/spark/hello”) lines.count() lines.first() 复制代码
这里注意到,因为个人sapark是在hadoop集群环境下的,因此这里完整的目录能够理解成hdfs:///spark/hello。scala
以上这条命令,就把spark目录下hello文件装载到sc当中,但事实上,因为spark的懒加载,此时的文件只有在被操做时才会真正被读取,即lines.count()和lines.first()被执行时,才回去读取内容code
固然咱们也能够用进入执行python命令的spark-shell。方法以下 进入spark的sbin目录,打开键入cdn
./pyspark-shell
复制代码
经过python-shell统计hadoop文件目录下的 /spark/hello文件,以下对象
lines = sc.textFile('/spark/hello’) lines.count() lines.first() 复制代码
结果以下:
到这里咱们的spark-shell就算是正常执行,其中
读取/spark/hello文件:
lines = sc.textFile('/spark/hello’) 复制代码
获取总行数:
lines.count()
复制代码
第一行内容:
lines.first()
复制代码