Spark读取文件

时间 2019-12-08

标签 spark 读取文件栏目 Spark 繁體版

原文原文链接

spark默认读取的是hdfs上的文件。shell

若是读取本地文件，则须要加file:///usr/local/spark/README.md。 (测试时候发现，本地文件必须在spark的安装路径内部或者平行)oop

读取hdfs文件, 能够这样指定路径 hdfs://ns1/tmp/test.txt。测试

若是不指定任何前缀，则使用hdfs的默认路径/user/data/spa

启动spark-shell:3d

因为已经在spark-defaults.conf中指定了spark.master，因此启动时默认以standalone模式加载blog

1. 读取本地文件: hadoop

spark安装路径下/usr/local/spark/README.mdspark

然鹅使用其余路径 /home/hadoop/king/spark/wordcount/data/test.txtio

2. 读取hdfs文件 ast

hdfs://ns1/tmp/test.txt

3. 不加任何前缀

默认识别的hadoop用户的目录，将刚才的test.txt拷贝到目录：hdfs://ns1/user/hadoop/

再次读取：

在实际的使用中推荐使用第二种方式处理数据。