在Hadoop集群上配置的Spark若是直接读取文件默认的是读取HDFS上的文件,那么若是想要读取本地的文件就不能直接写还须要说明以下:python
from pyspark.sql import SparkSession def CreateSparkContext(): # 构建SparkSession实例对象 spark = SparkSession.builder \ .appName("SparkSessionExample") \ .master("local") \ .getOrCreate() # 获取SparkContext实例对象 sc = spark.sparkContext return sc if __name__ == "__main__": # 获取SparkContext实例对象 sc = CreateSparkContext() # 读取本地数据到RDD raw_ratings_rdd = read_file_to_RDD(sc, "file:///opt/lin/data/train/result.txt")
那么若是不加file://那么读取的就是hdfs上的文件。sql