Spark读取文件如何区分HDFS文件和本地文件

在Hadoop集群上配置的Spark若是直接读取文件默认的是读取HDFS上的文件,那么若是想要读取本地的文件就不能直接写还须要说明以下:python

from pyspark.sql import SparkSession

def CreateSparkContext():
    # 构建SparkSession实例对象
    spark = SparkSession.builder \
        .appName("SparkSessionExample") \
        .master("local") \
        .getOrCreate()
    # 获取SparkContext实例对象
    sc = spark.sparkContext
    return sc

if __name__ == "__main__":
    # 获取SparkContext实例对象
    sc = CreateSparkContext()
    # 读取本地数据到RDD
    raw_ratings_rdd = read_file_to_RDD(sc, "file:///opt/lin/data/train/result.txt")

那么若是不加file://那么读取的就是hdfs上的文件。sql