pyspark使用-dataframe操做

1、读取csv文件sql

1.用pandas读取app

import pandas as pd
from pyspark.sql import SparkSession
spark=SparkSession.builder.appName("test").getOrCreate()
f=pd.read_csv("filePath")
df=spark.createDataFrame(f)

可是pandas和spark数据转换的时候速度很慢,因此不建议这么作ui

2.直接读取spa

spark.read.format("csv").options(header="True",sep=",",encoding="utf-8",inferschema='true').load("path")
相关文章
相关标签/搜索