pyspark程序从hdfs上读取文件，并将结果存回到hdfs

时间 2021-01-20

标签 spark程序从hdfs读取文件 spark程序将结果存到hdfs中 pyspark程序从hdfs读取文件并将结果存回hdfs 如何从hdfs中读取、写入数据 spark程序从hdfs读取并写入文件栏目 Hadoop 繁體版

原文原文链接

本次使用到的数据文件导入必要的包，因为用到的是pyspark，最好导入findspark，可以避免一些看不懂的错误初始化sparkcontext，local为本地工作方式，topapp为随意取的名字从hdfs上读取文件，并输出第一行看数据结构方便后面操作将text转化为list对象（rdd调用collect后变为list对象）自定义函数，将list数据按空格切开将text2转化为dat

>>阅读原文<<

pyspark程序 从hdfs上读取文件，并将结果存回到hdfs

pyspark程序从hdfs上读取文件，并将结果存回到hdfs