pyspark程序 从hdfs上读取文件,并将结果存回到hdfs

本次使用到的数据文件 导入必要的包,因为用到的是pyspark,最好导入findspark,可以避免一些看不懂的错误 初始化sparkcontext,local为本地工作方式,topapp为随意取的名字 从hdfs上读取文件,并输出第一行看数据结构方便后面操作 将text转化为list对象(rdd调用collect后变为list对象) 自定义函数,将list数据按空格切开 将text2转化为dat
相关文章
相关标签/搜索