使用Pyspark进行特征工程时的那些坑

时间 2019-12-13

标签使用 pyspark 进行特征工程那些繁體版

原文原文链接

以脚本spark_clean_online_action.py、数据集new_sxf_time_count_1781115582.csv为例：集群节点包括2十二、21六、21七、218。须要注意的是：python

每台节点有且仅有Python 2.7.5 和Python 2.6.8 两个环境完成相关依赖安装

一、上传待处理文件到HDFSapp

二、Pyspark默认调用的是Python 2.7.5 解释器，因此需更改调用版本，每一个节点执行： export PYSPARK_PYTHON=/usr/local/python3/bin/python3spa

三、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client spark_clean_online_action.pycode

或者不执行2和3，仅执行：get

四、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/local/python3/bin/python3 spark_clean_online_action.pypandas

版本

pandas==0.20.3
pyspark==2.3.0
pyarrow==0.12.1