spark分析空气中PM2.5与SO2的线性相关

1. 数据预处理 通过查看数据后我们发现数据量很庞大,每条数据中含有25个属性,这里我们只需要province、city、station、aqi、so2、no2、co、o3、pm2_5这9个属性 首先通过sed命令删除所有csv文件的第一行即列名 然后通过awk命令读取所有csv文件的第1、2、4、8、9、11、13、15、21列的数据写入test.csv文件 由于生成的csv文件是以空格作为分隔
相关文章
相关标签/搜索