pyspark中的dataframe的观察操做

时间 2019-11-11

标签 pyspark dataframe 观察栏目 Spark 繁體版

原文原文链接

来自于：http://www.bubuko.com/infodetail-2802814.html

sparkDF.show()【这是pandas中没有的】：打印内容html

sparkDF.head()：打印前面的内容函数

sparkDF.describe()：统计信息spa

sparkDF.printSchema()：打印schema，列的属性信息打印出来【这是pandas中没有的】htm

sparkDF.columns：将列名打印出来图片

【select函数，原pandas中没有】get

sparkDF.select(‘列名1‘,‘列名2‘).show()：选择dataframe的两列数据显示出来pandas

sparkDF.select ( sparkDF[‘列名1‘]+1 , ‘列名2‘ ).show()：直接对列1进行操做（值+1）打印出来spark

filter【相似pandas中dataframe的采用列名来筛选功能】select

sparkDF.filter ( sparkDF[‘value‘] == 100 ).show()：将value这一列值为100的行筛选出来csv

distinct()函数：将重复值去除

sparkDF.count()：统计dataframe中有多少行

将评分为100的电影数量统计出来：