Spark的transformation和action算子简介

时间 2019-11-05

标签 spark transformation action 算子简介栏目 Spark 繁體版

原文原文链接

transformation算子

map(func)

返回一个新的分布式数据集，由每一个原元素通过func函数处理后的新元素组成 shell

filter(func)

返回一个新的数据集，由通过func函数处理后返回值为true的原元素组成数组

flatMap(func)

相似于map，可是每个输入元素，会被映射为0个或多个输出元素，(所以，func函数的返回值是一个seq，而不是单一元素) 并发

mapPartitions(func)

相似于map，对RDD的每一个分区起做用，在类型为T的RDD上运行时，func的函数类型必须是Iterator[T]=>Iterator[U]分布式

sample(withReplacement,fraction,seed)

根据给定的随机种子seed，随机抽样出数量为fraction的数据 ide

pipe(command,[envVars])

经过管道的方式对RDD的每一个分区使用shell命令进行操做，返回对应的结果函数

union(otherDataSet)

返回一个新的数据集，由原数据集合参数联合而成 oop

intersection(otherDataset)

求两个RDD的交集性能

distinct([numtasks])

返回一个包含源数据集中全部不重复元素的i新数据集 spa

groupByKey([numtasks])

在一个由(K,v)对组成的数据集上调用，返回一个(K,Seq[V])对组成的数据集。默认状况下，输出结果的并行度依赖于父RDD的分区数目，若是想要对key进行聚合的话，使用reduceByKey或者combineByKey会有更好的性能orm

reduceByKey(func,[numTasks])

在一个(K,V)对的数据集上使用，返回一个(K,V)对的数据集，key相同的值，都被使用指定的reduce函数聚合到一块儿，reduce任务的个数是能够经过第二个可选参数来配置的

sortByKey([ascending],[numTasks])

在类型为(K,V)的数据集上调用，返回以K为键进行排序的(K,V)对数据集，升序或者降序有boolean型的ascending参数决定

join(otherDataset,[numTasks])

在类型为(K,V)和(K,W)类型的数据集上调用，返回一个(K,(V,W))对，每一个key中的全部元素都在一块儿的数据集

cogroup(otherDataset,[numTasks])

在类型为(K,V)和(K,W)类型的数据集上调用，返回一个数据集，组成元素为(K,Iterable[V],Iterable[W]) tuples

cartesian(otherDataset)

笛卡尔积，但在数据集T和U上调用时，返回一个(T,U)对的数据集，全部元素交互进行笛卡尔积

coalesce(numPartitions)

对RDD中的分区减小指定的数目，一般在过滤完一个大的数据集以后进行此操做

repartition(numpartitions)

将RDD中全部records平均划分到numparitions个partition中

action算子

reduce(func)

经过函数func汇集数据集中的全部元素，这个函数必须是关联性的，确保能够被正确的并发执行

collect()

在driver的程序中，以数组的形式，返回数据集的全部元素，这一般会在使用filter或者其它操做后，返回一个足够小的数据子集再使用

count()

返回数据集的元素个数

first()

返回数据集的第一个元素(相似于take(1))

take(n)

返回一个数组，由数据集的前n个元素组成。注意此操做目前并不是并行执行的，而是driver程序所在机器

takeSample(withReplacement,num,seed)

返回一个数组，在数据集中随机采样num个元素组成，能够选择是否用随机数替换不足的部分，seed用于指定的随机数生成器种子

saveAsTextFile(path)

将数据集的元素，以textfile的形式保存到本地文件系统hdfs或者任何其余Hadoop支持的文件系统，spark将会调用每一个元素的toString方法，并将它转换为文件中的一行文本

takeOrderd(n,[ordering])

排序后的limit(n)

saveAsSequenceFile(path)

将数据集的元素，以sequencefile的格式保存到指定的目录下，本地系统，hdfs或者任何其余hadoop支持的文件系统，RDD的元素必须由key-value对组成。并都实现了hadoop的writable接口或隐式能够转换为writable

saveAsObjectFile(path)

使用Java的序列化方法保存到本地文件，能够被sparkContext.objectFile()加载
countByKey()
对(K,V)类型的RDD有效，返回一个(K,Int)对的map，表示每个能够对应的元素个数

foreach(func)

在数据集的每个元素上，运行函数func,t一般用于更新一个累加器变量，或者和外部存储系统作交互