pyspark必知必会(持续更新中)

RDD 和DF 联系 都是弹性分布式数据集,轻量集 惰性机制,延迟计算 根据内存情况,自动缓存,加快计算速度 都有partition概念 众多相同的算子 区别 DF引入了schema和off-heap schema RDD每一行的数据结构都是一样的 off-heap 意味着JVM堆以外的内存 RDD 优点: 强大,内置很多函数操作,group,map,filter等,方便处理结构化或非结构化数据
相关文章
相关标签/搜索