spark dataframe和dataSet用电影点评数据实战

RDD 优势:sql 编译时类型安全  编译时就能检查出类型错误 面向对象的编程风格  直接经过类名点的方式来操做数据 缺点:shell 序列化和反序列化的性能开销  不管是集群间的通讯, 仍是IO操做都须要对对象的结构和数据进行序列化和反序列化. GC的性能开销  频繁的建立和销毁对象, 势必会增长GC DataFrame DataFrame引入了schema和off-heapapache sc
相关文章
相关标签/搜索