Spark词频统计测试

数据:中华书局白话版24史,总计大小93M,已经存放到HDFS集群 分析语言:python 分析框架:Spark 1.6.0 第三方包:jieba(结巴分词) 可视化工具:D3.JS 源代码: from  pyspark import SparkConf, SparkContext import jieba,Wordfilter,datetime,WordCloud,webbrowser from
相关文章
相关标签/搜索