Spark词频统计测试

时间 2021-01-08

原文原文链接

数据：中华书局白话版24史，总计大小93M，已经存放到HDFS集群分析语言：python 分析框架：Spark 1.6.0 第三方包：jieba（结巴分词）可视化工具：D3.JS 源代码： from pyspark import SparkConf, SparkContext import jieba,Wordfilter,datetime,WordCloud,webbrowser from