原文:http://tecdat.cn/?p=3994html
对于非结构化的网站中文评论信息,r的中文词频包多是用来挖掘其潜在信息的好工具,要分析文本内容,最多见的分析方法是提取文本中的词语,并统计频率。频率能反映词语在文本中的重要性,通常越重要的词语,在文本中出现的次数就会越多。词语提取后,还能够作成词云,让词语的频率属性可视化,更加直观清晰。 工具
好比对于以下的网站评论信息:优化
经过一系列的文本处理和高频词汇的提取,最后结合聚类,咱们能够获得以下的可视化结果。网站
第一类客户:url
第二类 spa
第三类 htm
这是根据某网站成交评论制做的可视化词云,词频的统计,分词和词云的制做都是用R,最后作了聚类,将不一样的用户聚成了3个类别。这个图能很直观看到,每一个类别的客户的特色。不过这张图中的词语还须要进行优化,由于有些术语或词组可能被拆分红了更小的词语,没有展现出来,为了演示,我就没再花更多时间去优化词库,主要介绍分析的过程与方法。blog