统计词频并可视化

时间 2020-01-22

标签统计词频可视化繁體版

原文原文链接

最近参加一个NLP的竞赛，赛方提供了10万条数据。因为是脱敏数据，因此做NLP以前须要先做word2vec，这时就须要将标点符号和无心义的词（好比“的”）去掉，咱们采用的方法就是去掉高频词，因此首先要找到高频词。如何找到高频词呢，这里固然能够使用dict了，可是有没有更高级一点的方法呢。web 固然有了，咱们能够使用collections的Counter，而且使用Pandas来替代读取数据的解

>>阅读原文<<