统计词频并可视化

最近参加一个NLP的竞赛,赛方提供了10万条数据。因为是脱敏数据,因此做NLP以前须要先做word2vec,这时就须要将标点符号和无心义的词(好比“的”)去掉,咱们采用的方法就是去掉高频词,因此首先要找到高频词。 如何找到高频词呢, 这里固然能够使用dict了,可是有没有更高级一点的方法呢。web 固然有了,咱们能够使用collections的Counter,而且使用Pandas来替代读取数据的解
相关文章
相关标签/搜索