Python之文本词频统计

本人近期学习了一下关于利用Python统计统计中英文文本词频的应用,故记录一下。 在一篇中英文文本中,有些词总会重复出现,此次要做的工作就是分别统计中英文文本中的词频,英文文本以哈姆雷特剧本为文本,中文文本以三国演义为文本。 1、英文文本 英文文本如图: 对于英文文本来说,有几个问题需要考虑,首先是文本中出现的各种符号,在英文中出现的各类符号此处采用的处理方式为均用空格代替,其次是字母大小写问题,
相关文章
相关标签/搜索