使用JAVA进行词频统计

在使用TF-IDF计算文章关键词的时候,须要知道某个词的词频是多少,使用 idf = Math.log(10000 + 10000.0 / (docFreq + 1)) 这个公式求解出idf的值。通常来讲,词频统计越准确,每一个词的idf的值就越准确,而词频的准确性与语料的多少有关,语料天然越多越好,可是一般状况下10G的数据量应该足够了。java 假设如今咱们有了10G的新闻语料和词列表,如今就
相关文章
相关标签/搜索