简单的新闻分类算法(流程图描述)

在指定网页中,某个关键词出现的次数除以该网页长度称为该关键词在此网页中的词频。对新闻类网页,存在一组的关键词。所以,每一个新闻页都存在一组词频,称为该新闻网页的特征向量。 设两个新闻网页的特征向量分别为:甲(a1 ,a2,.... ak)、乙(b1 ,b2,.... bk),则计算这个网页的类似度时需先计算它们的内积S=a1b1+a2b2+.....+akbk。通常状况下,新闻网页特征向量的维数
相关文章
相关标签/搜索