自然语言处理NLP(三)

样本点中的关键度量指标:距离 定义: 常用距离: 欧氏距离,euclidean--通常意义下的距离; 马氏距离,manhattan--考虑到变量间的相关性,且与变量单位无关; 余弦距离,cosine--衡量变量相似性; TF-IDF矩阵 一种用于资讯检索和勘察的一种加权技术,是一种统计方法,用于评估词语或字对文件集与语料库中的重要程度; TF-IDF:TF(词频)和IDF(倒文档频率)的乘积,其中
相关文章
相关标签/搜索