天然语言处理NLP（三）

时间 2021-08-13

标签算法 markdown ide idea 对象 blog 文档 class 效率栏目 Markdown 繁體版

原文原文链接

样本点中的关键度量指标：距离

定义：
经常使用距离：
- 欧氏距离，euclidean--一般意义下的距离；
- 马氏距离，manhattan--考虑到变量间的相关性，且与变量单位无关；
- 余弦距离，cosine--衡量变量类似性；

TF-IDF矩阵

一种用于资讯检索和勘察的一种加权技术，是一种统计方法，用于评估词语或字对文件集与语料库中的重要程度；
TF-IDF:TF(词频)和IDF(倒文档频率)的乘积，其中TF表示某个关键词出现的频率，IDF为全部文档数目除以包含该词语的文档数目的对数值，|D|表示全部文档的数目，|wεd|表示包含词语w的文档数目；

聚类算法

一、开始时每一个样本各自做为一类；
二、规定某种度量做为样本间距及类与类之间的距离，并计算；
三、将距离最短的两个类聚为一个新类；
四、重复2-3，不断汇集最近的两个类，每次减小一个类，直到全部样本被聚为一类；算法

一、选择K个点做为初始质心；
二、将每一个点指派到最近的质心，造成K个簇(聚类)
三、从新计算每一个簇的质心；
四、重复2-3直至质心基本不变，此时算法达到稳定状态；
须要屡次运行，而后比较各次运行结果，而后选取最优解，K值使用肘部法则进行肯定；markdown

算法将具备足够高密度的区域划分为簇，并能够发现任何形状的聚类；
r-邻域：给定点半径r内的区域；
核心点：若一个点的r-邻域至少包含最少数目M个点，则称该点为核心点；
直接密度可达：若p点在核心点q的r-邻域内，则p是从q出发能够直接密度可达；
若存在点链P1,P2,...,Pn,P1=q,Pn=P,Pi+1是从Pi关于r和M直接密度可达，则称点P是从q关于r和M密度可达的；
若样本集D中存在点o，使得p，q是从o关于r和M密度可达的，那么点p、q是关于r和M密度相连的；
算法基本思想：
一、指定合适的r和M；
二、计算全部样本点，若点p的r邻域中有超过M个点，则建立一个以p为核心点的新簇；
三、反复查找这些核心点直接密度可达(以后为密度可达)的点，将其加入到相应的簇，对于核心点发生“密度相连”情况的簇，进行合并；
四、当无新的点能够被添加到任何簇时，算法完成；

类相互之间的距离的计算方法