关于文本的Brich层次聚类

时间 2020-12-23

原文原文链接

1.文本聚类的一般性过程：一般生成文档向量矩阵的格式是，每一行代表一个文档，每一列是一个维度代表该文档这个词的权重，没出现这个词就是0，几千个文件维度在10多w左右（看文档的大小），这么大的维度人脑想也想到了，矩阵将是及其稀疏的，也就是说，在一个高维空间中，几千个点几乎都聚在了一起，虽说彼此之间有距离，但是距离非常之小，很明显这样聚类效果肯定非常差，实测过，跟抛硬币的概率一样。于是将矩阵稠密一点

>>阅读原文<<

1. 层次聚类（文档聚类）
2. 聚类（中）层次聚类基于密度的聚类算法
3. 层次聚类
4. ML10-层次聚类
5. matlab 层次聚类
6. MATLAB 层次聚类
7. 聚类--KM、DBACSN，层次聚类
8. 聚类算法之层次聚类
9. 8.3聚类（Clustering）:hierarchical clustering 层次聚类
10. 聚类系列-层次聚类（Hierarchical Clustering）
更多相关文章...
• C# 文本文件的读写 - C#教程
• 与传输层有关的基本知识 - TCP/IP教程
• Kotlin学习（二）基本类型
• ☆基于Java Instrument的Agent实现