一种数据选择误差下的去相关聚类方法

一种数据选择误差下的去相关聚类方法

做者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/git

    本博文是对Decorrelated clustering with data selection bias这篇文章的展开与叙述。现有的聚类算法大多没有考虑数据的选择误差。然而,在许多实际应用中,人们不能保证数据是无偏的。选择误差可能会致使特征之间产生意想不到的相关性,忽略这些意想不到的相关性会影响聚类算法的性能。所以,如何消除这些由选择误差引发的非预期相关性是很是重要的,但在聚类过程当中尚未被深刻探讨。在本文中,提出了一种新的去相关正则化k -均值算法(DCKM),用于有数据选择误差的聚类。具体来讲,去相关正则化器的目的是学习可以平衡样本分布的全局样本权值,从而消除特征之间的非预期相关性。同时,将学习到的权值与k-means相结合,使从新加权后的k-means聚类对数据的固有分布没有非预期的相关性影响。此外,本文还推导出了更新规则,以有效地推断DCKM中的参数。在真实数据集上的大量实验结果很好地证实了DCKM算法得到了显著的性能提高,代表在聚类时须要去除由选择误差引发的非预期特征关联。github

参考文献:算法

[1] Xiao Wang, Shaohua Fan, Kuang Kun, Chuan Shi, Jiawei Liu, Bai Wang. Decorrelated clustering with data selection bias. IJCAI 2020. (CCF-A)性能

[2] 王啸, 石川, 范少华. 一种数据选择误差下的去相关聚类方法及装置[发明专利], 申请号: 2020105917421. 学习

王啸老师我的主页:https://wangxiaocs.github.io/spa

相关文章
相关标签/搜索