数据异常到底该如何检测?(二)

有了之前的铺垫和理论,本文就用一些现实中的实际数据进行一些具体的算法的应用。数据为网络访问日志文件,主要选择了单位时间内的访问请求次数与单位访问中的动作数作为二维特征,并且便于可视化的显示,下面分别进行三种异常算法尝试:   1. K-means: 算法原理:根据特征向量之间的距离度量进行无监督的训练样本聚类。选定聚类数K,随机选择初始点,并根据距离确定训练数据点的聚类标签,然后重新计算聚类中心,
相关文章
相关标签/搜索