KNN分类器-Java实现

时间 2019-12-10

标签 knn 分类器 java 实现栏目 Java 繁體版

原文原文链接

KNN，即K近邻算法。其基本思想或者说是实现步骤以下：算法

（1）计算样本数据点到每一个已知类别的数据集中点的距离数组

（2）将（1）中获得的距离按递增顺序排列 dom

（3）选取（2）中前K个点（即与当前样本距离最小的K个已知类别的数据点）函数

（4）统计（3）中获得的K个点所在类别的出现频率测试

（5）返回（4）中出现频率最高的类别做为样本点的预测类别 this

在给出具体实现代码以前，说明一点：Java下的矩阵操做类基于开源jama包，我本身基于它的源码，作了部分必要的扩充和修改。 orm

具体实现代码以下：排序

/** get

* Created by Song on 2016/9/30. 源码

public class KnnHandler implements DMHandler {

//训练集中，每一个特征的最小值

private Matrix minVals;

//训练集中，每一个特征的最大值

private Matrix maxVals;

//训练集中，每一个特征的取值范围

private Matrix ranges;

public KnnHandler(Matrix dataSet){

double [][] minMax = dataSet.getMinMax();

this.minVals = new Matrix(minMax[0],1);

this.maxVals = new Matrix(minMax[1],1);

this.ranges = maxVals.minus(minVals);

}

/**

* 归一化特征值

* @param dataSet 特征集

public Matrix autoNorm(Matrix dataSet){

double[][] norm = dataSet.getArray();

for(int j=0;j<dataSet.getColumnDimension();j++){

for(int i=0;i<norm.length;i++){

norm[i][j] = (norm[i][j]-minVals.get(0,j))/ranges.get(0,j);

}

return new Matrix(norm);

}

/**

* K近邻算法

* @param sample 待评估样本

* @param dataSet 数据集

* @param labels 数据集中，每行数据对应的类别

* @param rate 将距离按由小至大排列，按比例选择固定数量的类别

public double classify(Matrix sample,Matrix dataSet,Matrix labels,double rate){

//统计样本频率

HashMap<Double,Integer> levels = new HashMap<Double, Integer>();

//遍历类别，得出一共有几类

for(int i=0;i<labels.getRowDimension();i++){

if(!levels.containsKey(labels.get(i,0))) levels.put(labels.get(i,0),0);

}

//得到距离，并递增排序

Matrix sortedDistance = sample.distance(dataSet).expand(labels,true).sort();

//取前num个数据

int num = (int)Math.ceil(sortedDistance.getRowDimension()*rate);

for(int i=0;i<num;i++){ levels.put(sortedDistance.get(i,1),levels.get(sortedDistance.get(i,1))+1);

}

//按频率排序

double targetLevel = 0;

int count = 0;

for(double key:levels.keySet()){

if(levels.get(key)>count) {

count = levels.get(key);

targetLevel = key;

}

return targetLevel;

}

//测试

public static void main(String [] args){

//随机生成训练集（已知类别）

Random random = new Random();

double [][] dataSet = new double[100][4];

for(int i=0;i<100;i++){

for(int j=0;j<4;j++){

dataSet[i][j]=random.nextInt(10);

}

//训练集中100组数据对应的类别

double [] lables = new double[100];

for(int i=0;i<100;i++){

lables[i]=i/10;

}

//生成待分类样本

double [] sample = {1,2,3,4};

//KNN操做类实例化

KnnHandler handler = new KnnHandler(new Matrix(dataSet)); //handler.autoNorm(new Matrix(dataSet)).print(4,3);

//输出分类结果

System.out.println(handler.classify(new Matrix(sample,1),new Matrix(dataSet),new Matrix(lables,1).transpose(),0.3));

}

其中部分函数，例如构造器中得到数据集中每一个特征的最小最大取值（即一个二维数组中每列值的最小最大值）方法getMinMax()等，都是本身基于jama源码扩充获得的，原理很简单，此处就不列出来了。能够看出，KNN分类是一种很是基础的分类算法，适用于数值型数据。经过计算未知数据点到已知数据点的距离，来判断其具体分类。