此次介绍如何利用weka里的类对数据集进行分类,要对数据集进行分类,第一步要指定数据集中哪一列作为类别,若是这一步忘记了(事实上常常会忘记)会出现“Class index is negative (not set)!”这个错误,设置某一列为类别用Instances类的成员方法setClassIndex,要设置最后一列为类别则能够用Instances类的numAttributes()成员方法获得属性的个数再减1。java
而后选择分类器,比较经常使用的分类器有J48,NaiveBayes,SMO(LibSVM有Java版的,能够在weka中使用,但要设置路径),训练分类器使用J48的buildClassifier(注意J48还有别的分类器它们都继承自Classifier类,使用方法都差很少),分类数据用J48类中的classifyInstance方法,例中使用的数据集为contact-lenses.arff,分类结果为2.0,结果为2.0的缘由是:首先用文本编辑器打开数据集,有一行为@attribute contact-lenses {soft, hard, none},而第一个样本为young, myope, no, reduced, none,最后一列为类别,也就是contact-lences为类别,第一个样本的类别为none,在属性说明中none为第二个因此为2.0(从0开始数)。编辑器
package instanceTest; import java.io.FileReader; import weka.classifiers.trees.J48; import weka.core.Instances; public class ClassifierTest { private Instances m_instances = null; public void getFileInstances( String fileName ) throws Exception{ FileReader frData = new FileReader( fileName ); m_instances = new Instances( frData ); m_instances.setClassIndex( m_instances.numAttributes() - 1 ); } public void classify() throws Exception{ J48 classifier = new J48(); //NaiveBayes classifier = new NaiveBayes(); //SMO classifier = new SMO(); classifier.buildClassifier( m_instances ); System.out.println( classifier.classifyInstance( m_instances.instance( 0 ) ) ); } public static void main( String[] args ) throws Exception{ ClassifierTest ctest = new ClassifierTest(); ctest.getFileInstances( "F://Program Files//Weka-3-4//data//contact-lenses.arff"); ctest.classify(); } }