最近项目中由于要用到大矩阵之间的相乘操做,若是使用java来写的话数据量上来以后会很是消耗资源,所以考虑使用spark来进行计算处理,网上查找资料正好找到了Spark的机器学习库Spark-Mllib里面有一些矩阵的操做,所以拿来进行测试,可是由于主程序是java程序,网上找到了一些写法也都是scala的 并且没有具体的相乘的例子,只有一些原理介绍,本人之前也没学过线性数学相关的知识,看的一脸懵逼,没办法本身慢慢对照梳理带上连蒙带猜的,总算有了一些小小的成果,在此分享下最后的结果以及踩过的坑.java
1,Pom.xml引入 Spark-Mllib 类库apache
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-mllib --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artifactId> <version>2.3.1</version> <scope>runtime</scope> </dependency>
这里须要注意,由于咱们须要使用相关API,因此这里<scope>runtime</scope>这句要去掉,使用默认的依赖方式就好了机器学习
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artifactId> <scope>runtime</scope> </dependency>
2,代码学习
public static void main(String[] args) { SparkConf sparkConf = new SparkConf().setAppName("Mllib-test").setMaster("local"); JavaSparkContext jpc = new JavaSparkContext(sparkConf); double[][] data = new double[4][4] ; data[0][0] = 0.0; data[0][1] = 2.0; data[0][2] = 3.0; data[0][3] = 4.0; data[1][0] = 1.0; data[1][1] = 3.0; data[1][2] = 4.0; data[1][3] = 5.0; data[2][0] = 2.0; data[2][1] = 4.0; data[2][2] = 5.0; data[2][3] = 6.0; data[3][0] = 3.0; data[3][1] = 5.0; data[3][2] = 6.0; data[3][3] = 7.0; JavaRDD<IndexedRow> rdd=jpc.parallelize(Arrays.asList(data)).map(f->{ long key = new Double(f[0]).longValue(); double[] value = new double[f.length-1]; for(int i = 1;i<f.length;i++) { value[i-1] = f[i]; } return new IndexedRow(key,Vectors.dense(value)); }); BlockMatrix block = new IndexedRowMatrix(rdd.rdd()).toBlockMatrix(2, 2); double[][] data1 = new double[3][3] ; data1[0][0] = 0.0; data1[0][1] = 100.0; data1[0][2] = 10.0; data1[1][0] = 1.0; data1[1][1] = 10.0; data1[1][2] = 100.0; data1[2][0] = 2.0; data1[2][1] = 1.0; data1[2][2] = 1000.0; JavaRDD<IndexedRow> rdd1 = jpc.parallelize(Arrays.asList(data1)).map(f->{ long key = new Double(f[0]).longValue(); double[] value = new double[f.length-1]; for(int i = 1;i<f.length;i++) { value[i-1] = f[i]; } return new IndexedRow(key,Vectors.dense(value)); }); BlockMatrix block1 = new IndexedRowMatrix(rdd1.rdd()).toBlockMatrix(2, 2); block = block.multiply(block1); }
注意: 由于使用的是IndexedRowMatrix,因此矩阵的第一列为矩阵行号,并且行号这个要严谨0开始的自增数字,必定要切记,我就在此吃了很大的亏.测试