Spark机器学习API之特征处理（一）

时间 2019-12-12

标签 spark 机器学习 api 特征处理栏目 Spark 繁體版

原文原文链接

Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，另外一种是spark.ml，这种是higher-level API，基于DataFrames之上构建，spark.ml使用起来比较方便和灵活。sql

Spark机器学习中关于特征处理的API主要包含三个方面：特征提取、特征转换与特征选择。本文经过例子介绍和学习Spark.ml中提供的关于特征处理的API。apache

特征提取（Feature Extractors）app

1. TF-IDF (HashingTF and IDF)机器学习

TF-IDF是文本特征提取中一个经常使用的方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。关于spark.ml中提供的HashingTF和IDF的原理和用法，在以前的文章http://lxw1234.com/archives/2016/01/605.htm中已经介绍过，这里再也不介绍。工具

2. Word2Vec学习

Word2Vec是一个将单词转换成向量形式的工具。能够把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的类似度，来表示文本语义上的类似度。大数据

大数据学习交流群：724693112 欢迎你们来一块儿学习。spa

下面的例子将每一个文档中的词语转换成长度为3的向量：orm

package com.lxw1234.spark.featureshtm

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.ml.feature.Word2Vec

/**

* auth: http://lxw1234.com

object TestWord2Vec {

def main(args : Array[String]) {

val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")

val sc = new SparkContext(conf)

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

import sqlContext.implicits._

val documentDF = sqlContext.createDataFrame(Seq(

"苹果官网苹果宣布".split(" "),

"苹果梨香蕉".split(" ")

).map(Tuple1.apply)).toDF("text")

val word2Vec = new Word2Vec().setInputCol("text").setOutputCol("result").setVectorSize(3).setMinCount(1)

val model = word2Vec.fit(documentDF)

val result = model.transform(documentDF)

result.collect().foreach(println)

}

程序运行输出以下：

[WrappedArray(苹果, 官网, 苹果, 宣布),[0.006021047011017799,-0.002911671996116638,0.05357655562693253]]

[WrappedArray(苹果, 梨, 香蕉),[-0.10302492479483286,-0.059321289261182145,0.05107089380423228]]

3. CountVectorizer

该方法用于将全部的文本词语进行编号，每一个词语对应一个编号，并统计该词语在文档中的词频做为特征向量。

package com.lxw1234.spark.features

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}

/**

* auth: http://lxw1234.com

object TestCountVectorizer {

def main(args : Array[String]) {

val conf = new SparkConf().setMaster("local").setAppName("lxw1234.com")

val sc = new SparkContext(conf)

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

import sqlContext.implicits._

val df = sqlContext.createDataFrame(Seq(

(0, Array("苹果","官网","苹果","宣布")),

(1, Array("苹果","梨","香蕉"))

)).toDF("id", "words")

var cvModel: CountVectorizerModel = new CountVectorizer()

.setInputCol("words")

.setOutputCol("features")

.setVocabSize(5) //设置词语的总个数，词语编号后的数值均小于该值

.setMinDF(1) //设置包含词语的最少的文档数

.fit(df)

println("output1:")

cvModel.transform(df).select("id","words","features").collect().foreach(println)

var cvModel2: CountVectorizerModel = new CountVectorizer()

.setInputCol("words")

.setOutputCol("features")

.setVocabSize(3) //设置词语的总个数，词语编号后的数值均小于该值

.setMinDF(2) //设置包含词语的最少的文档数

.fit(df)

println("output2:")

cvModel2.transform(df).select("id","words","features").collect().foreach(println)

}

程序output1的输出以下：

[0,WrappedArray(苹果, 官网, 苹果, 宣布),(5,[0,3,4],[2.0,1.0,1.0])]

[1,WrappedArray(苹果, 梨, 香蕉),(5,[0,1,2],[1.0,1.0,1.0])]

程序output2的输出以下：

[0,WrappedArray(苹果, 官网, 苹果, 宣布),(1,[0],[2.0])]

[1,WrappedArray(苹果, 梨, 香蕉),(1,[0],[1.0])]

由于setMinDF(2)设置了词语最低出现的文档数为2，所以只保留了”苹果”一词。