Spark入门（二）--如何用Idea运行咱们的Spark项目

时间 2019-11-09

标签 spark 入门如何 idea 运行咱们项目栏目 Spark 繁體版

原文原文链接

用Idea搭建咱们的Spark环境

用IDEA搭建咱们的环境有不少好处，其中最大的好处，就是咱们甚至能够在工程当中直接运行、调试咱们的代码，在控制台输出咱们的结果。或者能够逐行跟踪代码，了解spark运行的机制。所以咱们选择了idea，固然Idea不是首选，固然也能够用其余工具。由于咱们的Spark程序用scala和java写，须要有java环境来做为支撑。所以任何可以支撑java程序的开发工具，应该都可以搭建咱们的Spark程序。我这里是MAC环境下，固然若是你是windows不用担忧，这里只涉及到idea的操做，不涉及操做系统环境的更改，因此你无须担忧，由于Idea在Mac下和windows下并没有多大差异java

第一步，下载插件，若是你只想用Java而不想用Scala，则能够跳过这一步

在preference中找到plugins，搜索scala，而后下载该插件python

第二步,建立maven项目

第三步，导入scala的SDK，若是你只想用Java而不想用Scala，则能够跳过这一步

打开project structure mysql

导入SDK sql

此时能够建立Scala的class文件了 shell

第四步，在pom中导入插件和依赖

插件主要是帮助打包scala包，方便再spark平台上发布咱们的程序。固然仅仅最开始咱们尽量将项目运行在idea中，而不须要发布。依赖是spark运行所必须的jar，其中spark的核心spark-core主要是用scala编写的，固然你也可以用java去使用。apache

在pom文件中导入windows

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>sparkdemo</groupId>
    <artifactId>sparkdemo</artifactId>
    <version>1.0-SNAPSHOT</version>

    <build>
        <finalName>HiveTest</finalName>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.scala-tools</groupId>
                <artifactId>maven-scala-plugin</artifactId>
                <version>2.15.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.8.4</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.3</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.11</artifactId>
            <version>2.1.3</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.1.3</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>2.1.3</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.11</artifactId>
            <version>2.1.3</version>
        </dependency>



        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.20</version>
        </dependency>
    </dependencies>

</project>
复制代码

第五步，运行咱们的第一个程序

当咱们学习任何一项技术的时候，咱们都有一个爱好，喜欢先输出Hello，World！在Spark中亦是如此，咱们第一个项目也是Hello，World！固然不少人说，spark的Hello，World！应该是字数统计（即统计一本书的或者一个文件的单词数）。固然这也没错，毕竟spark的最核心的功能是大数据和机器学习，可是对一个初学者来讲，我认为，不妨再简单些。api

建立Scala文件bash

接下来能够开始写咱们的第一个第一个程序。机器学习

首先建立一个SparkConf()，即spark的基础配置，主要设置了master为“local”即运行在本机而非集群，第二个是AppName。然后建立SparkContext，这里取名为sc和咱们在spark-shell中默认的一致。最后为sc设置内容，即一个list，其中包含三句话。依次输出三句话

scala实现

package spark

import org.apache.spark.{SparkConf, SparkContext}

object HelloWorld {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("HelloWorld")

    val sc = new SparkContext(conf)

    val helloWorld = sc.parallelize(List("Hello,World!","Hello,Spark!","Hello,BigData!"))

    helloWorld.foreach(line => println(line))
  }

}
复制代码

运行获得：

Hello,World!
Hello,Spark!
Hello,BigData!
复制代码

java实现

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

import java.util.Arrays;

public class HelloWorldJava {

    public static void main(String[] args){

        SparkConf conf = new SparkConf().setMaster("local").setAppName("HelloWorldJava");

        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<String> helloWorld = sc.parallelize(Arrays.asList("Hello,World","Hello,Spark","Hello,BigData"));

        System.out.println(helloWorld.collect());

    }

}

复制代码

运行获得：

[Hello,World, Hello,Spark, Hello,BigData]
复制代码

python实现

from pyspark import SparkConf,SparkContext


conf = SparkConf().setMaster("local").setAppName("HelloWorld")

sc = SparkContext(conf=conf)

helloWorld = sc.parallelize(["Hello,World","Hello,Spark","Hello,BigData"]).collect()

print(helloWorld)
复制代码

运行获得：

['Hello,World', 'Hello,Spark', 'Hello,BigData']
复制代码

至此咱们就在scala、java、python中运行了咱们的第一个spark程序。固然，咱们能够选择本身最上手的语言去写spark程序，spark自己也很是良好地支持了这三种语言。所以不要让语言成为障碍，反而所以得到更多的选择。不管是java、scala仍是python都能写出良好运行的spark程序