使用maven&&make-distribution.sh编译打包spark源码

时间 2019-11-08

标签使用 maven&&make maven make distribution.sh distribution 编译打包 spark 源码栏目 Maven 繁體版

原文原文链接

1》基础环境准备：html

jdk1.8.0_101
maven 3.3.9
scala2.11.8

安装好上述软件，配置好环境变量，并检查是否生效。sql

2》配置maven:intellij idea maven配置及maven项目建立express

3》设置maven编译内存maven

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"ide

4.》使用maven命令编译源码。oop

mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive -Phive-thriftserver -DskipTests

5》使用spark自带打包脚本打包(实际上该脚本调用上述的mvn命令，因此能够直接跳过第4步，固然若是只是调试用，不用打成压缩包，则直接到第4步便可)。post

首先修改脚本：在spark源码包根目录下执行以下命令，

vi dev/make-distribution.sh
注释掉如下内容：位于文件中的120~136行。

#VERSION=$("$MVN" help:evaluate -Dexpression=project.version $@ 2>/dev/null | grep -v "INFO" | tail -n 1)
#SCALA_VERSION=$("$MVN" help:evaluate -Dexpression=scala.binary.version $@ 2>/dev/null\
# | grep -v "INFO"\
# | tail -n 1)
#SPARK_HADOOP_VERSION=$("$MVN" help:evaluate -Dexpression=hadoop.version $@ 2>/dev/null\
# | grep -v "INFO"\
# | tail -n 1)
#SPARK_HIVE=$("$MVN" help:evaluate -Dexpression=project.activeProfiles -pl sql/hive $@ 2>/dev/null\
# | grep -v "INFO"\
# | fgrep --count "<id>hive</id>";\
# # Reset exit status to 0, otherwise the script stops here if the last grep finds nothing\
# # because we use "set -o pipefail"
# echo -n)

添加如下内容：

VERSION=2.3.0
SCALA_VERSION=2.11
SPARK_HADOOP_VERSION=2.7.3
SPARK_HIVE=1

6》修改后保存退出。在源码包根目录指定如下命令：测试

./dev/make-distribution.sh –name 2.7.3 –tgz -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phadoop-provided -Phive -Phive-thriftserver -DskipTests

若是要编译对应的cdh版本，须要在源码的根目录下的pom文件中添加以下的仓库。
添加 cdh的仓库。lua

<repository>
<id>clouders</id>
<name>clouders Repository</name>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>

url

命令解释：

--name 2.7.3 ***指定编译出来的spark名字，name=

--tgz ***压缩成tgz格式

-Pyarn \ ***支持yarn平台

-Phadoop-2.7 \ -Dhadoop.version=2.7.3 \ ***指定hadoop版本为2.7.3

-Phive -Phive-thriftserver \ ***支持hive

-DskipTests clean package ***跳过测试包