关于分布式系统的简单说明

时间 2020-05-09

标签关于分布式系统简单说明栏目系统架构繁體版

原文原文链接

最近略忙，一直没机会把Spark系统状况跟二位交代一下。。。html

简单说说，若是有时间的话再做补充。node

当前共三个节点：tianchi-node1(202.113.76.229),tianchi-node2(某公网ip)和tianchi-node3(202.113.76.35)。apache

登陆主机的用户账号（三台相同）：tianchi编程

密码：alibaba架构

系统所用软件及版本：Hadoop 2.6.0, Spark 1.3.0app

软件位置（三台主机相同）：/home/tianchi/project-base/tianchi/software/hadoop-2.6.0, /home/tianchi/project-base/tianchi/software/spark-1.3.0-bin-hadoop2.4机器学习

若是想启/停分布式系统或进行其余操做的话能够参考相关文档。分布式

Hadoop: （能够跳过对配置选项的讲解，直接看底部的操做命令。咱目前只需使用hadoop提供的文件系统HDFS，不用启动Yarn、Mapreduce什么的）ide

http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/ClusterSetup.htmloop

Spark: （Spark集群有多种架构方式，咱们采用的是standalone模式。如下四篇官方文档涵盖了对standalone模式的讲解、如何提交并执行spark程序、经常使用的spark编程接口和机器学习库的使用，看完这些就应该能够上手操做了）

http://spark.apache.org/docs/latest/spark-standalone.html

http://spark.apache.org/docs/latest/submitting-applications.html

http://spark.apache.org/docs/latest/programming-guide.html

http://spark.apache.org/docs/latest/mllib-guide.html

在HDFS系统和Spark系统中我都是将tianchi-node1即202.113.76.229看成master节点，因此HDFS文件系统的路径前缀老是“hdfs://tianchi-node1:9000”，Spark master参数老是"spark://tianchi-node1:7077"。

HDFS使用方法请自行百度，提交并运行做业的具体方法请参考上面给出的spark官方文档，若是还有问题的话能够找我。

查看HDFS系统状态：http://202.113.76.229:50070/dfshealth.html#tab-overview

Spark系统状态：http://202.113.76.229:8080/

ok，就这么多，有时间再补充。

by yx