Azure Databricks 第一篇：初始Databricks，建立工做区、集群和Notebook

时间 2020-12-23

标签 ios 编程并发编程语言高并发 spa 对象 blog 栏目负载均衡繁體版

原文原文链接

Azure Databricks是一个可扩展的数据分析平台，基于Apache Spark。Azure Databricks 工做区（Workspace）是一个交互式的环境，工做区把对象（notebook、library、dashboards、experiments）组织成文件夹，用于数据集成和数据分析。ios

一，Azure Databricks的基本概念

1，工做区是一个交互式的环境编程

工做区是一个交互式的环境，能够管理Databricks的集群、Notebook、Job等对象。并发

2，集群是运行Notebook和job的资源编程语言

在使用工做区中，要进行数据集成和数据分析，必须建立集群（Cluster），Cluser表明运行notebook和job的计算资源，并用于存储相应的配置信息。高并发

Cluster有两种类型：通用（All-purpose）和job，all-purpose集群是交互式的，用于通用的数据集成和数据分析任务，而job类型的集群用于定时运行job。ui

job是一个非交互式的机制，用于当即或按照计划来运行notebook或library。job类型的集群在job开始时建立，在job完成时结束。spa

根据cluster的类型，把Azure Databricks的工做负载(workload)分为两个类型：data engineering (job) 和 data analytics (all-purpose)。对象

数据工程：（自动）工做负载在Job群集上运行，Azure Databricks做业计划程序为每一个工做负载建立了一个工做群集。
数据分析：（交互式）工做负载在all-purpose集群上运行，交互式工做负载一般在Azure Databricks笔记本中运行命令，可是在现有的通用集群上运行做业也被视为交互式工做负载。

3，Notebook是一个基于Web的记事本blog

Notebook是一个包含可执行命令的记事本，用户能够在Notebook中编写Python命令，编辑命令，并执行命令，得到输出的结果，并能够对结果进行可视化处理，Notebook的功能和UI相似于Jupyter Notebook。ip

二，建立Workspace

经过Azure UI来建立工做区，从Azure Services中找到Azure Databricks。

建立工做区，选择订阅用于管理资源和成本，须要设置订阅（Subscription）和资源组（Resource group），选择订价策略（Pricing Tier）。

选择“Review + Create”，点击Create 按钮来建立工做区。等到工做区部署完成以后，打开Azure Databricks Service，点击“Launch Workspace”登陆到工做区门户。

三，建立Spark Cluster

Spark Cluster能够看做是Databricks的计算资源，所以必须建立集群。

1，登陆到工做区门户

登陆（Launch）到新建的工做区门户中，从“Common Tasks”列表中点击“New Cluster”。

2，配置集群

Cluster Mode：集群的模式共有三种，High concurrency（高并发）、Standard（标准）和Single Node（单节点）。标准模式是推荐模式，一般用于单用户的集群。

Pool：Pool是一组空闲的随时可用的实例，可减小集群启动和自动缩放的时间。当链接到Pool的集群须要一个实例时，它首先尝试分配Pool的中一个实例，若是该Pool没有空闲的实例，那么该Pool将经过从实例提供者分配有ige新的实例来扩展，以知足集群的需求。集群释放实例后，它将返回到Pool中，并能够提供给其余集群使用。只有链接到Pool的集群才能使用该Pool的空闲实例。实例在Pool中处于空闲状态时是免费的。

Databricks Runtime：运行时版本配置，选择用于建立集群的image，运行时是在集群上运行的一组核心组件。

Enable autoscaling：勾选自动缩放，根据工做负载的不一样，集群在最大节点数量和最小节点数量之间自动缩放。

Terminate after xx minutes of inactivity：当集群不活动时，延迟必定时间后，结束集群。

配置完成以后，点击顶部的“Create Clustere” 按钮建立集群。

四，建立Notebook

Notebook是一个包含可执行命令的记事本，用户能够在Notebook中编写Python命令，编辑命令，并执行命令，得到输出的结果，并能够对结果进行可视化处理。

从Common Tasks中选择“New Notebook”，输入Notebook的Name，选择编程语言Python、选择集群，点击对话框底部的“Create”按钮建立Notebook。

在新建的Notebook中输入命令，打印"hello world"，点击"Shift+Enter"，执行命令

参考文档：

Quickstart: Run a Spark job on Azure Databricks Workspace using the Azure portal