简单了解阿里云批量计算（上篇）

时间 2019-11-07

原文原文链接

什么是批量计算：
批量计算（BatchCompute）是一种适用于大规模并行批处理做业的分布式云服务。BatchCompute可支持海量做业并发规模，系统自动完成资源管理、做业调度和数据加载，并按实际使用量计费。
通俗的讲，就是您提交一个程序（任意的计算机程序），让它在阿里云机房中的多台机器上同时运行，而后把结果写入到指定的位置（OSS，阿里云对象存储服务），您能够去指定位置查看结果。
关于阿里云批量计算的详细内容：
阿里云批量计算使用教程
（批量计算（BatchCompute）是一种适用于大规模并行批处理做业的分布式云服务。BatchCompute可支持海量做业并发规模，系统自动完成资源管理，做业调度和数据加载，并按实际使用量计费。BatchCompute普遍应用于电影动画渲染、生物数据分析、多媒体转码、金融保险分析、科学计算等领域。）

产品架构

BatchCompute总体架构，包括：数据库

BatchCompute入口
批量计算服务提供基于HTTP的API。在API之上还封装了一些工具，好比SDK，命令行工具，控制台等。
您能够使用这些工具向BatchCompute提交做业，查询做业运行状态，并管理做业生命周期（好比中止已提交的做业，释放已完成的做业等）。
运行环境

BatchCompute经过虚拟化技术构建沙箱，并在其中运行用户程序，确保用户环境和用户数据的安全性。您能够自行定制其虚拟机镜像。ubuntu

OSS持久化存储
OSS 有完善的用户管理和安全机制。
BatchCompute使用 OSS 做为持久化存储。
用户的程序、自定义Docker镜像、输入输出数据都存储在 OSS 中。

名词解释
做业
用户的每一个特定的计算需求在BatchCompute中被描述为一个做业（Job）。在BatchCompute系统中，用户能够经过BatchCompute管理控制台或SDK提交、管理和查询做业。
任务
一个做业由一组任务（Task）及其依赖关系组成。批量计算支持能以有向无环图（directed acycline graph，DAG）形式描述的做业。任务间的依赖关系只能在做业提交时指定，提交完成后不能修改。
实例
每一个任务能够有一个或多个执行实例（Instance）。同一任务的各个实例并行处理各自的输入数据。实例是BatchCompute调度与执行的最小单元，这些实例会动态的运行在后台分布式系统的各节点上。
集群
一系列的VM实例组在BatchCompute中被定义为一个集群（Cluster）。一个集群能够由多个实例组（Group）组成，一个组中的实例共享一样的实例类型定义（实例类型，CPU，Memory等），多个组之间共享镜像（Image）。
镜像
镜像（Image）是集群资源建立或者做业运行环境的模板。它是一个标准的或者自定义的ECS镜像，须要安装BatchCompute Agent，而后受权给BatchCompute服务使用。
Docker镜像
使用官方提供的ubuntu镜像(内置Docker容器支持)，能够支持自定义Docker镜像。自定义Docker镜像像普通镜像同样，能够本身安装运行做业的各类程序。具体方法请看这里: 使用Docker。安全

更多精品课程：服务器

7天玩转云服务器架构

云数据库的Redis版使用教程并发

玩转云存储对象存储OSS使用入门负载均衡

阿里云CDN使用教程分布式

负载均衡入门与产品使用指南工具

阿里云大学官网（阿里云大学 - 官方网站，云生态下的创新人才工场）简单了解阿里云批量计算（上篇）动画