ink大数据计算引擎入门

时间 2021-01-07

标签 html git github apache 网络架构框架分布式 ide 性能栏目 HTML 繁體版

原文原文链接

Flink入门html

Apache Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台，提供支持流处理和批处理两种类型应用的功能。git
Apache Flink的前身是柏林理工大学一个研究性项目，在2014被Apache孵化器所接受，而后迅速地成为了Apache Software Foundation的顶级项目之一。

Flink 特色github

现有的开源计算方案，会把流处理和批处理做为两种不一样的应用类型：流处理通常须要支持低延迟、Exactly-once保证，而批处理须要支持高吞吐、高效处理apache
Flink是彻底支持流处理，也就是说做为流处理看待时输入数据流时***的；批处理被做为一种特殊的流处理，只是它的输入数据流被定义为有界的。

Flink组件栈网络

Deployment层架构

主要涉及了Flink的部署模式、Flink支持多种部署模式：本地、集群（Standalone/YARN）、云（GCE/EC2）.框架

Runtime层分布式

Runtime层提供了支持Flink计算的所有核心实现，好比：支持分布式Stream处理、JobGraph到ExecutionGraph的映射、调度等等，为上层API层提供基础服务ide

API层性能

API层主要实现了面向***Stream的流处理和面向Batch的批处理API，其中面向流处理对应DataStream API，面向批处理对应DataSet API

Libaries层

在API层之上构建的知足特定应用的实现计算框架，也分别对应于面向流处理和面向批处理两类。

Flink优点

Flink数据流和时间窗口
基本概念

时间窗口

Flink分布式运行环境

JobManager

TaskManager

Client

Flink安装
方式一

方式二

到官网下载编译版：https://flink.apache.org/downloads.html
不一样环境下到bin目录，运行start-local.bat
运行正常，访问页面：http://localhost:8081

▼