基于Python的分布式计算平台-DPark

时间 2019-11-18

原文原文链接

来自于：git

https://github.com/jackfengji/test_pro/wiki
github

DPark是一个基于Mesos的集群计算框架(cluster computing framework)，是Spark的Python实现版本，相似于MapReduce，可是比其更灵活，能够用Python很是方便地进行分布式计算，而且提供了更多的功能以便更好的进行迭代式计算。多线程

DPark的计算模型是基于两个中心思想的：对分布式数据集的并行计算以及一些有限的能够在计算过程当中、从不一样机器访问的共享变量类型。这个的目标是为了提供一种相似于global address space programming model的工具，例如OpenMP，可是咱们要求共享变量的类型必须是那些很容易在分布式系统当中实现的，当前支持的共享变量类型有只读的数据和支持一种数据修改方式的累加器(accumulators)。DPark具备的一个很重要的特性：分布式的数据集能够在多个不一样的并行循环当中被重复利用。这个特性将其与其余数据流形式的框架例如Hadoop和Dryad区分开来。框架

User Guide

下载源代码和安装指导

如何下载源代码分布式
如何安装在mesos上并进行必要的配置ide

使用DPark

初识DPark
工具
如何在本机、多线程、mesos上运行DPark程序
oop
弹性分布式数据集(RDD)
ui
共享变量
spa
Examples

基于Python的分布式计算平台-DPark

User Guide

下载源代码和安装指导

使用DPark

Developer Guide

1. RDD的原理

2. DPark的任务调度机制

3. 共享变量的实现

4. DPark和Spark的区别