基于Python的分布式计算平台-DPark

来自于:git

https://github.com/jackfengji/test_pro/wiki
github


DPark是一个基于Mesos的集群计算框架(cluster computing framework),是Spark的Python实现版本,相似于MapReduce,可是比其更灵活,能够用Python很是方便地进行分布式计算,而且提供了更多的功能以便更好的进行迭代式计算。多线程

DPark的计算模型是基于两个中心思想的:对分布式数据集的并行计算以及一些有限的能够在计算过程当中、从不一样机器访问的共享变量类型。这个的目标 是为了提供一种相似于global address space programming model的工具,例如OpenMP,可是咱们要求共享变量的类型必须是那些很容易在分布式系统当中实现的,当前支持的共享变量类型有只读的数据和支持一 种数据修改方式的累加器(accumulators)。DPark具备的一个很重要的特性:分布式的数据集能够在多个不一样的并行循环当中被重复利用。这个 特性将其与其余数据流形式的框架例如Hadoop和Dryad区分开来。框架

User Guide

下载源代码和安装指导
  1. 如何下载源代码分布式

  2. 如何安装在mesos上并进行必要的配置ide

使用DPark
  1. 初识DPark
    工具

  2. 如何在本机、多线程、mesos上运行DPark程序
    oop

  3. 弹性分布式数据集(RDD)
    ui

  4. 共享变量
    spa

  5. Examples

Developer Guide

1. RDD的原理
2. DPark的任务调度机制
3. 共享变量的实现
4. DPark和Spark的区别
相关文章
相关标签/搜索