DPark-分布式计算框架

DPark - 分布式计算框架

分布式应用/网格

授权协议: BSD

操作系统: 跨平台

开发语言: Python

软件简介

DPark 是 Spark 的 Python 克隆，是一个Python实现的分布式计算框架，可以非常方便地实现大规模数据处理和迭代计算。 DPark
由豆瓣实现，目前豆瓣内部的绝大多数数据分析都使用DPark 完成，正日趋完善。

示例代码：

 import dpark
 file = dpark.textFile("/tmp/words.txt")
 words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1))
 wc = words.reduceByKey(lambda x,y:x+y).collectAsMap()
 print wc

该代码可以在本地和 Mesos 集群上运行：

$ python wc.py
$ python wc.py -m process
$ python wc.py -m host[:port]

软件首页