PyCascading-Python 打包器

PyCascading - Python 打包器

常用工具包

授权协议: Apache

操作系统: 跨平台

开发语言: Python

软件简介

Cascading是一个新式的针对Hadoop
clusters的数据处理API，它使用富于表现力的API来构建复杂的处理工作流，而不是直接实现Hadoop MapReduce的算法。

PyCascading 是Cascading 的 Python
打包器（wrapper）。可使用它控制来自 Python 上完整的数据处理流程。

管道是由 Python Operators 模块建造的
用户定义的功能都写在 Python 上
能够传递任意上下文到用户定义的功能上
临时结果的缓存会导致管道更快的重播（faster replay）
使用 Jython 2.5.2 将有利于 Java 和 Python库的集成

PyCascading 能够用于两种模式中：在本地的 Hadoop 或远程 Hadoop 部署。

使用 PyCascading 所需要的环境是：

Cascading 1.2.* or 2.0.0
Jython 2.5.2+
Hadoop 0.20.2+, the version preferably matching the Hadoop runtime
Java 编译器
Ant

运行条件：

Hadoop 在目标服务器上安装和设置
SSH 访问远程服务器
如果在本地测试，则需要合理的调用 JVM

软件首页