Koalas-Apache Spark Pandas API

数据处理其他

授权协议: Apache

操作系统: 跨平台

开发语言: Python

通过扩充Apache Spark的Python DataFrame API以与Pandas兼容，Koalas项目在与大数据交互时提高了数据科学家的工作效率。

Pandas是Python中事实上的标准（单节点）数据帧实现，而Spark是大数据处理的事实标准。有了这个包，数据科学家可以：

1)如果已经熟悉Pandas，那么使用Spark可以立即提高效率，没有学习曲线。

2)单个代码库就可以用于Pandas（测试，较小的数据集）和Spark（分布式数据集）。

软件首页