Modin使用Ray提供了一种轻松的方式来加速您的Pandas笔记本,脚本和库。 与其他分布式DataFrame库不同,Modin提供与现有pandas代码的无缝集成和兼容性。 即使使用DataFrame构造函数也是如此。
import modin.pandas as pd import numpy as np frame_data = np.random.randint(0, 100, size=(2**10, 2**8)) df = pd.DataFrame(frame_data)
要使用Modin,您不需要知道系统有多少核心,也不需要指定如何分配数据。 实际上,即使在一台机器上,您也可以继续使用以前的pandas笔记本电脑,同时体验Modin的相当大的加速。 一旦你更改了import语句,你就可以像使用pandas一样使用Modin了。
modin.pandas DataFrame是一个非常轻量级的并行DataFrame。 Modin透明地分发数据和计算,因此您需要做的就是继续使用pandas API,就像安装Modin之前一样。 与其他并行DataFrame系统不同,Modin是一个非常轻量级,强大的DataFrame。 由于它的重量很轻,因此Modin可在具有4个物理内核的笔记本电脑上提供高达4倍的加速。
在pandas中,当你进行任何类型的计算时,你只能使用一个核心。 使用Modin,您可以使用计算机上的所有CPU核心。 即使在read_csv中,我们也可以通过在整个计算机上有效地分配工作来获得巨大收益。
import modin.pandas as pd df = pd.read_csv("my_dataset.csv")