Spark读取python3泡菜作为输入

小编典典

Spark读取python3泡菜作为输入

python

我的数据以Python 3腌制文件集的形式提供。其中大多数是熊猫的序列化DataFrames。

我想开始使用Spark，因为我需要一台计算机可以拥有的更多内存和CPU。另外，我将使用HDFS进行分布式存储。

作为一个初学者，我没有找到解释如何将泡菜文件用作输入文件的相关信息。

是否存在？如果没有，是否有任何解决方法？

非常感谢

阅读 139

2021-01-20

共1个答案

小编典典

很大程度上取决于数据本身。一般来说，当必须读取较大的，不可拆分的文件时，Spark的性能不是特别好。不过，您可以尝试使用binaryFilesmethod并将其与标准Python工具结合使用。让我们从虚拟数据开始：

import tempfile
import pandas as pd
import numpy as np

outdir = tempfile.mkdtemp()

for i in range(5):
    pd.DataFrame(
        np.random.randn(10, 2), columns=['foo', 'bar']
    ).to_pickle(tempfile.mkstemp(dir=outdir)[1])

接下来，我们可以使用bianryFiles方法读取它：

rdd = sc.binaryFiles(outdir)

并反序列化单个对象：

import pickle
from io import BytesIO

dfs = rdd.values().map(lambda p: pickle.load(BytesIO(p)))
dfs.first()[:3]

##         foo       bar
## 0 -0.162584 -2.179106
## 1  0.269399 -0.433037
## 2 -0.295244  0.119195

一个重要的注意事项是，与诸如之类的简单方法相比，它通常需要更多的内存textFile。

另一种方法是仅并行化路径，并使用可以直接从诸如hdfs3之类的分布式文件系统读取的库。这通常意味着较低的内存需求，但代价是数据局部性会大大降低。

考虑到这两个事实，通常最好以可以加载更高粒度的格式序列化数据。

注意事项 ：

SparkContext提供pickleFile方法，但名称可能会误导。它可以用来读取SequenceFiles包含腌制对象而不是普通的Python腌制。

2021-01-20