如何将多个文本文件读入单个 RDD？

小编典典

all

我想从 hdfs 位置读取一堆文本文件，并使用 spark 在迭代中对其执行映射。

JavaRDD<String> records = ctx.textFile(args[1], 1);一次只能读取一个文件。

我想读取多个文件并将它们作为单个 RDD 处理。如何？

阅读 115

2022-07-30

共1个答案

小编典典

您可以指定整个目录、使用通配符甚至 CSV 的目录和通配符。例如：

sc.textFile("/my/dir1,/my/paths/part-00[0-5]*,/another/dir,/a/specific/file")

正如 Nick Chammas 指出的那样，这是 Hadoop
的曝光，FileInputFormat因此这也适用于
Hadoop（和 Scalding）。

2022-07-30