库需要使用来自Python的Spark（PySpark）

小编典典

库需要使用来自Python的Spark（PySpark）

python

我正在使用来自Django的PySpark，并使用SparkSession连接到Spark主节点以在集群上执行作业。

我的问题是我是否需要在本地计算机上完整安装spark？所有文档都让我安装了spark，然后将PySpark库添加到python路径。我不认为我需要全部〜500mb才能连接到现有集群。我正在尝试减轻Docker容器的重量。

谢谢您的帮助。

阅读 128

2020-12-20

共1个答案

小编典典

尽管我尚未对其进行测试，但从Spark
2.1开始，PyPi可以提供PySpark（通过进行安装pip），专门用于您的情况。从文档：

Spark的Python打包无意替代所有其他用例。此Python打包版本的Spark适合与现有集群（Spark独立，YARN或Mesos）进行交互-
但不包含设置您自己的独立Spark集群所需的工具。您可以从Apache Spark下载页面下载完整版本的Spark。

注意：如果将其与Spark独立群集一起使用，则必须确保版本（包括次要版本）匹配，否则可能会遇到奇怪的错误

2020-12-20