小编典典

库需要使用来自Python的Spark(PySpark)

python

我正在使用来自Django的PySpark,并使用SparkSession连接到Spark主节点以在集群上执行作业。

我的问题是我是否需要在本地计算机上完整安装spark?所有文档都让我安装了spark,然后将PySpark库添加到python路径。我不认为我需要全部〜500mb才能连接到现有集群。我正在尝试减轻Docker容器的重量。

谢谢您的帮助。


阅读 128

收藏
2020-12-20

共1个答案

小编典典

尽管我尚未对其进行测试,但从Spark
2.1开始,PyPi可以提供PySpark(通过进行安装pip),专门用于您的情况。从文档

Spark的Python打包无意替代所有其他用例。此Python打包版本的Spark适合与现有集群(Spark独立,YARN或Mesos)进行交互-
但不包含设置您自己的独立Spark集群所需的工具。您可以从Apache Spark下载页面下载完整版本的Spark。

注意 :如果将其与Spark独立群集一起使用,则必须确保版本(包括次要版本)匹配,否则可能会遇到奇怪的错误

2020-12-20