我正在使用来自Django的PySpark,并使用SparkSession连接到Spark主节点以在集群上执行作业。
我的问题是我是否需要在本地计算机上完整安装spark?所有文档都让我安装了spark,然后将PySpark库添加到python路径。我不认为我需要全部〜500mb才能连接到现有集群。我正在尝试减轻Docker容器的重量。
谢谢您的帮助。
尽管我尚未对其进行测试,但从Spark 2.1开始,PyPi可以提供PySpark(通过进行安装pip),专门用于您的情况。从文档:
pip
Spark的Python打包无意替代所有其他用例。此Python打包版本的Spark适合与现有集群(Spark独立,YARN或Mesos)进行交互- 但不包含设置您自己的独立Spark集群所需的工具。您可以从Apache Spark下载页面下载完整版本的Spark。 注意 :如果将其与Spark独立群集一起使用,则必须确保版本(包括次要版本)匹配,否则可能会遇到奇怪的错误
Spark的Python打包无意替代所有其他用例。此Python打包版本的Spark适合与现有集群(Spark独立,YARN或Mesos)进行交互- 但不包含设置您自己的独立Spark集群所需的工具。您可以从Apache Spark下载页面下载完整版本的Spark。
注意 :如果将其与Spark独立群集一起使用,则必须确保版本(包括次要版本)匹配,否则可能会遇到奇怪的错误