使用pyspark:
from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("spark play")\ .getOrCreate() df = spark.read\ .format("jdbc")\ .option("url", "jdbc:mysql://localhost:port")\ .option("dbtable", "schema.tablename")\ .option("user", "username")\ .option("password", "password")\ .load()
与其获取“ schema.tablename”,不如获取一个查询的结果集。
与1.x中的相同,您可以传递有效的子查询作为dbtable参数,例如:
dbtable
... .option("dbtable", "(SELECT foo, bar FROM schema.tablename) AS tmp") ...