Optimize

changgyoopark-db · changgyoopark-db · commit 2e14d6f7d751 · 2025-05-23T12:12:37.000+02:00
diff --git a/sql/connect/server/src/main/scala/org/apache/spark/sql/connect/execution/SparkConnectPlanExecution.scala b/sql/connect/server/src/main/scala/org/apache/spark/sql/connect/execution/SparkConnectPlanExecution.scala
@@ -27,8 +27,8 @@ import io.grpc.stub.StreamObserver
 import org.apache.spark.SparkEnv
 import org.apache.spark.connect.proto
 import org.apache.spark.connect.proto.ExecutePlanResponse
+import org.apache.spark.sql.DataFrame
 import org.apache.spark.sql.catalyst.InternalRow
-import org.apache.spark.sql.classic.{DataFrame, Dataset}
 import org.apache.spark.sql.connect.common.DataTypeProtoConverter
 import org.apache.spark.sql.connect.common.LiteralValueProtoConverter.toLiteralProto
 import org.apache.spark.sql.connect.config.Connect.CONNECT_GRPC_ARROW_MAX_BATCH_SIZE
@@ -68,12 +68,9 @@ private[execution] class SparkConnectPlanExecution(executeHolder: ExecuteHolder)
       } else {
         DoNotCleanup
       }
+    val rel = request.getPlan.getRoot
     val dataframe =
-      Dataset.ofRows(
-        sessionHolder.session,
-        planner.transformRelation(request.getPlan.getRoot, cachePlan = true),
-        tracker,
-        shuffleCleanupMode)
+      sessionHolder.createDataFrame(rel, planner, Some((tracker, shuffleCleanupMode)))
     responseObserver.onNext(createSchemaResponse(request.getSessionId, dataframe.schema))
     processAsArrowBatches(dataframe, responseObserver, executeHolder)
     responseObserver.onNext(MetricGenerator.createMetricsResponse(sessionHolder, dataframe))
diff --git a/sql/connect/server/src/main/scala/org/apache/spark/sql/connect/planner/SparkConnectPlanner.scala b/sql/connect/server/src/main/scala/org/apache/spark/sql/connect/planner/SparkConnectPlanner.scala
@@ -120,31 +120,27 @@ class SparkConnectPlanner(
     sys.env.getOrElse("PYSPARK_PYTHON", sys.env.getOrElse("PYSPARK_DRIVER_PYTHON", "python3"))
 
   /**
-   * The root of the query plan is a relation and we apply the transformations to it. The resolved
-   * logical plan will not get cached. If the result needs to be cached, use
-   * `transformRelation(rel, cachePlan = true)` instead.
+   * The root of the query plan is a relation and we apply the transformations to it.
    * @param rel
    *   The relation to transform.
    * @return
    *   The resolved logical plan.
    */
   @DeveloperApi
-  def transformRelation(rel: proto.Relation): LogicalPlan =
-    transformRelation(rel, cachePlan = false)
+  def transformRelation(rel: proto.Relation): LogicalPlan = transformRelationWithCache(rel)._1
 
   /**
-   * The root of the query plan is a relation and we apply the transformations to it.
+   * The root of the query plan is a relation and we apply the transformations to it. If the
+   * relation exists in the plan cache, return the cached plan, but it does not update the plan
+   * cache.
    * @param rel
    *   The relation to transform.
-   * @param cachePlan
-   *   Set to true for a performance optimization, if the plan is likely to be reused, e.g. built
-   *   upon by further dataset transformation. The default is false.
    * @return
-   *   The resolved logical plan.
+   *   The resolved logical plan and a flag indicating that the cache was hit.
    */
   @DeveloperApi
-  def transformRelation(rel: proto.Relation, cachePlan: Boolean): LogicalPlan = {
-    sessionHolder.usePlanCache(rel, cachePlan) { rel =>
+  def transformRelationWithCache(rel: proto.Relation): (LogicalPlan, Boolean) = {
+    sessionHolder.usePlanCache(rel) { rel =>
       val plan = rel.getRelTypeCase match {
         // DataFrame API
         case proto.Relation.RelTypeCase.SHOW_STRING => transformShowString(rel.getShowString)
diff --git a/sql/connect/server/src/main/scala/org/apache/spark/sql/connect/service/SessionHolder.scala b/sql/connect/server/src/main/scala/org/apache/spark/sql/connect/service/SessionHolder.scala
@@ -32,15 +32,19 @@ import org.apache.spark.{SparkEnv, SparkException, SparkSQLException}
 import org.apache.spark.api.python.PythonFunction.PythonAccumulator
 import org.apache.spark.connect.proto
 import org.apache.spark.internal.{Logging, LogKeys, MDC}
-import org.apache.spark.sql.DataFrame
+import org.apache.spark.sql.{DataFrame, Row}
+import org.apache.spark.sql.catalyst.QueryPlanningTracker
+import org.apache.spark.sql.catalyst.encoders.RowEncoder
 import org.apache.spark.sql.catalyst.plans.logical.LogicalPlan
-import org.apache.spark.sql.classic.SparkSession
+import org.apache.spark.sql.classic.{Dataset, SparkSession}
 import org.apache.spark.sql.connect.common.InvalidPlanInput
 import org.apache.spark.sql.connect.config.Connect
 import org.apache.spark.sql.connect.ml.MLCache
 import org.apache.spark.sql.connect.planner.PythonStreamingQueryListener
+import org.apache.spark.sql.connect.planner.SparkConnectPlanner
 import org.apache.spark.sql.connect.planner.StreamingForeachBatchHelper
 import org.apache.spark.sql.connect.service.SessionHolder.{ERROR_CACHE_SIZE, ERROR_CACHE_TIMEOUT_SEC}
+import org.apache.spark.sql.execution.{CommandExecutionMode, ShuffleCleanupMode}
 import org.apache.spark.sql.streaming.StreamingQueryListener
 import org.apache.spark.util.{SystemClock, Utils}
 
@@ -440,46 +444,74 @@ case class SessionHolder(userId: String, sessionId: String, session: SparkSessio
    * `spark.connect.session.planCache.enabled` is true.
    * @param rel
    *   The relation to transform.
-   * @param cachePlan
-   *   Whether to cache the result logical plan.
    * @param transform
    *   Function to transform the relation into a logical plan.
    * @return
-   *   The logical plan.
+   *   The logical plan and a flag indicating that the plan cache was hit.
    */
-  private[connect] def usePlanCache(rel: proto.Relation, cachePlan: Boolean)(
-      transform: proto.Relation => LogicalPlan): LogicalPlan = {
-    val planCacheEnabled = Option(session)
-      .forall(_.sessionState.conf.getConf(Connect.CONNECT_SESSION_PLAN_CACHE_ENABLED, true))
-    // We only cache plans that have a plan ID.
-    val hasPlanId = rel.hasCommon && rel.getCommon.hasPlanId
-
-    def getPlanCache(rel: proto.Relation): Option[LogicalPlan] =
-      planCache match {
-        case Some(cache) if planCacheEnabled && hasPlanId =>
-          Option(cache.getIfPresent(rel)) match {
-            case Some(plan) =>
+  private[connect] def usePlanCache(rel: proto.Relation)(
+      transform: proto.Relation => LogicalPlan): (LogicalPlan, Boolean) = {
+    planCache match {
+      case Some(cache) if canCachePlan(rel) =>
+        Option(cache.getIfPresent(rel)) match {
+          case Some(plan) =>
+            if (isPlanOutdated(plan)) {
+              // The plan is outdated, therefore remove it from the cache.
+              cache.invalidate(rel)
+            } else {
               logDebug(s"Using cached plan for relation '$rel': $plan")
-              Some(plan)
-            case None => None
-          }
-        case _ => None
-      }
-    def putPlanCache(rel: proto.Relation, plan: LogicalPlan): Unit =
-      planCache match {
-        case Some(cache) if planCacheEnabled && hasPlanId =>
-          cache.put(rel, plan)
-        case _ =>
+              return (plan, true)
+            }
+          case None => ()
+        }
+      case _ => ()
+    }
+    (transform(rel), false)
+  }
+
+  /**
+   * Create a data frame from the supplied relation, and update the plan cache.
+   *
+   * @param rel
+   *   A proto.Relation to create a data frame.
+   * @param options
+   *   Options to pass to the data frame.
+   * @return
+   *   The created data frame.
+   */
+  private[connect] def createDataFrame(
+      rel: proto.Relation,
+      planner: SparkConnectPlanner,
+      options: Option[(QueryPlanningTracker, ShuffleCleanupMode)] = None): DataFrame = {
+    val (plan, cacheHit) = planner.transformRelationWithCache(rel)
+    val qe = session.sessionState.executePlan(plan, CommandExecutionMode.SKIP)
+    val df = new Dataset[Row](qe, () => RowEncoder.encoderFor(qe.analyzed.schema))
+    if (!cacheHit && planCache.isDefined && canCachePlan(rel)) {
+      if (df.queryExecution.isLazyAnalysis) {
+        val plan = df.queryExecution.logical
+        logDebug(s"Cache a lazyily analyzed logical plan for '$rel': $plan")
+        planCache.get.put(rel, plan)
+      } else {
+        val plan = df.queryExecution.analyzed
+        logDebug(s"Cache an analyzed logical plan for '$rel': $plan")
+        planCache.get.put(rel, plan)
       }
+    }
+    df
+  }
 
-    getPlanCache(rel)
-      .getOrElse({
-        val plan = transform(rel)
-        if (cachePlan) {
-          putPlanCache(rel, plan)
-        }
-        plan
-      })
+  // Return true if the plan is outdated and should be removed from the cache.
+  private def isPlanOutdated(plan: LogicalPlan): Boolean = {
+    // Currently, nothing is checked.
+    false
+  }
+
+  // Return true if the plan cache is enabled for the session and the relation.
+  private def canCachePlan(rel: proto.Relation): Boolean = {
+    // We only cache plans that have a plan ID.
+    rel.hasCommon && rel.getCommon.hasPlanId &&
+    Option(session)
+      .forall(_.sessionState.conf.getConf(Connect.CONNECT_SESSION_PLAN_CACHE_ENABLED, true))
   }
 
   // For testing. Expose the plan cache for testing purposes.
diff --git a/sql/connect/server/src/main/scala/org/apache/spark/sql/connect/service/SparkConnectAnalyzeHandler.scala b/sql/connect/server/src/main/scala/org/apache/spark/sql/connect/service/SparkConnectAnalyzeHandler.scala
@@ -23,13 +23,9 @@ import io.grpc.stub.StreamObserver
 
 import org.apache.spark.connect.proto
 import org.apache.spark.internal.Logging
-import org.apache.spark.sql.Row
-import org.apache.spark.sql.catalyst.encoders.RowEncoder
-import org.apache.spark.sql.catalyst.plans.logical.LogicalPlan
-import org.apache.spark.sql.classic.{DataFrame, Dataset}
 import org.apache.spark.sql.connect.common.{DataTypeProtoConverter, InvalidPlanInput, StorageLevelProtoConverter}
 import org.apache.spark.sql.connect.planner.SparkConnectPlanner
-import org.apache.spark.sql.execution.{CodegenMode, CommandExecutionMode, CostMode, ExtendedMode, FormattedMode, SimpleMode}
+import org.apache.spark.sql.execution.{CodegenMode, CostMode, ExtendedMode, FormattedMode, SimpleMode}
 import org.apache.spark.sql.types.{DataType, StructType}
 import org.apache.spark.util.ArrayImplicits._
 
@@ -62,25 +58,20 @@ private[connect] class SparkConnectAnalyzeHandler(
     val session = sessionHolder.session
     val builder = proto.AnalyzePlanResponse.newBuilder()
 
-    def transformRelation(rel: proto.Relation) = planner.transformRelation(rel, cachePlan = true)
-
-    def getDataFrameWithoutExecuting(rel: LogicalPlan): DataFrame = {
-      val qe = session.sessionState.executePlan(rel, CommandExecutionMode.SKIP)
-      new Dataset[Row](qe, () => RowEncoder.encoderFor(qe.analyzed.schema))
-    }
-
     request.getAnalyzeCase match {
       case proto.AnalyzePlanRequest.AnalyzeCase.SCHEMA =>
-        val rel = transformRelation(request.getSchema.getPlan.getRoot)
-        val schema = getDataFrameWithoutExecuting(rel).schema
+        val schema =
+          sessionHolder.createDataFrame(request.getSchema.getPlan.getRoot, planner).schema
         builder.setSchema(
           proto.AnalyzePlanResponse.Schema
             .newBuilder()
             .setSchema(DataTypeProtoConverter.toConnectProtoType(schema))
             .build())
       case proto.AnalyzePlanRequest.AnalyzeCase.EXPLAIN =>
-        val rel = transformRelation(request.getExplain.getPlan.getRoot)
-        val queryExecution = getDataFrameWithoutExecuting(rel).queryExecution
+        val queryExecution =
+          sessionHolder
+            .createDataFrame(request.getExplain.getPlan.getRoot, planner)
+            .queryExecution
         val explainString = request.getExplain.getExplainMode match {
           case proto.AnalyzePlanRequest.Explain.ExplainMode.EXPLAIN_MODE_SIMPLE =>
             queryExecution.explainString(SimpleMode)
@@ -101,8 +92,8 @@ private[connect] class SparkConnectAnalyzeHandler(
             .build())
 
       case proto.AnalyzePlanRequest.AnalyzeCase.TREE_STRING =>
-        val rel = transformRelation(request.getTreeString.getPlan.getRoot)
-        val schema = getDataFrameWithoutExecuting(rel).schema
+        val schema =
+          sessionHolder.createDataFrame(request.getTreeString.getPlan.getRoot, planner).schema
         val treeString = if (request.getTreeString.hasLevel) {
           schema.treeString(request.getTreeString.getLevel)
         } else {
@@ -115,26 +106,28 @@ private[connect] class SparkConnectAnalyzeHandler(
             .build())
 
       case proto.AnalyzePlanRequest.AnalyzeCase.IS_LOCAL =>
-        val rel = transformRelation(request.getIsLocal.getPlan.getRoot)
-        val isLocal = getDataFrameWithoutExecuting(rel).isLocal
+        val isLocal =
+          sessionHolder.createDataFrame(request.getIsLocal.getPlan.getRoot, planner).isLocal
         builder.setIsLocal(
           proto.AnalyzePlanResponse.IsLocal
             .newBuilder()
             .setIsLocal(isLocal)
             .build())
 
       case proto.AnalyzePlanRequest.AnalyzeCase.IS_STREAMING =>
-        val rel = transformRelation(request.getIsStreaming.getPlan.getRoot)
-        val isStreaming = getDataFrameWithoutExecuting(rel).isStreaming
+        val isStreaming =
+          sessionHolder
+            .createDataFrame(request.getIsStreaming.getPlan.getRoot, planner)
+            .isStreaming
         builder.setIsStreaming(
           proto.AnalyzePlanResponse.IsStreaming
             .newBuilder()
             .setIsStreaming(isStreaming)
             .build())
 
       case proto.AnalyzePlanRequest.AnalyzeCase.INPUT_FILES =>
-        val rel = transformRelation(request.getInputFiles.getPlan.getRoot)
-        val inputFiles = getDataFrameWithoutExecuting(rel).inputFiles
+        val inputFiles =
+          sessionHolder.createDataFrame(request.getInputFiles.getPlan.getRoot, planner).inputFiles
         builder.setInputFiles(
           proto.AnalyzePlanResponse.InputFiles
             .newBuilder()
@@ -157,27 +150,27 @@ private[connect] class SparkConnectAnalyzeHandler(
             .build())
 
       case proto.AnalyzePlanRequest.AnalyzeCase.SAME_SEMANTICS =>
-        val targetRel = transformRelation(request.getSameSemantics.getTargetPlan.getRoot)
-        val otherRel = transformRelation(request.getSameSemantics.getOtherPlan.getRoot)
-        val target = getDataFrameWithoutExecuting(targetRel)
-        val other = getDataFrameWithoutExecuting(otherRel)
+        val target =
+          sessionHolder.createDataFrame(request.getSameSemantics.getTargetPlan.getRoot, planner)
+        val other =
+          sessionHolder.createDataFrame(request.getSameSemantics.getOtherPlan.getRoot, planner)
         builder.setSameSemantics(
           proto.AnalyzePlanResponse.SameSemantics
             .newBuilder()
             .setResult(target.sameSemantics(other)))
 
       case proto.AnalyzePlanRequest.AnalyzeCase.SEMANTIC_HASH =>
-        val rel = transformRelation(request.getSemanticHash.getPlan.getRoot)
-        val semanticHash = getDataFrameWithoutExecuting(rel)
+        val semanticHash = sessionHolder
+          .createDataFrame(request.getSemanticHash.getPlan.getRoot, planner)
           .semanticHash()
         builder.setSemanticHash(
           proto.AnalyzePlanResponse.SemanticHash
             .newBuilder()
             .setResult(semanticHash))
 
       case proto.AnalyzePlanRequest.AnalyzeCase.PERSIST =>
-        val rel = transformRelation(request.getPersist.getRelation)
-        val target = getDataFrameWithoutExecuting(rel)
+        val target = sessionHolder
+          .createDataFrame(request.getPersist.getRelation, planner)
         if (request.getPersist.hasStorageLevel) {
           target.persist(
             StorageLevelProtoConverter.toStorageLevel(request.getPersist.getStorageLevel))
@@ -187,8 +180,8 @@ private[connect] class SparkConnectAnalyzeHandler(
         builder.setPersist(proto.AnalyzePlanResponse.Persist.newBuilder().build())
 
       case proto.AnalyzePlanRequest.AnalyzeCase.UNPERSIST =>
-        val rel = transformRelation(request.getUnpersist.getRelation)
-        val target = getDataFrameWithoutExecuting(rel)
+        val target = sessionHolder
+          .createDataFrame(request.getUnpersist.getRelation, planner)
         if (request.getUnpersist.hasBlocking) {
           target.unpersist(request.getUnpersist.getBlocking)
         } else {
@@ -197,8 +190,8 @@ private[connect] class SparkConnectAnalyzeHandler(
         builder.setUnpersist(proto.AnalyzePlanResponse.Unpersist.newBuilder().build())
 
       case proto.AnalyzePlanRequest.AnalyzeCase.GET_STORAGE_LEVEL =>
-        val rel = transformRelation(request.getGetStorageLevel.getRelation)
-        val target = getDataFrameWithoutExecuting(rel)
+        val target = sessionHolder
+          .createDataFrame(request.getGetStorageLevel.getRelation, planner)
         val storageLevel = target.storageLevel
         builder.setGetStorageLevel(
           proto.AnalyzePlanResponse.GetStorageLevel
diff --git a/sql/connect/server/src/test/scala/org/apache/spark/sql/connect/service/SparkConnectSessionHolderSuite.scala b/sql/connect/server/src/test/scala/org/apache/spark/sql/connect/service/SparkConnectSessionHolderSuite.scala