Spark sql的批处理物理计划BatchScanExec

BatchScanExec是batch类的物理计划,对应的逻辑计划是DataSourceV2Relation,是Datasource。ide

它的入参是Scan类,Scan类有两个重要方法,一个获取分区列表信息;另外一个方法获取读取器工厂。spa

override lazy val partitions: Seq[InputPartition] = batch.planInputPartitions()对象

  override lazy val readerFactory: PartitionReaderFactory = batch.createReaderFactory()input

  override lazy val inputRDD: RDD[InternalRow] = {
    new DataSourceRDD(sparkContext, partitions, readerFactory, supportsColumnar)
  }it

planInputPartitions方法获取分区列表;createReaderFactory获取分区读取者工厂,这二者决定一个DataSourceRDD来做为inputRDD对象。spark

对于传统的DataSource类,只要实现对应数据源的Scan子类就可使用了。io

而StreamingDataSourceV2Relation对应的物理计划是MicroBatchScanExec和ContinuousScanExec,这时候Scan就不用了,而使用MicroBatchStream和ContinuousStream两个流的定义类。方法

相关文章
相关标签/搜索