pyarrow.acero.ScanNodeOptions#

class pyarrow.acero.ScanNodeOptions(dataset, **kwargs)#

基类: _ScanNodeOptions

一个源节点,它从数据集扫描中生成批次。

这是“扫描”节点工厂的选项类。

此节点能够将下推投影或过滤器应用于文件读取器,从而减少需要读取的数据量(如果文件格式支持)。但请注意,这不会构造相关的过滤器或投影节点来执行最终的过滤或投影。相反,您可以将相同的过滤表达式或投影提供给扫描节点,就像您提供给过滤器或投影节点一样。

当 implicit_ordering=True 时,生成的批次将通过片段/批次索引进行增强,以实现简单 ExecPlans 的稳定排序。

参数:
datasetpyarrow.dataset.Dataset

作为数据源的表。

**kwargsdict, 可选

扫描选项。有关可能的参数,请参阅 Scanner.from_dataset

require_sequenced_outputbool, default False

批次按顺序生成,类似于单线程。

implicit_orderingbool, default False

保留数据的隐式排序。

__init__(self, Dataset dataset, **kwargs)#

方法

__init__(self, Dataset dataset, **kwargs)