多文件数据集 — Dataset • Arrow R 包

Arrow 数据集允许您查询已拆分为多个文件的数据。这种数据分片可能表明存在分区，这可以加速仅触及部分分区（文件）的查询。

一个 Dataset 包含一个或多个 Fragment，例如文件，它们可能具有不同的类型和分区。

对于 Dataset$create()，请参阅 open_dataset()，它是它的别名。

DatasetFactory 用于对 Dataset 的创建提供更精细的控制。

工厂

DatasetFactory 用于创建 Dataset，检查其中包含的片段的 Schema，并声明一个分区。FileSystemDatasetFactory 是 DatasetFactory 的子类，用于在本地文件系统中发现文件，这是目前唯一支持的文件系统。

对于 DatasetFactory$create() 工厂方法，请参阅 dataset_factory()，它是它的别名。一个 DatasetFactory 具有

$Inspect(unify_schemas)：如果 unify_schemas 为 TRUE，所有片段将被扫描并从中创建一个统一的 Schema；如果为 FALSE（默认），则仅检查第一个片段的模式。当您知道并相信所有片段都具有相同的模式时，请使用此快速路径。
$Finish(schema, unify_schemas)：返回一个 Dataset。如果提供了 schema，它将用于 Dataset；如果省略，将通过检查数据集中片段（文件）来创建一个 Schema，遵循上述 unify_schemas 的描述。

FileSystemDatasetFactory$create() 是一个更低级的工厂方法，并接受以下参数

一个 Dataset 具有以下方法

FileSystemDataset 具有以下方法

UnionDataset 具有以下方法

open_dataset() 提供一个创建 Dataset 的简单接口