pyarrow.dataset.parquet_dataset#

pyarrow.dataset.parquet_dataset(metadata_path, schema=None, filesystem=None, format=None, partitioning=None, partition_base_dir=None)[source]#

从通过 pyarrow.parquet.write_metadata 创建的 _metadata 文件创建 FileSystemDataset。

参数:
metadata_pathpath,

指向单个 parquet 元数据文件的路径

schemaSchema,可选

可选地提供数据集的 Schema,在这种情况下,它将不会从源中推断出来。

filesystemFileSystem 或 URI str, 默认值 None

如果将单个路径作为源且 filesystem 为 None,则将从路径推断文件系统。如果传递 URI 字符串,则使用 URI 的可选路径组件作为目录前缀来构造文件系统对象。请参阅下面的示例。请注意,Windows 上的 URI 必须遵循“file:///C:...”或“file:/C:...”模式。

formatParquetFileFormat

如果需要传递特殊选项,则为 ParquetFileFormat 的实例。

partitioningPartitioning, PartitioningFactory, str, list of str

使用 partitioning() 函数指定的分区方案。可以使用风味字符串作为快捷方式,使用字段名称列表将推断出 DirectoryPartitioning。

partition_base_dirstr, optional

为了应用分区,路径将剥离 partition_base_dir。不匹配 partition_base_dir 前缀的文件将被跳过分区发现。被忽略的文件仍将是 Dataset 的一部分,但不会有分区信息。

返回:
FileSystemDataset

与给定元数据对应的数据集