pyarrow.dataset.parquet_dataset#
- pyarrow.dataset.parquet_dataset(metadata_path, schema=None, filesystem=None, format=None, partitioning=None, partition_base_dir=None)[source]#
从通过 pyarrow.parquet.write_metadata 创建的 _metadata 文件创建 FileSystemDataset。
- 参数:
- metadata_pathpath,
指向单个 parquet 元数据文件的路径
- schema
Schema,可选 可选地提供数据集的 Schema,在这种情况下,它将不会从源中推断出来。
- filesystem
FileSystem或 URIstr, 默认值None 如果将单个路径作为源且 filesystem 为 None,则将从路径推断文件系统。如果传递 URI 字符串,则使用 URI 的可选路径组件作为目录前缀来构造文件系统对象。请参阅下面的示例。请注意,Windows 上的 URI 必须遵循“file:///C:...”或“file:/C:...”模式。
- format
ParquetFileFormat 如果需要传递特殊选项,则为 ParquetFileFormat 的实例。
- partitioning
Partitioning,PartitioningFactory,str,listofstr 使用
partitioning()函数指定的分区方案。可以使用风味字符串作为快捷方式,使用字段名称列表将推断出 DirectoryPartitioning。- partition_base_dir
str, optional 为了应用分区,路径将剥离 partition_base_dir。不匹配 partition_base_dir 前缀的文件将被跳过分区发现。被忽略的文件仍将是 Dataset 的一部分,但不会有分区信息。
- 返回:
FileSystemDataset与给定元数据对应的数据集