pyarrow.parquet.write_metadata#

pyarrow.parquet.write_metadata(schema, where, metadata_collector=None, filesystem=None, **kwargs)[source]#

从 schema 写入仅包含元数据的 Parquet 文件。这可以与 write_to_dataset 一起使用,以生成 _common_metadata_metadata 伴随文件。

参数:
schemapyarrow.Schema
wherestr or pyarrow.NativeFile
metadata_collectorlist

收集元数据信息的位置。

filesystemFileSystem, 默认值 None

如果没有传递,如果 where 是路径类型,则将从 where 推断;否则 where 已经是一个类似文件的对象,因此不需要文件系统。

**kwargsdict,

ParquetWriter 类的附加关键字参数。有关详细信息,请参阅 ParquetWriter 的文档字符串。

示例

生成示例数据

>>> import pyarrow as pa
>>> table = pa.table({'n_legs': [2, 2, 4, 4, 5, 100],
...                   'animal': ["Flamingo", "Parrot", "Dog", "Horse",
...                              "Brittle stars", "Centipede"]})

写入数据集并收集元数据信息。

>>> metadata_collector = []
>>> import pyarrow.parquet as pq
>>> pq.write_to_dataset(
...     table, 'dataset_metadata',
...      metadata_collector=metadata_collector)

写入不包含行组统计信息的 _common_metadata parquet 文件。

>>> pq.write_metadata(
...     table.schema, 'dataset_metadata/_common_metadata')

写入包含行组统计信息的 _metadata parquet 文件。

>>> pq.write_metadata(
...     table.schema, 'dataset_metadata/_metadata',
...     metadata_collector=metadata_collector)