pyarrow.parquet.write_metadata#
- pyarrow.parquet.write_metadata(schema, where, metadata_collector=None, filesystem=None, **kwargs)[source]#
从 schema 写入仅包含元数据的 Parquet 文件。这可以与 write_to_dataset 一起使用,以生成 _common_metadata 和 _metadata 伴随文件。
- 参数:
- schema
pyarrow.Schema - where
strorpyarrow.NativeFile - metadata_collector
list 收集元数据信息的位置。
- filesystem
FileSystem, 默认值None 如果没有传递,如果 where 是路径类型,则将从 where 推断;否则 where 已经是一个类似文件的对象,因此不需要文件系统。
- **kwargsdict,
ParquetWriter 类的附加关键字参数。有关详细信息,请参阅 ParquetWriter 的文档字符串。
- schema
示例
生成示例数据
>>> import pyarrow as pa >>> table = pa.table({'n_legs': [2, 2, 4, 4, 5, 100], ... 'animal': ["Flamingo", "Parrot", "Dog", "Horse", ... "Brittle stars", "Centipede"]})
写入数据集并收集元数据信息。
>>> metadata_collector = [] >>> import pyarrow.parquet as pq >>> pq.write_to_dataset( ... table, 'dataset_metadata', ... metadata_collector=metadata_collector)
写入不包含行组统计信息的 _common_metadata parquet 文件。
>>> pq.write_metadata( ... table.schema, 'dataset_metadata/_common_metadata')
写入包含行组统计信息的 _metadata parquet 文件。
>>> pq.write_metadata( ... table.schema, 'dataset_metadata/_metadata', ... metadata_collector=metadata_collector)