跳转至内容

此类包含用于控制 ParquetFileWriter 如何读取 Parquet 文件的设置。

详情

参数 `compression`、`compression_level`、`use_dictionary` 和 `write_statistics` 支持多种模式

  • 默认值 `NULL` 表示参数未指定,C++ 库将为每一列使用适当的默认值(默认值如上所列)

  • 单个未命名值(例如,`compression` 的单个字符串)适用于所有列

  • 与列数大小相同的未命名向量,用于按位置顺序为每一列指定一个值

  • 命名向量,用于为指定的列指定值,未提供时使用设置的默认值

与高级函数 write_parquet 不同,`ParquetWriterProperties` 参数使用 C++ 默认值。目前,这意味着 `compression` 参数的默认值为“未压缩”而不是“snappy”。

工厂方法

`ParquetWriterProperties$create()` 工厂方法用于实例化对象,并接受以下参数:

  • `table`:要写入的表(必填)

  • `version`:Parquet 版本,“1.0”或“2.0”。默认为“1.0”

  • `compression`:压缩类型,算法 `“uncompressed”`

  • `compression_level`:压缩级别;含义取决于压缩算法

  • `use_dictionary`:指定是否应使用字典编码。默认为 `TRUE`

  • `write_statistics`:指定是否应写入统计信息。默认为 `TRUE`

  • `data_page_size`:设置列块中数据页的近似编码大小的目标阈值(以字节为单位)。默认为 1 MiB。

另请参阅

write_parquet

有关模式和元数据处理的信息,请参阅 Schema