此类包含用于控制 ParquetFileWriter 如何读取 Parquet 文件的设置。
详情
参数 `compression`、`compression_level`、`use_dictionary` 和 `write_statistics` 支持多种模式
默认值 `NULL` 表示参数未指定,C++ 库将为每一列使用适当的默认值(默认值如上所列)
单个未命名值(例如,`compression` 的单个字符串)适用于所有列
与列数大小相同的未命名向量,用于按位置顺序为每一列指定一个值
命名向量,用于为指定的列指定值,未提供时使用设置的默认值
与高级函数 write_parquet 不同,`ParquetWriterProperties` 参数使用 C++ 默认值。目前,这意味着 `compression` 参数的默认值为“未压缩”而不是“snappy”。
工厂方法
`ParquetWriterProperties$create()` 工厂方法用于实例化对象,并接受以下参数:
`table`:要写入的表(必填)
`version`:Parquet 版本,“1.0”或“2.0”。默认为“1.0”
`compression`:压缩类型,算法 `“uncompressed”`
`compression_level`:压缩级别;含义取决于压缩算法
`use_dictionary`:指定是否应使用字典编码。默认为 `TRUE`
`write_statistics`:指定是否应写入统计信息。默认为 `TRUE`
`data_page_size`:设置列块中数据页的近似编码大小的目标阈值(以字节为单位)。默认为 1 MiB。
另请参阅
有关模式和元数据处理的信息,请参阅 Schema。