跳至内容

此类包含控制 ParquetFileWriter 如何读取 Parquet 文件的设置。

详细信息

参数 compressioncompression_leveluse_dictionary 和 write_statistics` 支持多种模式

  • 默认值 NULL 使参数保持未指定状态,C++ 库对每一列使用适当的默认值(上面列出了默认值)

  • 单个未命名的值(例如,compression 的单个字符串)适用于所有列

  • 一个未命名的向量,其大小与列数相同,用于指定每一列的值(按位置顺序)

  • 一个命名的向量,用于指定命名列的值,如果未提供该设置,则使用默认值

与高级 write_parquet 不同,ParquetWriterProperties 参数使用 C++ 默认值。目前,这意味着 compression 参数使用 "uncompressed" 而不是 "snappy"。

工厂

ParquetWriterProperties$create() 工厂方法实例化对象并采用以下参数

  • table: 要写入的表(必需)

  • version: Parquet 版本,"1.0" 或 "2.0"。默认为 "1.0"

  • compression: 压缩类型,算法 "uncompressed"

  • compression_level: 压缩级别;含义取决于压缩算法

  • use_dictionary: 指定是否应使用字典编码。默认为 TRUE

  • write_statistics: 指定是否应写入统计信息。默认为 TRUE

  • data_page_size: 设置列块内数据页的近似编码大小的目标阈值(以字节为单位)。默认为 1 MiB。

另请参阅

write_parquet

Schema 有关模式和元数据处理的信息。