跳到内容

此类保存设置,用于控制 ParquetFileWriter 如何读取 Parquet 文件。

详情

参数 compressioncompression_leveluse_dictionarywrite_statistics 支持各种模式

  • 默认的 NULL 不指定参数,C++ 库为每列使用适当的默认值(上面列出的默认值)

  • 单个、无名、值(例如 compression 的单个字符串)适用于所有列

  • 与列数大小相同的无名向量,按位置顺序为每列指定一个值

  • 命名向量,用于指定命名列的值,当未提供时使用设置的默认值

与高级 write_parquet 不同,ParquetWriterProperties 参数使用 C++ 默认值。目前,这意味着 compression 参数使用“未压缩”而不是“snappy”。

工厂

ParquetWriterProperties$create() 工厂方法实例化对象,并采用以下参数

  • table: 要写入的表(必需)

  • version: Parquet 版本,“1.0”或“2.0”。默认“1.0”

  • compression: 压缩类型,算法 "uncompressed"

  • compression_level: 压缩级别;含义取决于压缩算法

  • use_dictionary: 指定是否应使用字典编码。默认 TRUE

  • write_statistics: 指定是否应写入统计信息。默认 TRUE

  • data_page_size: 设置列块内数据页面的近似编码大小的目标阈值(以字节为单位)。默认 1 MiB。

另请参阅

write_parquet

Schema,了解有关模式和元数据处理的信息。