此类包含控制 ParquetFileWriter 如何读取 Parquet 文件的设置。
详细信息
参数 compression
、compression_level
、use_dictionary
和 write_statistics` 支持多种模式
默认值
NULL
使参数保持未指定状态,C++ 库对每一列使用适当的默认值(上面列出了默认值)单个未命名的值(例如,
compression
的单个字符串)适用于所有列一个未命名的向量,其大小与列数相同,用于指定每一列的值(按位置顺序)
一个命名的向量,用于指定命名列的值,如果未提供该设置,则使用默认值
与高级 write_parquet 不同,ParquetWriterProperties
参数使用 C++ 默认值。目前,这意味着 compression
参数使用 "uncompressed" 而不是 "snappy"。
工厂
ParquetWriterProperties$create()
工厂方法实例化对象并采用以下参数
table
: 要写入的表(必需)version
: Parquet 版本,"1.0" 或 "2.0"。默认为 "1.0"compression
: 压缩类型,算法"uncompressed"
compression_level
: 压缩级别;含义取决于压缩算法use_dictionary
: 指定是否应使用字典编码。默认为TRUE
write_statistics
: 指定是否应写入统计信息。默认为TRUE
data_page_size
: 设置列块内数据页的近似编码大小的目标阈值(以字节为单位)。默认为 1 MiB。
另请参阅
Schema 有关模式和元数据处理的信息。