FragmentScanOptions
包含特定于 FileFormat
和扫描操作的选项。
工厂
FragmentScanOptions$create()
接受以下参数
format
: 文件格式的字符串标识符。目前支持的值"parquet"
"csv"/"text",是同一格式的别名。
...
: 其他特定于格式的选项format = "parquet"
:use_buffered_stream
: 通过缓冲输入流读取文件,而不是一次加载整个行组。这可以用来减少内存开销。默认情况下禁用。buffer_size
: 如果启用了缓冲流,则缓冲流的大小。默认值为 8KB。pre_buffer
: 预先缓冲原始 Parquet 数据。这可以在高延迟文件系统上提高性能。默认情况下禁用。thrift_string_size_limit
: 为解码 Thrift 字符串分配的最大字符串大小。可能需要增加它才能读取具有特别大的标题的文件。默认值为 100000000。thrift_container_size_limit
: Thrift 容器的最大大小。可能需要增加它才能读取具有特别大的标题的文件。默认值为 1000000。format = "text"
: 请参阅 CsvConvertOptions。请注意,选项只能使用 Arrow C++ 库命名来指定。此外,来自 CsvReadOptions 的 "block_size" 也可以给出。
它返回 FragmentScanOptions
的适当子类(例如,CsvFragmentScanOptions
)。