一个 FragmentScanOptions 包含特定于 FileFormat 和扫描操作的选项。
工厂
FragmentScanOptions$create() 接受以下参数
format: 文件格式的字符串标识符。 目前支持的值有"parquet"
"csv"/"text", 相同格式的别名。
...: 附加的特定于格式的选项format = "parquet":use_buffered_stream:通过缓冲输入流读取文件,而不是一次加载整个行组。 启用此选项可以减少内存开销。 默认情况下禁用。buffer_size:缓冲流的大小(如果已启用)。 默认为 8KB。pre_buffer:预缓冲原始 Parquet 数据。 这可以提高高延迟文件系统的性能。 默认情况下禁用。thrift_string_size_limit:为解码 thrift 字符串分配的最大字符串大小。 可能需要增加此值才能读取具有特别大的标头的文件。 默认值 100000000。thrift_container_size_limit:thrift 容器的最大大小。 可能需要增加此值才能读取具有特别大的标头的文件。 默认值 1000000。format = "text":请参见 CsvConvertOptions。 请注意,选项只能使用 Arrow C++ 库命名来指定。 此外,还可以给出 CsvReadOptions 中的 "block_size"。
它返回 FragmentScanOptions 的适当子类(例如 CsvFragmentScanOptions)。