跳转至内容

FragmentScanOptions 对象包含特定于 FileFormat 和扫描操作的选项。

工厂函数

FragmentScanOptions$create() 接受以下参数

  • format:文件格式的字符串标识符。当前支持的值:

    • "parquet"

    • "csv"/"text",表示相同格式的别名。

  • ...:其他格式特定的选项

    format = "parquet":

    • use_buffered_stream:通过缓冲输入流读取文件,而不是一次加载整个行组。启用此选项可以减少内存开销。默认禁用。

    • buffer_size:缓冲流的大小(如果启用)。默认为 8KB。

    • pre_buffer:预缓冲原始 Parquet 数据。这可以提高高延迟文件系统的性能。默认禁用。

    • thrift_string_size_limit:为解码 thrift 字符串分配的最大字符串大小。可能需要增加此值才能读取具有特别大的标头的文件。默认值为 100000000。

    • thrift_container_size_limit:thrift 容器的最大大小。可能需要增加此值才能读取具有特别大的标头的文件。默认值为 1000000。format = "text":请参阅 CsvConvertOptions。请注意,选项只能使用 Arrow C++ 库命名来指定。此外,还可以提供 CsvReadOptions 中的 "block_size"。

它返回 FragmentScanOptions 的相应子类(例如 CsvFragmentScanOptions)。