格式特定的扫描选项 — FragmentScanOptions • Arrow R 包 - Arrow 中文

一个 FragmentScanOptions 包含针对 FileFormat 和扫描操作的特定选项。

工厂

FragmentScanOptions$create() 接受以下参数

format: 文件格式的字符串标识符。当前支持的值
- "parquet"
- "csv"/"text"，相同格式的别名。
...: 额外的格式特定选项

format = "parquet":
- use_buffered_stream: 通过缓冲输入流读取文件，而不是一次性加载整个行组。启用此选项可以减少内存开销。默认禁用。
- buffer_size: 缓冲流的大小，如果启用。默认值为 8KB。
- pre_buffer: 预缓冲原始 Parquet 数据。这可以提高高延迟文件系统上的性能。默认禁用。
- thrift_string_size_limit: 用于解码 Thrift 字符串分配的最大字符串大小。如果文件头特别大，可能需要增加此值。默认值 100000000。
- thrift_container_size_limit: Thrift 容器的最大大小。如果文件头特别大，可能需要增加此值。默认值 1000000。format = "text": 请参阅 CsvConvertOptions。请注意，选项只能使用 Arrow C++ 库的命名方式指定。此外，可以提供来自 CsvReadOptions 的 "block_size"。

它返回 FragmentScanOptions 的适当子类（例如 CsvFragmentScanOptions）。