读取和写入 CSV 文件#

Arrow 提供了一个快速的 CSV 读取器，允许摄取外部数据以创建 Arrow 表或 Arrow RecordBatch 流。

另请参阅

读取 CSV 文件#

CSV 文件中的数据可以使用 TableReader 读取为单个 Arrow 表，也可以使用 StreamingReader 流式传输为 RecordBatch。有关这两种方法之间权衡的讨论，请参见权衡。

这些读取器都需要一个 arrow::io::InputStream 实例来表示输入文件。可以使用 ReadOptions、ParseOptions 和 ConvertOptions 的组合来自定义它们的行为。

TableReader#

#include "arrow/csv/api.h"

{
   // ...
   arrow::io::IOContext io_context = arrow::io::default_io_context();
   std::shared_ptr<arrow::io::InputStream> input = ...;

   auto read_options = arrow::csv::ReadOptions::Defaults();
   auto parse_options = arrow::csv::ParseOptions::Defaults();
   auto convert_options = arrow::csv::ConvertOptions::Defaults();

   // Instantiate TableReader from input stream and options
   auto maybe_reader =
     arrow::csv::TableReader::Make(io_context,
                                   input,
                                   read_options,
                                   parse_options,
                                   convert_options);
   if (!maybe_reader.ok()) {
     // Handle TableReader instantiation error...
   }
   std::shared_ptr<arrow::csv::TableReader> reader = *maybe_reader;

   // Read table from CSV file
   auto maybe_table = reader->Read();
   if (!maybe_table.ok()) {
     // Handle CSV read error
     // (for example a CSV syntax error or failed type conversion)
   }
   std::shared_ptr<arrow::Table> table = *maybe_table;
}

StreamingReader#

#include "arrow/csv/api.h"

{
   // ...
   arrow::io::IOContext io_context = arrow::io::default_io_context();
   std::shared_ptr<arrow::io::InputStream> input = ...;

   auto read_options = arrow::csv::ReadOptions::Defaults();
   auto parse_options = arrow::csv::ParseOptions::Defaults();
   auto convert_options = arrow::csv::ConvertOptions::Defaults();

   // Instantiate StreamingReader from input stream and options
   auto maybe_reader =
     arrow::csv::StreamingReader::Make(io_context,
                                       input,
                                       read_options,
                                       parse_options,
                                       convert_options);
   if (!maybe_reader.ok()) {
     // Handle StreamingReader instantiation error...
   }
   std::shared_ptr<arrow::csv::StreamingReader> reader = *maybe_reader;

   // Set aside a RecordBatch pointer for re-use while streaming
   std::shared_ptr<RecordBatch> batch;

   while (true) {
       // Attempt to read the first RecordBatch
       arrow::Status status = reader->ReadNext(&batch);

       if (!status.ok()) {
         // Handle read error
       }

       if (batch == NULL) {
         // Handle end of file
         break;
       }

       // Do something with the batch
   }
}

权衡#

使用 TableReader 还是 StreamingReader 之间的选择最终将取决于用例，但需要注意一些权衡

内存使用： TableReader 一次将所有数据加载到内存中，并且根据数据量，可能比 StreamingReader 需要更多的内存，后者一次只加载一个 RecordBatch。这可能是用户最重要的权衡。
速度： 在读取 CSV 的全部内容时，TableReader 比 StreamingReader 往往更快，因为它更好地利用了可用的核心。有关更多详细信息，请参见性能。
灵活性： StreamingReader 可能被认为不如 TableReader 灵活，因为它仅对读取的第一个块执行类型推断，之后类型将被冻结，并且后续块中任何无法转换为这些类型的数据都将导致错误。请注意，可以通过将 ReadOptions::block_size 设置为足够大的值或使用 ConvertOptions::column_types 显式设置所需的数据类型来解决此问题。

写入 CSV 文件#

CSV 文件被写入到 OutputStream。

#include <arrow/csv/api.h>
{
    // Oneshot write
    // ...
    std::shared_ptr<arrow::io::OutputStream> output = ...;
    auto write_options = arrow::csv::WriteOptions::Defaults();
    if (WriteCSV(table, write_options, output.get()).ok()) {
        // Handle writer error...
    }
}
{
    // Write incrementally
    // ...
    std::shared_ptr<arrow::io::OutputStream> output = ...;
    auto write_options = arrow::csv::WriteOptions::Defaults();
    auto maybe_writer = arrow::csv::MakeCSVWriter(output, schema, write_options);
    if (!maybe_writer.ok()) {
        // Handle writer instantiation error...
    }
    std::shared_ptr<arrow::ipc::RecordBatchWriter> writer = *maybe_writer;

    // Write batches...
    if (!writer->WriteRecordBatch(*batch).ok()) {
        // Handle write error...
    }

    if (!writer->Close().ok()) {
        // Handle close error...
    }
    if (!output->Close().ok()) {
        // Handle file close error...
    }
}

注意

该写入器尚未支持所有 Arrow 类型。

列名#

有三种可能的方法可以从 CSV 文件中推断列名

默认情况下，列名从 CSV 文件的第一行读取
如果设置了 ReadOptions::column_names，它会强制将表中的列名设置为这些值（CSV 文件中的第一行被读取为数据）
如果 ReadOptions::autogenerate_column_names 为 true，则将使用模式“f0”、“f1”...自动生成列名（CSV 文件中的第一行被读取为数据）

列选择#

默认情况下，Arrow 读取 CSV 文件中的所有列。您可以使用 ConvertOptions::include_columns 选项来缩小列的选择范围。如果 ConvertOptions::include_columns 中的某些列在 CSV 文件中丢失，则除非 ConvertOptions::include_missing_columns 为 true，否则将发出错误，在这种情况下，假定缺少的列包含所有空值。

与列名交互#

如果同时指定了 ReadOptions::column_names 和 ConvertOptions::include_columns，则假定 ReadOptions::column_names 映射到 CSV 列，并且 ConvertOptions::include_columns 是将成为 Arrow 表一部分的那些列名的子集。

数据类型#

默认情况下，CSV 读取器会推断每列最合适的数据类型。类型推断按以下顺序考虑以下数据类型

Null
Int64
Boolean
Date32
Time32（以秒为单位）
Timestamp（以秒为单位）
Timestamp（以纳秒为单位）
Float64
Dictionary<String>（如果 ConvertOptions::auto_dict_encode 为 true）
Dictionary<Binary>（如果 ConvertOptions::auto_dict_encode 为 true）
String
Binary

可以通过设置 ConvertOptions::column_types 选项来覆盖选定列的类型推断。可以从以下列表中选择显式数据类型

Null
所有整数类型
Float32 和 Float64
Decimal128
Boolean
Date32 和 Date64
Time32 和 Time64
Timestamp
Binary 和 Large Binary
String 和 Large String（带有可选的 UTF8 输入验证）
固定大小的 Binary
带有索引类型 Int32 和值类型为以下之一的 Dictionary：Binary、String、LargeBinary、LargeString、Int32、UInt32、Int64、UInt64、Float32、Float64、Decimal128

其他数据类型不支持从 CSV 值进行转换，并且会出错。

字典推断#

如果启用了类型推断并且 ConvertOptions::auto_dict_encode 为 true，CSV 读取器首先尝试将类字符串列转换为字典编码的类字符串数组。当达到 ConvertOptions::auto_dict_max_cardinality 中的阈值时，它会切换到纯类字符串数组。

时间戳推断/解析#

如果启用了类型推断，CSV 读取器首先尝试将类字符串列解释为时间戳。如果所有行都具有某个时区偏移量（例如 Z 或 +0100），即使偏移量不一致，则推断的类型将为 UTC 时间戳。如果没有行具有时区偏移量，则推断的类型将是没有时区的时间戳。具有/没有偏移量的行的混合将导致字符串列。

如果该类型被显式指定为带有/没有时区的时间戳，那么读取器将会在该列中遇到没有/有时区偏移量的值时报错。请注意，这意味着目前无法让读取器将没有时区偏移量的时间戳列解析为特定时区的本地时间；相反，应将该列解析为没有时区的时间戳，然后使用 assume_timezone 计算函数之后再转换这些值。

指定类型	输入 CSV	结果类型
（推断）	`2021-01-01T00:00:00`	timestamp[s]
	`2021-01-01T00:00:00Z`	timestamp[s, UTC]
	`2021-01-01T00:00:00+0100`	timestamp[s, UTC]
	2021-01-01T00:00:00 2021-01-01T00:00:00Z	string
timestamp[s]	`2021-01-01T00:00:00`	timestamp[s]
	`2021-01-01T00:00:00Z`	（错误）
	`2021-01-01T00:00:00+0100`
	2021-01-01T00:00:00 2021-01-01T00:00:00Z
timestamp[s, UTC]	`2021-01-01T00:00:00`	（错误）
	`2021-01-01T00:00:00Z`	timestamp[s, UTC]
	`2021-01-01T00:00:00+0100`	timestamp[s, UTC]
	2021-01-01T00:00:00 2021-01-01T00:00:00Z	（错误）
timestamp[s, America/New_York]	`2021-01-01T00:00:00`	（错误）
	`2021-01-01T00:00:00Z`	timestamp[s, America/New_York]
	`2021-01-01T00:00:00+0100`	timestamp[s, America/New_York]
	2021-01-01T00:00:00 2021-01-01T00:00:00Z	（错误）

空值#

空值是从存储在 ConvertOptions::null_values 中的拼写识别的。ConvertOptions::Defaults() 工厂方法将初始化许多传统的空值拼写，例如 N/A。

字符编码#

CSV 文件应以 UTF8 编码。但是，Binary 列接受非 UTF8 数据。

写入选项#

可以通过 WriteOptions 自定义写入的 CSV 文件的格式。目前可用的选项很少；将在未来的版本中添加更多。

性能#

默认情况下，TableReader 将并行化读取，以利用您机器上的所有 CPU 核心。您可以在 ReadOptions::use_threads 中更改此设置。合理的预期是在高性能台式机或笔记本电脑上，每个核心至少为 100 MB/s（以源 CSV 字节为单位衡量，而不是目标 Arrow 数据字节）。