表格数据#

另请参阅

虽然数组和分块数组表示同构值的一维序列，但数据通常以异构数据的二维形式出现（例如数据库表、CSV文件等）。Arrow提供了几种抽象来方便高效地处理此类数据。

字段#

字段用于表示表的特定列（以及嵌套数据类型（如 arrow::StructType）的特定成员）。字段，即 arrow::Field 的实例，包含数据类型、字段名和一些可选元数据。

创建字段的推荐方法是调用 arrow::field() 工厂函数。

模式#

模式描述了二维数据集（如表）的整体结构。它包含一系列字段以及一些可选的模式范围内的元数据（除了每个字段的元数据）。创建模式的推荐方法是调用 arrow::schema() 工厂函数的其中一个重载

// Create a schema describing datasets with two columns:
// a int32 column "A" and a utf8-encoded string column "B"
std::shared_ptr<arrow::Field> field_a, field_b;
std::shared_ptr<arrow::Schema> schema;

field_a = arrow::field("A", arrow::int32());
field_b = arrow::field("B", arrow::utf8());
schema = arrow::schema({field_a, field_b});

表#

一个 arrow::Table 是一个二维数据集，其列是分块数组，并带有一个提供字段名的模式。此外，每个分块列必须具有相同的逻辑长度（元素数量），尽管每个列可以以不同的方式分块。

记录批次#

一个 arrow::RecordBatch 是一个二维数据集，由多个连续的数组组成，每个数组的长度相同。与表一样，记录批次也具有一个模式，该模式必须与其数组的数据类型匹配。

记录批次是各种序列化和计算函数（可能是增量式的）的便捷工作单元。

记录批次可以在不同实现之间发送，例如通过 IPC 或通过 C 数据接口。另一方面，表和分块数组是C++实现中的概念，而不是Arrow格式本身的概念，因此它们不能直接移植。

然而，表可以轻松地从一系列记录批次转换和构建，而无需复制底层数组缓冲区。表可以使用 arrow::TableBatchReader 流式传输为任意数量的记录批次。相反，逻辑上的一系列记录批次可以使用 arrow::Table::FromRecordBatches() 工厂函数的其中一个重载组装成一个表。