输入/输出和文件系统#

Arrow 提供了一系列 C++ 接口,抽象了输入/输出操作的具体细节。它们对无类型二进制数据流进行操作。这些抽象用于各种目的,例如读取 CSV 或 Parquet 数据、传输 IPC 流等。

读取二进制数据#

读取二进制数据的接口有两种形式

  • 顺序读取:InputStream 接口提供了 Read 方法;建议 ReadBuffer,因为在某些情况下可以避免内存复制。

  • 随机访问读取:RandomAccessFile 接口提供了用于定位的附加工具,最重要的是 ReadAt 方法,该方法允许多个线程并行读取。

具体的实现可用于内存中读取无缓冲文件读取内存映射文件读取缓冲读取压缩读取

写入二进制数据#

写入二进制数据主要通过 OutputStream 接口完成。

具体的实现可用于内存中写入无缓冲文件写入内存映射文件写入缓冲写入压缩写入

文件系统#

文件系统接口允许对各种数据存储后端(例如本地文件系统或 S3 存储桶)进行抽象访问。它提供输入和输出流以及目录操作。

另请参阅

文件系统 API 参考.

文件系统接口公开底层数据存储的简化视图。数据路径表示为*抽象路径*,即使在 Windows 上也是 / 分隔的,并且不应包含特殊路径组件,例如 ...。如果底层存储支持符号链接,则会自动取消引用。只提供关于文件条目的基本 元数据,例如文件大小和修改时间。

可以使用其中一个 FromUri 工厂 从 URI 字符串构造文件系统实例,这些工厂根据 URI 的 scheme 分派到特定于实现的工厂。新实例的其他属性将从 URI 的其他属性中提取,例如 hostnameusername 等。Arrow 支持运行时注册新的文件系统,并为多个文件系统提供内置支持。

支持哪些内置文件系统是在构建时配置的,可能包括本地文件系统访问HDFS与 Amazon S3 兼容的存储Google Cloud Storage

注意

使用文件系统的任务通常会在I/O 线程池上运行。对于支持高并发级别的文件系统,您可能会从增加 I/O 线程池的大小中受益。

定义新的文件系统#

可以通过使用 RegisterFileSystemFactory() 为每个新 URI 方案注册一个工厂,将对其他 URI 方案的支持添加到 FromUri 工厂。为了启用希望自动注册的常见情况,可以在命名空间范围内定义 FileSystemRegistrar 的实例,该实例将在加载实例时注册一个工厂

auto kExampleFileSystemModule = ARROW_REGISTER_FILESYSTEM(
  "example",
  [](const Uri& uri, const io::IOContext& io_context,
      std::string* out_path) -> Result<std::shared_ptr<arrow::fs::FileSystem>> {
    EnsureExampleFileSystemInitialized();
    return std::make_shared<ExampleFileSystem>();
  },
  &EnsureExampleFileSystemFinalized
);

如果文件系统实现在构造任何实例之前需要初始化,则应将其包含在相应的工厂中,或者在调用工厂之前自动确保。同样,如果文件系统实现在进程结束之前需要拆除,则可以将其包装在一个函数中,并与工厂一起注册。所有终结器都将由 EnsureFinalized() 调用。

可以通过将文件系统实现划分到一个单独的共享库中来降低构建复杂度,应用程序可以链接或动态加载该库。Arrow 的内置文件系统实现也遵循这种模式。如果必须动态加载包含 FileSystemRegistrar 实例的共享库,则应使用 LoadFileSystemFactories() 来加载它。如果这样的库可能静态链接到 Arrow,则其源文件之一应该恰好 #include "arrow/filesystem/filesystem_library.h" ,以确保 LoadFileSystemFactories() 所依赖的符号存在。