Apache Arrow#

Apache Arrow 是一个通用的列式内存格式,也是一个用于快速数据交换和内存分析的多语言工具箱。

该项目为扁平化和层次化数据指定了一种与语言无关的、面向列的内存格式,其组织结构旨在实现现代硬件上的高效分析操作。该项目包含一个积极开发中的多语言库集合,用以解决与数据传输和内存分析处理相关的问题。这包括以下主题:

  • 零拷贝共享内存和基于 RPC 的数据移动

  • 读写文件格式(如 CSV、Apache ORC 和 Apache Parquet)

  • 内存分析和查询处理

要了解如何使用 Arrow,请参阅针对您目标环境的特定文档。

规范

阅读有关 Apache Arrow 格式及其相关规范和协议的资料。

开发

查找有关从源代码构建库、构建文档、贡献和代码审查、持续集成、基准测试以及发布流程的文档。

实现

浏览 C++、C GLib、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby、Rust 和 Swift 等语言的 Apache Arrow 库的文档和源代码。

指南

探索 C++、Java、Python、R 和 Rust 语言的 Apache Arrow 使用示例集。