Apache Arrow#

Apache Arrow 是一种通用的列式内存格式,也是用于快速数据交换和内存分析的多语言工具箱。

该项目定义了一种与语言无关的列式内存格式,用于存储平面数据和分层数据,旨在针对现代硬件进行高效的分析操作。该项目包含一系列处于活跃开发状态的多种语言库,用于解决与数据传输和内存分析处理相关的问题。其中包括以下内容:

  • 零拷贝共享内存和基于 RPC 的数据传输

  • 读写文件格式(如 CSV、Apache ORC 和 Apache Parquet)

  • 内存分析和查询处理

要了解如何使用 Arrow,请参考您目标环境对应的文档。

规范

阅读关于 Apache Arrow 格式及其相关规范和协议的内容。

开发

查找关于从源代码构建库、构建文档、贡献与代码审查、持续集成、基准测试以及发布流程的文档。

实现

浏览 C++、C GLib、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby、Rust 和 Swift 等语言的 Apache Arrow 库的文档和源代码。

指南

探索 C++、Java、Python、R 和 Rust 语言的 Apache Arrow 实用指南(Cookbook)。