Apache Arrow#

Apache Arrow 是一种通用的列式格式和多语言工具箱,用于快速数据交换和内存分析。

该项目规定了一种独立于语言的、面向列的内存格式,用于扁平化和分层数据,旨在实现针对现代硬件的高效分析操作。该项目包含一个在多种语言中积极开发的库集合,用于解决与数据传输和内存分析处理相关的问题。这包括以下主题:

  • 零拷贝共享内存和基于 RPC 的数据移动

  • 读写文件格式(如 CSV、Apache ORC 和 Apache Parquet)

  • 内存分析和查询处理

要了解如何使用 Arrow,请参阅针对您的目标环境的文档。

规范

阅读有关 Apache Arrow 格式及其相关规范和协议的内容。

开发

查找有关从源代码构建库、构建文档、贡献和代码审查、持续集成、基准测试和发布过程的文档。

实现

浏览 Apache Arrow 库在 C++、C GLib、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby、Rust 和 Swift 中的文档和源代码。

指南

探索 Apache Arrow 在 C++、Java、Python、R 和 Rust 中的食谱集合。