Apache Arrow#
Apache Arrow 是一个通用的列式内存格式,也是一个用于快速数据交换和内存分析的多语言工具箱。
该项目为扁平化和层次化数据指定了一种与语言无关的、面向列的内存格式,其组织结构旨在实现现代硬件上的高效分析操作。该项目包含一个积极开发中的多语言库集合,用以解决与数据传输和内存分析处理相关的问题。这包括以下主题:
零拷贝共享内存和基于 RPC 的数据移动
读写文件格式(如 CSV、Apache ORC 和 Apache Parquet)
内存分析和查询处理
要了解如何使用 Arrow,请参阅针对您目标环境的特定文档。
规范
阅读有关 Apache Arrow 格式及其相关规范和协议的资料。
开发
查找有关从源代码构建库、构建文档、贡献和代码审查、持续集成、基准测试以及发布流程的文档。
实现
浏览 C++、C GLib、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby、Rust 和 Swift 等语言的 Apache Arrow 库的文档和源代码。
指南
探索 C++、Java、Python、R 和 Rust 语言的 Apache Arrow 使用示例集。