Apache Arrow#
Apache Arrow 是一种通用的列式内存格式,也是用于快速数据交换和内存分析的多语言工具箱。
该项目定义了一种与语言无关的列式内存格式,用于存储平面数据和分层数据,旨在针对现代硬件进行高效的分析操作。该项目包含一系列处于活跃开发状态的多种语言库,用于解决与数据传输和内存分析处理相关的问题。其中包括以下内容:
零拷贝共享内存和基于 RPC 的数据传输
读写文件格式(如 CSV、Apache ORC 和 Apache Parquet)
内存分析和查询处理
要了解如何使用 Arrow,请参考您目标环境对应的文档。
规范
阅读关于 Apache Arrow 格式及其相关规范和协议的内容。
开发
查找关于从源代码构建库、构建文档、贡献与代码审查、持续集成、基准测试以及发布流程的文档。
实现
浏览 C++、C GLib、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby、Rust 和 Swift 等语言的 Apache Arrow 库的文档和源代码。
指南
探索 C++、Java、Python、R 和 Rust 语言的 Apache Arrow 实用指南(Cookbook)。