Apache Arrow#

Apache Arrow 是一个用于内存中分析的开发平台。它包含一组技术,使大数据系统能够快速处理和移动数据。它指定了一种标准化的语言无关的列式内存格式,用于扁平化和分层数据,并针对现代硬件上的高效分析操作进行了组织。

该项目正在开发一个多语言库集合,用于解决与内存中分析数据处理相关的系统问题。这包括以下主题:

  • 零拷贝共享内存和基于 RPC 的数据移动

  • 读取和写入文件格式(如 CSV、Apache ORC 和 Apache Parquet)

  • 内存中分析和查询处理

要了解如何使用 Arrow,请参考您目标环境的特定文档。

规范

阅读有关 Apache Arrow 格式及其相关规范和协议的信息。

开发

查找有关从源代码构建库、构建文档、贡献和代码审查、持续集成、基准测试和发布流程的文档。

实现#

示例#