Apache Arrow#
Apache Arrow 是一种通用的列式格式和多语言工具箱,用于快速数据交换和内存分析。
该项目指定了一种语言无关的面向列的内存格式,用于平面和分层数据,其组织方式可在现代硬件上进行高效的分析操作。该项目包含一个积极开发的多种语言库集合,用于解决与数据传输和内存分析处理相关的问题。这包括以下主题:
零拷贝共享内存和基于 RPC 的数据移动
读取和写入文件格式(如 CSV、Apache ORC 和 Apache Parquet)
内存分析和查询处理
要了解如何使用 Arrow,请参阅特定于您的目标环境的文档。
规范
阅读有关 Apache Arrow 格式及其相关规范和协议的信息。
开发
查找有关从源代码构建库、构建文档、贡献和代码审查、持续集成、基准测试和发布过程的文档。