Apache Arrow#
Apache Arrow 是一个用于内存中分析的开发平台。它包含一组技术,使大数据系统能够快速处理和移动数据。它指定了一种标准化的语言无关的列式内存格式,用于扁平化和分层数据,并针对现代硬件上的高效分析操作进行了组织。
该项目正在开发一个多语言库集合,用于解决与内存中分析数据处理相关的系统问题。这包括以下主题:
零拷贝共享内存和基于 RPC 的数据移动
读取和写入文件格式(如 CSV、Apache ORC 和 Apache Parquet)
内存中分析和查询处理
要了解如何使用 Arrow,请参考您目标环境的特定文档。
规范
阅读有关 Apache Arrow 格式及其相关规范和协议的信息。
开发
查找有关从源代码构建库、构建文档、贡献和代码审查、持续集成、基准测试和发布流程的文档。