宣布 Apache Arrow DataFusion 现已成为 Apache DataFusion


已发布 2024 年 5 月 7 日
作者 Apache Arrow PMC (pmc)

简介

简而言之:Apache Arrow DataFusion –> Apache DataFusion

Arrow PMC 和新成立的 DataFusion PMC 欣然宣布,自 2024 年 4 月 16 日起,Apache Arrow DataFusion 子项目现已成为顶级 Apache 软件基金会 项目。

背景

Apache DataFusion 是一个快速、可扩展的查询引擎,用于使用 Apache Arrow 内存格式在 Rust 中构建高质量的数据中心系统。

2019 年,当 DataFusion 被捐赠给 Apache 软件基金会时,DataFusion 社区规模不足以独立存在,Arrow 项目同意提供支持。自 2019 年以来,社区发展壮大,受益于成为 Arrow 的一部分并遵循Apache 之道

为何选择现在?

由于该项目似乎已准备好独立存在并将受益于更专注的治理,社区公开讨论晋升为顶级项目已近一年。例如,在 DataFusion 的早期阶段,许多人同时为 arrow-rs 和 DataFusion 做出了贡献,但随着 DataFusion 的成熟,许多贡献者、提交者和 PMC 成员越来越专注于 DataFusion。

展望未来

未来一片光明。现在有数十个已知的 DataFusion 构建项目,而且这个数字还在不断增长。我们最近举行了第一次线下聚会,GitHub 上的星标超过了 5000 个撰写了一篇被 SIGMOD 2024 接收的论文,并开始致力于 Comet 的开发,这是一个 Apache Spark 加速器,最初由 Apple 捐赠

感谢 Arrow 社区的每一位成员多年来帮助 DataFusion 成长和成熟,我们期待着作为项目继续合作。所有未来的博客和公告都将在 Apache DataFusion 网站上发布。

参与进来

如果您有兴趣加入社区,我们非常欢迎您。请使用沟通文档与我们联系,并学习如何在贡献者指南中参与进来。我们欢迎大家在自己的数据和项目中尝试 DataFusion,并告诉我们您的体验,贡献建议、文档、错误报告,或者提交包含文档、测试或代码的 PR。