宣布 Apache Arrow DataFusion 现已成为 Apache DataFusion


发布 2024 年 5 月 7 日
作者 Apache Arrow PMC (pmc)

简介

TLDR; Apache Arrow DataFusion --> Apache DataFusion

Arrow PMC 和新成立的 DataFusion PMC 欣然宣布,自 2024 年 4 月 16 日起,Apache Arrow DataFusion 子项目现已成为 Apache 软件基金会 的顶级项目。

背景

Apache DataFusion 是一个快速、可扩展的查询引擎,用于使用 Apache Arrow 内存格式在 Rust 中构建高质量的数据中心系统。

DataFusion 于 2019 年捐赠给 Apache 软件基金会时,DataFusion 社区规模还不足以独立运作,Arrow 项目同意提供支持。自 2019 年以来,该社区已显著壮大,从成为 Arrow 的一部分并遵循Apache 之道中受益匪浅。

为何是现在?

社区公开讨论升级为顶级项目已有近一年时间,因为该项目似乎已准备好独立运作,并将受益于更集中的治理。例如,在 DataFusion 生命周期的早期,许多人同时为 arrow-rs 和 DataFusion 做出贡献,但随着 DataFusion 的成熟,许多贡献者、提交者和 PMC 成员越来越专注于 DataFusion。

展望未来

未来一片光明。现在有数十个已知项目使用 DataFusion 构建,并且这个数字还在持续增长。我们最近举办了首次线下聚会,GitHub 上星标数突破 5000撰写了一篇论文并被 SIGMOD 2024 接收,并开始开发 Comet,一个Apache Spark 加速器,最初由 Apple 捐赠

感谢 Arrow 社区中所有多年来帮助 DataFusion 成长和成熟的人,我们期待着继续作为项目进行协作。所有未来的博客和公告都将发布在 Apache DataFusion 网站上。

参与进来

如果您有兴趣加入社区,我们非常欢迎您。通过沟通文档联系我们,并在贡献者指南中了解如何参与。我们欢迎大家在自己的数据和项目中尝试 DataFusion,并告诉我们结果如何,贡献建议、文档、错误报告,或通过拉取请求(PR)贡献文档、测试或代码。