宣布 Apache Arrow DataFusion 现在是 Apache DataFusion
已发布 2024 年 5 月 7 日
作者 Apache Arrow PMC (pmc)
介绍
TLDR; Apache Arrow DataFusion –> Apache DataFusion
Arrow PMC 和新创建的 DataFusion PMC 很高兴地宣布,截至 2024 年 4 月 16 日,Apache Arrow DataFusion 子项目现在是顶级的 Apache 软件基金会 项目。
背景
Apache DataFusion 是一个快速、可扩展的查询引擎,用于使用 Apache Arrow 内存格式在 Rust 中构建高质量的以数据为中心的系统。
当 DataFusion 在 2019 年捐赠给 Apache 软件基金会时,DataFusion 社区规模不够大,无法独立存在,Arrow 项目同意帮助支持它。 自 2019 年以来,社区规模显着增长,从成为 Arrow 的一部分并遵循 The Apache Way 中受益匪浅。
为什么是现在?
该社区 公开讨论了升级为顶级项目近一年,因为该项目似乎已准备好独立存在,并将受益于更集中的治理。 例如,在 DataFusion 的早期,许多人为 arrow-rs 和 DataFusion 做出了贡献,但随着 DataFusion 的成熟,越来越多的贡献者、提交者和 PMC 成员越来越专注于 DataFusion。
展望未来
未来一片光明。 现在有 数十个已知项目使用 DataFusion 构建,而且这个数字还在不断增长。 我们最近举办了我们的 首次线下聚会,并在 GitHub 上通过了 5000 个 star,撰写了一篇被 SIGMOD 2024 接受的论文,并开始开发 Comet,这是一个 Apache Spark 加速器,最初由 Apple 捐赠。
感谢 Arrow 社区中的每个人多年来帮助 DataFusion 成长和成熟,我们期待作为项目继续我们的合作。 所有未来的博客和公告都将发布在 Apache DataFusion 网站上。
参与其中
如果您有兴趣加入社区,我们很乐意邀请您加入我们。 使用 沟通文档取得联系,并了解如何参与 贡献者指南。 我们欢迎每个人在他们自己的数据和项目上尝试 DataFusion,并让我们知道进展如何,贡献建议、文档、错误报告或包含文档、测试或代码的 PR。