宣布推出 Apache Arrow DataFusion Comet
已发布 2024年3月6日
作者 Apache Arrow PMC (pmc)
简介
Apache Arrow PMC 很高兴地宣布捐赠 Comet 项目,这是一个基于 Apache Arrow DataFusion 构建的原生 Spark SQL 加速器。
Comet 是一个 Apache Spark 插件,它使用 Apache Arrow DataFusion 来加速 Spark 工作负载。它被设计为 Spark 基于 JVM 的 SQL 执行引擎的直接替代品,并为某些工作负载提供了显著的性能改进,如下所示。
Comet 是日益增长的旨在通过原生列式引擎加速 Spark 的项目之一,其中包括专有的 Databricks Photon Engine 和开源项目 Gluten、Spark RAPIDS 和 Blaze(也使用 DataFusion 构建)。
Comet 最初在 Apple 实现,参与该项目的工程师也是 Arrow 和 DataFusion 的重要贡献者。将 Comet 引入 Apache 软件基金会,将加速其开发并扩大其贡献者和用户社区。
参与进来
Comet 仍处于开发的早期阶段,我们很乐意邀请您加入我们并帮助塑造该项目。我们正在准备首次发布,并预计届时将发布包含更多详细信息的更新。
在此之前,这里有一些参与的方式: