宣布 Apache Arrow DataFusion Comet
已发布 2024年03月06日
作者 The Apache Arrow PMC (pmc)
介绍
Apache Arrow PMC 很高兴地宣布捐赠 Comet 项目,这是一个构建在 Apache Arrow DataFusion 上的原生 Spark SQL 加速器。
Comet 是一个 Apache Spark 插件,它使用 Apache Arrow DataFusion 来加速 Spark 工作负载。它被设计为 Spark 基于 JVM 的 SQL 执行引擎的直接替代品,并为某些工作负载提供显着的性能改进,如下所示。

Comet 是一类不断增长的项目之一,旨在通过原生列式引擎加速 Spark,例如专有的 Databricks Photon Engine 和开源项目 Gluten、Spark RAPIDS 和 Blaze(也使用 DataFusion 构建)。
Comet 最初是在 Apple 实现的,从事该项目的工程师也是 Arrow 和 DataFusion 的重要贡献者。将 Comet 引入 Apache 软件基金会将加速其开发,并扩大其贡献者和用户社区。
参与进来
Comet 仍处于开发的早期阶段,我们希望您加入我们并帮助塑造该项目。 我们正在进行初始版本的发布,并希望届时发布另一条更新,其中包含更多详细信息。
在此之前,以下是一些参与方式