宣布 Apache Arrow DataFusion Comet
已发布 2024 年 3 月 6 日
作者 Apache Arrow PMC (pmc)
简介
Apache Arrow PMC 很高兴宣布捐赠 Comet 项目,这是一个基于 Apache Arrow DataFusion 构建的原生 Spark SQL 加速器。
Comet 是一个 Apache Spark 插件,它使用 Apache Arrow DataFusion 来加速 Spark 工作负载。它被设计为 Spark 基于 JVM 的 SQL 执行引擎的直接替代品,并为某些工作负载提供了显著的性能改进,如下所示。

Comet 是越来越多的旨在使用原生列式引擎加速 Spark 的项目之一,例如专有的 Databricks Photon 引擎 和开源项目 Gluten、Spark RAPIDS 和 Blaze(也使用 DataFusion 构建)。
Comet 最初是在 Apple 实现的,从事该项目的工程师也是 Arrow 和 DataFusion 的重要贡献者。将 Comet 引入 Apache 软件基金会将加速其发展并壮大其贡献者和用户社区。
参与进来
Comet 仍处于早期开发阶段,我们希望您加入我们并帮助塑造该项目。我们正在努力进行初始版本,并希望届时发布另一个包含更多详细信息的更新。
在此之前,您可以通过以下几种方式参与进来