宣布推出 Apache Arrow DataFusion Comet


已发布 2024年3月6日
作者 Apache Arrow PMC (pmc)

简介

Apache Arrow PMC 很高兴地宣布捐赠 Comet 项目,这是一个基于 Apache Arrow DataFusion 构建的原生 Spark SQL 加速器。

Comet 是一个 Apache Spark 插件,它使用 Apache Arrow DataFusion 来加速 Spark 工作负载。它被设计为 Spark 基于 JVM 的 SQL 执行引擎的直接替代品,并为某些工作负载提供了显著的性能改进,如下所示。

Fig 1: Adaptive Arrow schema architecture overview.
图1:通过 Comet,用户可以与相同的 Spark 生态系统、工具和 API(例如 Spark SQL)进行交互。查询仍通过 Spark 的查询优化器和规划器运行。然而,执行被委托给 Comet,它比基于 JVM 的实现显著更快且更具资源效率。

Comet 是日益增长的旨在通过原生列式引擎加速 Spark 的项目之一,其中包括专有的 Databricks Photon Engine 和开源项目 GlutenSpark RAPIDSBlaze(也使用 DataFusion 构建)。

Comet 最初在 Apple 实现,参与该项目的工程师也是 Arrow 和 DataFusion 的重要贡献者。将 Comet 引入 Apache 软件基金会,将加速其开发并扩大其贡献者和用户社区。

参与进来

Comet 仍处于开发的早期阶段,我们很乐意邀请您加入我们并帮助塑造该项目。我们正在准备首次发布,并预计届时将发布包含更多详细信息的更新。

在此之前,这里有一些参与的方式:

  • 通过访问 Comet 项目页面并阅读有关初始捐赠的邮件列表讨论来了解更多信息。

  • 帮助我们规划路线图

  • 尝试该项目并提供反馈、提交问题和贡献代码。