跳转至内容

arrow 包包含 37 个 dplyr 表函数的方法,其中许多是用于对一个或多个表进行转换的“动词”。该包还将 212 个 R 函数映射到 Arrow 计算库中的相应函数。这允许您在 dplyr 方法内部编写调用 R 函数的代码,包括 stringrlubridate 等包中的许多函数,它们将被转换为 Arrow 并在 Arrow 查询引擎 (Acero) 上运行。本文档列出了所有映射的函数。

dplyr 动词

大多数动词函数返回一个 arrow_dplyr_query 对象,其精神与 dbplyr::tbl_lazy 相似。这意味着这些动词不会立即对数据进行查询评估。要运行查询,请调用 compute(),它返回一个 arrow ,或调用 collect(),它将结果表拉入 R tibble

函数映射

在下面的列表中,列出了 Acero 和 R 函数之间行为或支持的任何差异。如果没有注释跟随函数名称,则可以假定该函数在 Acero 中的工作方式与在 R 中的工作方式相同。

可以将函数称为 pkg::fun()fun(),即 str_sub()stringr::str_sub() 都可以工作。

除了这些函数之外,您还可以直接调用 Arrow 的 262 个计算函数。Arrow 有许多函数没有映射到现有的 R 函数。在其他情况下,即使存在 R 函数映射,如果您不希望 R 映射进行使 Acero 表现得像 R 的调整,您仍然可以直接调用 Arrow 函数。这些函数列在 C++ 文档 中,并且在 R 的函数注册表中,它们的名称带有 arrow_ 前缀,例如 arrow_ascii_is_decimal

base

lubridate

方法

stats

stringi

stringr

任何函数均不支持模式修饰符 coll()boundary()

tibble