跳至内容

arrow 包包含 37 个 dplyr 表函数的方法,其中许多是“动词”,用于对一个或多个表进行转换。该包还将 212 个 R 函数映射到 Arrow 计算库中的对应函数。这些允许您在 dplyr 方法内部编写调用 R 函数的代码,包括 stringrlubridate 等包中的许多函数,并且它们将被转换为 Arrow 并运行在 Arrow 查询引擎 (Acero) 上。本文档列出了所有映射的函数。

dplyr 动词

大多数动词函数返回一个 arrow_dplyr_query 对象,与 dbplyr::tbl_lazy 类似。这意味着动词不会急切地对数据上的查询进行求值。要运行查询,请调用 compute()(返回一个 arrow Table),或 collect()(将结果表拉入 R tibble 中)。

函数映射

在下面的列表中,列出了 Acero 和 R 函数之间的任何行为或支持差异。如果函数名称后面没有注释,则可以假设该函数在 Acero 中的工作方式与在 R 中相同。

函数可以调用为 pkg::fun()fun(),例如 str_sub()stringr::str_sub() 都有效。

除了这些函数之外,您还可以直接调用 Arrow 的 262 个计算函数中的任何一个。Arrow 有许多函数没有映射到现有的 R 函数。在有 R 函数映射的其他情况下,如果您不希望 R 映射具有的使 Acero 行为像 R 一样的改编,您仍然可以直接调用 Arrow 函数。这些函数列在 C++ 文档 中,并在 R 的函数注册表中,它们以 arrow_ 为前缀命名,例如 arrow_ascii_is_decimal

base

lubridate

methods

stats

stringi

stringr

在任何函数中都不支持模式修饰符 coll()boundary()

tibble