跳至内容

arrow 包包含 37 个 dplyr 表函数的方法,其中许多是用于转换一个或多个表的“动词”。该包还包含 212 个 R 函数到 Arrow 计算库中相应函数的映射。 这允许您在调用 R 函数的 dplyr 方法中编写代码,包括 stringrlubridate 等包中的许多函数,它们将被翻译为 Arrow 并在 Arrow 查询引擎 (Acero) 上运行。 本文档列出了所有映射的函数。

dplyr 动词

大多数动词函数返回一个 arrow_dplyr_query 对象,其精神类似于 dbplyr::tbl_lazy。 这意味着动词不会急切地评估数据上的查询。 要运行查询,请调用 compute()(它返回一个 arrow Table)或 collect()(它将结果 Table 拉入 R tibble)。

函数映射

在下面的列表中,列出了 Acero 和 R 函数之间行为或支持的任何差异。 如果函数名后没有注释,那么您可以假设该函数在 Acero 中的工作方式与在 R 中相同。

函数可以作为 pkg::fun() 或仅作为 fun() 调用,即 str_sub()stringr::str_sub() 都可以使用。

除了这些函数,您还可以直接调用 Arrow 的 262 个计算函数中的任何一个。 Arrow 有许多没有映射到现有 R 函数的函数。 在其他有 R 函数映射的情况下,如果您不想要 R 映射所具有的使 Acero 行为类似于 R 的调整,您仍然可以直接调用 Arrow 函数。 这些函数在 C++ 文档中列出,并且在 R 的函数注册表中,它们以 arrow_ 前缀命名,例如 arrow_ascii_is_decimal

base

lubridate

方法

stats

stringi

stringr

任何函数都不支持模式修饰符 coll()boundary()

tibble