读取/写入 Arrow 数据的序列化流 — read_nanoarrow • nanoarrow

从序列化的 Arrow 数据中读取/写入连接、文件路径、URL 或原始向量。Arrow 文档通常将此格式称为“Arrow IPC”，因为它的起源是作为在进程（例如，多个 R 会话）之间传输表格的一种方式。此格式也可以写入文件或 URL 并从中读取，它本质上是 CSV 文件的高性能等效项，并且在维护类型方面做得更好。

用法

read_nanoarrow(x, ..., lazy = FALSE)

write_nanoarrow(data, x, ...)

参数

x: 一个 raw() 向量、连接或文件路径，从中读取二进制数据。指示压缩的常见扩展名（.gz、.bz2、.zip）会自动解压缩。
...: 当前未使用。
lazy: 默认情况下，read_nanoarrow() 将读取并丢弃读取器模式的副本，以确保尽快发现无效流。使用 lazy = TRUE 将此检查推迟到实际使用读取器时。
data: 一个要作为 Arrow IPC 流写入的对象，使用 as_nanoarrow_array_stream() 转换。值得注意的是，这包括一个 data.frame()。

返回值

一个 nanoarrow_array_stream

详情

nanoarrow 软件包实现了一个 IPC 写入器；但是，您也可以使用 arrow::write_ipc_stream() 从 R 写入数据，或使用 Python、C++、Rust、JavaScript、Julia、C# 等其他 Arrow 实现中的等效写入器。

Arrow 流的媒体类型是 application/vnd.apache.arrow.stream，建议的文件扩展名是 .arrows。

示例

as.data.frame(read_nanoarrow(example_ipc_stream()))
#>   some_col
#> 1        0
#> 2        1
#> 3        2