跳转到内容

读取数据集

将多文件数据集打开为 Arrow Dataset 对象。

open_dataset()
打开一个多文件数据集
open_delim_dataset() open_csv_dataset() open_tsv_dataset()
打开一个多文件的 CSV 或其他分隔符分隔格式的数据集
csv_read_options()
CSV 读取选项
csv_parse_options()
CSV 解析选项
csv_convert_options()
CSV 转换选项

写入数据集

将多文件数据集写入磁盘。

write_dataset()
写入数据集
write_delim_dataset() write_csv_dataset() write_tsv_dataset()
将数据集写入分区平面文件。
csv_write_options()
CSV 写入选项

读取文件

将各种格式的文件读取为 tibble 或 Arrow 表格。

read_delim_arrow() read_csv_arrow() read_csv2_arrow() read_tsv_arrow()
使用 Arrow 读取 CSV 或其他分隔文件
read_parquet()
读取 Parquet 文件
read_feather() read_ipc_file()
读取 Feather 文件(Arrow IPC 文件)
read_ipc_stream()
读取 Arrow IPC 流格式
read_json_arrow()
读取 JSON 文件

写入文件

写入各种格式的文件。

write_csv_arrow()
将 CSV 文件写入磁盘
write_parquet()
将 Parquet 文件写入磁盘
write_feather() write_ipc_file()
写入 Feather 文件(Arrow IPC 文件)
write_ipc_stream()
写入 Arrow IPC 流格式
write_to_raw()
将 Arrow 数据写入原始向量

创建 Arrow 数据容器

用于创建 Arrow 数据容器的类和函数。

scalar()
创建 Arrow 标量
arrow_array()
创建 Arrow 数组
chunked_array()
创建分块数组
record_batch()
创建记录批次
arrow_table()
创建 Arrow 表格
buffer()
创建缓冲区
vctrs_extension_array() vctrs_extension_type()
通用类型向量的扩展类型

使用 Arrow 数据容器

用于将 R 对象转换为 Arrow 数据容器并将 Arrow 数据容器组合的函数。

as_arrow_array()
将对象转换为 Arrow 数组
as_chunked_array()
将对象转换为 Arrow 分块数组
as_record_batch()
将对象转换为 Arrow 记录批次
as_arrow_table()
将对象转换为 Arrow 表格
concat_arrays() c(<Array>)
连接零个或多个数组
concat_tables()
连接一个或多个表格

Arrow 数据类型

字段和模式

field()
创建字段
schema()
创建模式或从对象中提取模式。
unify_schemas()
组合和协调模式
as_schema()
将对象转换为 Arrow 模式
infer_schema()
从对象中提取模式
read_schema()
从流中读取模式

计算

用于在 Arrow 数据对象上计算值的函数。

acero arrow-functions arrow-verbs arrow-dplyr
Arrow dplyr 查询中可用的函数
call_function()
调用 Arrow 计算函数
match_arrow() is_in()
Arrow 对象的值匹配
value_counts()
Arrow 对象的 `table`
list_compute_functions()
列出可用的 Arrow C++ 计算函数
register_scalar_function()
注册用户自定义函数
show_exec_plan()
显示 Arrow 执行计划的详细信息

DuckDB

与 DuckDB 之间传递数据

to_arrow()
从 DuckDB 连接创建 Arrow 对象
to_duckdb()
从 Arrow 对象创建(虚拟)DuckDB 表

文件系统

用于处理 S3 和 GCS 上文件的函数

s3_bucket()
连接到 AWS S3 存储桶
gs_bucket()
连接到 Google 云存储 (GCS) 存储桶
copy_files()
在文件系统之间复制文件

Flight

load_flight_server()
加载 Python Flight 服务器
flight_connect()
连接到 Flight 服务器
flight_disconnect()
显式关闭 Flight 客户端
flight_get()
从 Flight 服务器获取数据
flight_put()
将数据发送到 Flight 服务器
list_flights() flight_path_exists()
查看 Flight 服务器上的可用资源

Arrow 配置

arrow_info() arrow_available() arrow_with_acero() arrow_with_dataset() arrow_with_substrait() arrow_with_parquet() arrow_with_s3() arrow_with_gcs() arrow_with_json()
报告有关包功能的信息
cpu_count() set_cpu_count()
管理 libarrow 中的全局 CPU 线程池
io_thread_count() set_io_thread_count()
管理 libarrow 中的全局 I/O 线程池
install_arrow()
安装或升级 Arrow 库
install_pyarrow()
安装 pyarrow 以与 reticulate 配合使用
create_package_with_all_dependencies()
创建一个包含所有第三方依赖项的源代码包

输入/输出

InputStream RandomAccessFile MemoryMappedFile ReadableFile BufferReader
InputStream 类
read_message()
从流中读取消息
mmap_open()
打开内存映射文件
mmap_create()
创建指定大小的新读/写内存映射文件
OutputStream FileOutputStream BufferOutputStream
OutputStream 类
Message
Message 类
MessageReader
MessageReader 类
compression CompressedOutputStream CompressedInputStream
压缩流类
Codec
压缩编解码器类
codec_is_available()
检查压缩编解码器是否可用

文件读/写器接口

ParquetFileReader
ParquetFileReader 类
ParquetReaderProperties
ParquetReaderProperties 类
ParquetArrowReaderProperties
ParquetArrowReaderProperties 类
ParquetFileWriter
ParquetFileWriter 类
ParquetWriterProperties
ParquetWriterProperties 类
FeatherReader
FeatherReader 类
CsvTableReader JsonTableReader
Arrow CSV 和 JSON 表格读取器类
CsvReadOptions CsvWriteOptions CsvParseOptions TimestampParser CsvConvertOptions JsonReadOptions JsonParseOptions
文件读取器选项
RecordBatchReader RecordBatchStreamReader RecordBatchFileReader
RecordBatchReader 类
RecordBatchWriter RecordBatchStreamWriter RecordBatchFileWriter
RecordBatchWriter 类
as_record_batch_reader()
将对象转换为 Arrow RecordBatchReader

底层 C++ 包装器

Arrow C++ 对象的底层 R6 类表示,供高级用户使用。

数据集和文件系统 R6 类和辅助函数

在 Arrow 中处理多文件数据集时有用的 R6 类和辅助函数。