跳至内容

读取数据集

将多文件数据集打开为 Arrow Dataset 对象。

open_dataset()
打开多文件数据集
open_delim_dataset() open_csv_dataset() open_tsv_dataset()
打开 CSV 或其他分隔符格式的多文件数据集
csv_read_options()
CSV 读取选项
csv_parse_options()
CSV 解析选项
csv_convert_options()
CSV 转换选项

写入数据集

将多文件数据集写入磁盘。

write_dataset()
写入数据集
write_delim_dataset() write_csv_dataset() write_tsv_dataset()
将数据集写入分区的平面文件中。
csv_write_options()
CSV 写入选项

读取文件

以 tibbles 或 Arrow 表的形式读取各种格式的文件。

read_delim_arrow() read_csv_arrow() read_csv2_arrow() read_tsv_arrow()
使用 Arrow 读取 CSV 或其他分隔符文件
read_parquet()
读取 Parquet 文件
read_feather() read_ipc_file()
读取 Feather 文件(Arrow IPC 文件)
read_ipc_stream()
读取 Arrow IPC 流格式
read_json_arrow()
读取 JSON 文件

写入文件

以各种格式写入文件。

write_csv_arrow()
将 CSV 文件写入磁盘
write_parquet()
将 Parquet 文件写入磁盘
write_feather() write_ipc_file()
写入 Feather 文件(Arrow IPC 文件)
write_ipc_stream()
写入 Arrow IPC 流格式
write_to_raw()
将 Arrow 数据写入原始向量

创建 Arrow 数据容器

用于创建 Arrow 数据容器的类和函数。

scalar()
创建 Arrow 标量
arrow_array()
创建 Arrow 数组
chunked_array()
创建分块数组
record_batch()
创建记录批次
arrow_table()
创建 Arrow 表
buffer()
创建缓冲区
vctrs_extension_array() vctrs_extension_type()
用于泛型类型向量的扩展类型

使用 Arrow 数据容器

用于将 R 对象转换为 Arrow 数据容器并组合 Arrow 数据容器的函数。

as_arrow_array()
将对象转换为 Arrow 数组
as_chunked_array()
将对象转换为 Arrow 分块数组
as_record_batch()
将对象转换为 Arrow 记录批次
as_arrow_table()
将对象转换为 Arrow 表
concat_arrays() c(<Array>)
连接零个或多个数组
concat_tables()
连接一个或多个表

Arrow 数据类型

字段和模式

field()
创建字段
schema()
创建模式或从对象中提取模式。
unify_schemas()
合并和协调模式
as_schema()
将对象转换为 Arrow 模式
infer_schema()
从对象中提取模式
read_schema()
从流中读取模式

计算

用于对 Arrow 数据对象进行值计算的功能。

acero arrow-functions arrow-verbs arrow-dplyr
Arrow dplyr 查询中可用的函数
call_function()
调用 Arrow 计算函数
match_arrow() is_in()
Arrow 对象的值匹配
value_counts()
Arrow 对象的 table
list_compute_functions()
列出可用的 Arrow C++ 计算函数
register_scalar_function()
注册用户定义函数
show_exec_plan()
显示 Arrow 执行计划的详细信息

DuckDB

将数据传递到 DuckDB 和从 DuckDB 中获取数据

to_arrow()
从 DuckDB 连接创建 Arrow 对象
to_duckdb()
从 Arrow 对象创建 (虚拟) DuckDB 表

文件系统

用于处理 S3 和 GCS 上文件的函数

s3_bucket()
连接到 AWS S3 存储桶
gs_bucket()
连接到 Google Cloud Storage (GCS) 存储桶
copy_files()
在文件系统之间复制文件

Flight

load_flight_server()
加载 Python Flight 服务器
flight_connect()
连接到 Flight 服务器
flight_disconnect()
显式关闭 Flight 客户端
flight_get()
从 Flight 服务器获取数据
flight_put()
将数据发送到 Flight 服务器
list_flights() flight_path_exists()
查看 Flight 服务器上可用的资源

Arrow 配置

arrow_info() arrow_available() arrow_with_acero() arrow_with_dataset() arrow_with_substrait() arrow_with_parquet() arrow_with_s3() arrow_with_gcs() arrow_with_json()
报告有关该包功能的信息
cpu_count() set_cpu_count()
管理 libarrow 中的全局 CPU 线程池
io_thread_count() set_io_thread_count()
管理 libarrow 中的全局 I/O 线程池
install_arrow()
安装或升级 Arrow 库
install_pyarrow()
安装 pyarrow 以与 reticulate 一起使用
create_package_with_all_dependencies()
创建一个包含所有第三方依赖项的源代码包

输入/输出

InputStream RandomAccessFile MemoryMappedFile ReadableFile BufferReader
InputStream 类
read_message()
从流中读取消息
mmap_open()
打开内存映射文件
mmap_create()
创建一个给定大小的新读写内存映射文件
OutputStream FileOutputStream BufferOutputStream
OutputStream 类
Message
Message 类
MessageReader
MessageReader 类
compression CompressedOutputStream CompressedInputStream
压缩流类
Codec
压缩 Codec 类
codec_is_available()
检查压缩编解码器是否可用

文件读/写接口

ParquetFileReader
ParquetFileReader 类
ParquetReaderProperties
ParquetReaderProperties 类
ParquetArrowReaderProperties
ParquetArrowReaderProperties 类
ParquetFileWriter
ParquetFileWriter 类
ParquetWriterProperties
ParquetWriterProperties 类
FeatherReader
FeatherReader 类
CsvTableReader JsonTableReader
Arrow CSV 和 JSON 表读取器类
CsvReadOptions CsvWriteOptions CsvParseOptions TimestampParser CsvConvertOptions JsonReadOptions JsonParseOptions
文件读取器选项
RecordBatchReader RecordBatchStreamReader RecordBatchFileReader
RecordBatchReader 类
RecordBatchWriter RecordBatchStreamWriter RecordBatchFileWriter
RecordBatchWriter 类
as_record_batch_reader()
将对象转换为 Arrow RecordBatchReader

低级 C++ 包装器

旨在供高级用户使用的 Arrow C++ 对象的低级 R6 类表示。

Buffer
Buffer 类
Scalar
Arrow 标量
Array DictionaryArray StructArray ListArray LargeListArray FixedSizeListArray MapArray
数组类
ChunkedArray
ChunkedArray 类
RecordBatch
RecordBatch 类
Schema
Schema 类
Field
Field 类
Table
Table 类
DataType
DataType 类
ArrayData
ArrayData 类
DictionaryType
class DictionaryType
FixedWidthType
FixedWidthType 类
ExtensionType
ExtensionType 类
ExtensionArray
ExtensionArray 类

Dataset 和文件系统 R6 类以及辅助函数

在使用 Arrow 中的多文件数据集时有用的 R6 类和辅助函数。

Dataset FileSystemDataset UnionDataset InMemoryDataset DatasetFactory FileSystemDatasetFactory
多文件数据集
dataset_factory()
创建 DatasetFactory
Partitioning DirectoryPartitioning HivePartitioning DirectoryPartitioningFactory HivePartitioningFactory
定义数据集的分区
Expression
Arrow 表达式
Scanner ScannerBuilder
扫描数据集的内容
FileFormat ParquetFileFormat IpcFileFormat
数据集文件格式
CsvFileFormat
CSV 数据集文件格式
JsonFileFormat
JSON 数据集文件格式
FileWriteOptions
特定于格式的写入选项
FragmentScanOptions CsvFragmentScanOptions ParquetFragmentScanOptions JsonFragmentScanOptions
特定于格式的扫描选项
hive_partition()
构建 Hive 分区
map_batches()
将函数应用于 RecordBatch 流
FileSystem LocalFileSystem S3FileSystem GcsFileSystem SubTreeFileSystem
文件系统类
FileInfo
文件系统条目信息
FileSelector
文件选择器