跳转到内容

使用该包

读取和写入数据文件

了解如何使用 arrow 读取和写入 CSV、Parquet 和 Feather 文件

使用 dplyr 语法进行数据分析

了解如何使用 arrow 提供的 dplyr 后端

处理多文件数据集

了解如何使用数据集来读取、写入和分析大于内存的多文件数据

集成 Arrow、Python 和 R

了解如何使用 arrow 和 reticulate 在 R 和 Python 之间高效地传输数据,而无需进行不必要的复制

使用云存储 (S3, GCS)

了解如何处理存储在 Amazon S3 存储桶或 Google Cloud Storage 上的数据集

连接到 Flight 服务器

了解如何使用 Arrow Flight 通过网络高效地流式传输 Apache Arrow 数据对象

Arrow 概念

数据对象

了解 arrow 中的 Scalar、Array、Table 和 Dataset 对象(以及其他对象),它们之间如何相互关联,以及它们与常见 R 对象(如数据框和向量)的关系

数据类型

了解 Apache Arrow 中的基本数据类型以及这些类型如何映射到 R 中的相应数据类型

元数据

了解 Arrow 如何使用模式来记录数据对象的结构,以及 Arrow 如何支持 R 元数据

安装

在 Linux 上安装

在 Linux 上安装 arrow 通常可以直接完成,但偶尔也会出现问题。了解如何在出现安装问题时处理它们

安装开发版本

了解如何安装 arrow 的每日构建版本

开发者指南

开发者介绍

了解如何为 arrow 包做出贡献

配置开发者环境

了解如何配置您的环境以便您为 arrow 包做出贡献

开发者工作流程

了解 arrow 开发者遵循的工作流程和约定

调试策略

帮助 arrow 开发者进行调试的工具和策略

使用 docker 容器

arrow 开发者使用 docker 的指南

安装详情

面向开发者的 arrow 安装的底层描述

Arrow 对象的内部结构

了解 Arrow 数据对象的内部结构。