跳过内容

使用包

读取和写入数据文件

学习如何使用 arrow 读取和写入 CSV、Parquet 和 Feather 文件

使用 dplyr 语法进行数据分析

学习如何使用 arrow 提供的 dplyr 后端

使用多文件数据集

学习如何使用数据集 (Datasets) 来读取、写入和分析多文件、大于内存的数据

整合 Arrow、Python 和 R

学习如何使用 arrow 和 reticulate 在 R 和 Python 之间高效传输数据,而无需进行不必要的复制

使用云存储(S3, GCS)

学习如何处理存储在 Amazon S3 存储桶或 Google Cloud Storage 中的数据集

连接到 Flight 服务器

学习如何使用 Arrow Flight 在网络上高效地传输 Apache Arrow 数据对象

Arrow 概念

数据对象

了解 arrow 中的 Scalar、Array、Table 和 Dataset 对象(以及其他对象),它们之间如何相互关联,以及它们与 R 中熟悉的对象(如数据框和向量)的关系

数据类型

了解 Apache Arrow 中的基本数据类型以及这些类型如何映射到 R 中相应的数据类型

元数据

了解 Arrow 如何使用 Schema 来记录数据对象的结构,以及 R 元数据如何在 Arrow 中得到支持

安装

在 Linux 上安装

在 Linux 上安装 arrow 通常都很顺利,但偶尔也会出现问题。学习如何在出现安装问题时进行处理

安装开发版本

学习如何安装 arrow 的每夜构建版本

开发者指南

开发者入门

学习如何为 arrow 包做贡献

配置开发环境

学习如何配置您的环境以允许您为 arrow 包做贡献

开发者工作流程

了解 arrow 开发者遵循的工作流程和约定

调试策略

帮助 arrow 开发者进行调试的工具和策略

使用 Docker 容器

为希望使用 Docker 的 arrow 开发者提供的指南

安装详情

为开发者提供的 arrow 安装的低级描述

Arrow 对象的内部结构

了解 Arrow 数据对象的内部结构。