跳过内容

处理存储在云存储系统中的数据,如Amazon Simple Storage Service (S3) 和Google Cloud Storage (GCS),是一项非常常见的任务。正因如此,Arrow C++ 库提供了一个工具包,旨在使处理云存储像处理本地文件系统一样简单。

为了实现这一点,Arrow C++ 库包含一个通用的文件系统接口,而 Arrow 包将此接口暴露给 R 用户。例如,如果您愿意,可以创建一个LocalFileSystem对象,它允许您以常规方式与本地文件系统交互:复制、移动和删除文件,获取文件和文件夹的信息等等(有关详细信息,请参阅help("FileSystem", package = "arrow"))。通常,您可能不需要此功能,因为您已经有用于处理本地文件系统的工具,但此接口在远程文件系统上下文中变得更加有用。目前,S3FileSystem类提供了 Amazon S3 的特定实现,GcsFileSystem类提供了 Google Cloud Storage 的特定实现。

本文概述了如何使用 Arrow 工具包处理 S3 和 GCS 数据。

Linux 上的 S3 和 GCS 支持

在开始之前,请确保您的 Arrow 安装已启用对 S3 和/或 GCS 的支持。对于大多数用户来说,这将是默认启用的,因为 CRAN 上托管的 Windows 和 macOS 二进制包包含 S3 和 GCS 支持。您可以通过辅助函数检查是否启用了支持

如果它们返回TRUE,则表示相关支持已启用。

在某些情况下,您可能会发现您的系统未启用支持。最常见的情况是,在 Linux 上从源代码安装 Arrow 时,S3 和 GCS 支持并非总是默认启用,并且涉及额外的系统要求。有关如何解决此问题的详细信息,请参阅安装文章

连接到云存储

一种处理文件系统的方法是创建?FileSystem对象。?S3FileSystem对象可以使用s3_bucket()函数创建,该函数会自动检测存储桶的 AWS 区域。类似地,?GcsFileSystem对象可以使用gs_bucket()函数创建。生成的FileSystem将考虑相对于存储桶路径的路径(因此,例如,在列出目录时无需添加存储桶路径前缀)。

使用FileSystem对象,您可以使用$path()方法指向其中的特定文件,并将结果传递给文件读取器和写入器(read_parquet()write_feather()等)。

在实际分析中,用户使用云存储的原因通常是为了访问大型数据集。有关此内容的示例在数据集文章中讨论,但新用户在学习 Arrow 云存储接口的工作方式时可能更喜欢使用小得多的数据集。为此,本文中的示例依赖于一个多文件 Parquet 数据集,该数据集存储了通过ggplot2包提供的diamonds数据的副本,在help("diamonds", package = "ggplot2")中有详细说明。此数据集的云存储版本包含 5 个 Parquet 文件,总大小小于 1MB。

diamonds 数据集托管在 S3 和 GCS 上,存储在一个名为voltrondata-labs-datasets的存储桶中。要创建引用该存储桶的 S3FileSystem 对象,请使用以下命令

bucket <- s3_bucket("voltrondata-labs-datasets")

对于数据的 GCS 版本,命令如下

bucket <- gs_bucket("voltrondata-labs-datasets", anonymous = TRUE)

请注意,如果未配置凭据,GCS 需要anonymous = TRUE

在此存储桶中有一个名为diamonds的文件夹。我们可以调用bucket$ls("diamonds")来列出此文件夹中存储的文件,或调用bucket$ls("diamonds", recursive = TRUE)来递归搜索子文件夹。请注意,在 GCS 上,您应该始终设置recursive = TRUE,因为目录通常不会出现在结果中。

以下是我们在列出 GCS 存储桶中存储的文件时得到的结果

bucket$ls("diamonds", recursive = TRUE)
## [1] "diamonds/cut=Fair/part-0.parquet"     
## [2] "diamonds/cut=Good/part-0.parquet"     
## [3] "diamonds/cut=Ideal/part-0.parquet"    
## [4] "diamonds/cut=Premium/part-0.parquet"  
## [5] "diamonds/cut=Very Good/part-0.parquet"

这里有 5 个 Parquet 文件,对应于diamonds数据集中的每个“切工”类别。我们可以通过调用bucket$path()来指定特定文件的路径

parquet_good <- bucket$path("diamonds/cut=Good/part-0.parquet")

我们可以使用read_parquet()直接从该路径读取到 R 中

diamonds_good <- read_parquet(parquet_good)
diamonds_good
## # A tibble: 4,906 × 9
##    carat color clarity depth table price     x     y     z
##    <dbl> <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
##  1  0.23 E     VS1      56.9    65   327  4.05  4.07  2.31
##  2  0.31 J     SI2      63.3    58   335  4.34  4.35  2.75
##  3  0.3  J     SI1      64      55   339  4.25  4.28  2.73
##  4  0.3  J     SI1      63.4    54   351  4.23  4.29  2.7 
##  5  0.3  J     SI1      63.8    56   351  4.23  4.26  2.71
##  6  0.3  I     SI2      63.3    56   351  4.26  4.3   2.71
##  7  0.23 F     VS1      58.2    59   402  4.06  4.08  2.37
##  8  0.23 E     VS1      64.1    59   402  3.83  3.85  2.46
##  9  0.31 H     SI1      64      54   402  4.29  4.31  2.75
## 10  0.26 D     VS2      65.2    56   403  3.99  4.02  2.61
## # … with 4,896 more rows
## # ℹ Use `print(n = ...)` to see more rows

请注意,这将比文件是本地文件时读取速度慢。

直接使用 URI 连接

在大多数用例中,在 Arrow 中连接到云存储最简单、最自然的方式是使用s3_bucket()gs_bucket()返回的 FileSystem 对象,尤其是在需要多个文件操作时。但是,在某些情况下,您可能希望通过指定 URI 直接下载文件。Arrow 允许这样做,并且像read_parquet()write_feather()open_dataset()等函数都将接受托管在 S3 或 GCS 上的云资源的 URI。S3 URI 的格式如下

s3://[access_key:secret_key@]bucket/path[?region=]

对于 GCS,URI 格式如下所示

gs://[access_key:secret_key@]bucket/path
gs://anonymous@bucket/path

例如,我们在本文前面下载的存储“良好切工”钻石的 Parquet 文件在 S3 和 CGS 上都可用。相关的 URI 如下

uri <- "s3://voltrondata-labs-datasets/diamonds/cut=Good/part-0.parquet"
uri <- "gs://anonymous@voltrondata-labs-datasets/diamonds/cut=Good/part-0.parquet"

请注意,对于公共存储桶,GCS 需要“anonymous”。无论您使用哪个版本,您都可以将此 URI 传递给read_parquet(),就像文件存储在本地一样

df <- read_parquet(uri)

URI 在查询参数(?之后的部分)中接受额外的选项,这些选项传递给底层文件系统进行配置。它们由&分隔。例如,

s3://voltrondata-labs-datasets/?endpoint_override=https%3A%2F%2Fstorage.googleapis.com&allow_bucket_creation=true

等价于

bucket <- S3FileSystem$create(
  endpoint_override="https://storage.googleapis.com",
  allow_bucket_creation=TRUE
)
bucket$path("voltrondata-labs-datasets/")

两者都告诉S3FileSystem对象它应该允许创建新存储桶并与 Google Storage 而不是 S3 通信。后者之所以有效,是因为 GCS 实现了 S3 兼容的 API——参见下面的模拟 S3 的文件系统——但如果您希望更好地支持 GCS,您应该引用GcsFileSystem,但使用以gs://开头的 URI。

另请注意,URI 中的参数需要百分比编码,这就是为什么://被写为%3A%2F%2F

对于 S3,只有以下选项可以作为查询参数包含在 URI 中:regionschemeendpoint_overrideaccess_keysecret_keyallow_bucket_creationallow_bucket_deletioncheck_directory_existence_before_creation。对于 GCS,支持的参数是schemeendpoint_overrideretry_limit_seconds

在 GCS 中,一个有用的选项是retry_limit_seconds,它设置请求在返回错误之前可以重试的秒数。当前的默认值是 15 分钟,因此在许多交互式上下文中,设置一个较低的值是很好的

gs://anonymous@voltrondata-labs-datasets/diamonds/?retry_limit_seconds=10

认证

S3 认证

要访问私有 S3 存储桶,您通常需要两个秘密参数:一个access_key,它类似于用户 ID,以及一个secret_key,它类似于令牌或密码。有几种传递这些凭据的选项

  • 将它们包含在 URI 中,例如s3://access_key:secret_key@bucket-name/path/to/file。如果您的密钥包含特殊字符,如“/”,请务必进行URL 编码(例如,URLencode("123/456", reserved = TRUE))。

  • 将它们作为access_keysecret_key传递给S3FileSystem$create()s3_bucket()

  • 将它们分别设置为名为AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEY的环境变量。

  • 根据AWS 文档,在~/.aws/credentials文件中定义它们。

  • 通过将role_arn标识符传递给S3FileSystem$create()s3_bucket(),使用AccessRole进行临时访问。

GCS 认证

使用 GCS 进行身份验证最简单的方法是运行gcloud命令来设置应用程序默认凭据

gcloud auth application-default login

要手动配置凭据,您可以传递access_tokenexpiration,用于使用在其他地方生成的临时令牌,或传递json_credentials,以引用下载的凭据文件。

如果您尚未配置凭据,则要访问公共存储桶,您必须将anonymous = TRUEanonymous作为 URI 中的用户传递

bucket <- gs_bucket("voltrondata-labs-datasets", anonymous = TRUE)
fs <- GcsFileSystem$create(anonymous = TRUE)
df <- read_parquet("gs://anonymous@voltrondata-labs-datasets/diamonds/cut=Good/part-0.parquet")

使用代理服务器

如果您需要使用代理服务器连接到 S3 存储桶,您可以向proxy_options提供格式为http://user:password@host:port的 URI。例如,可以在端口 1316 上运行的本地代理服务器可以使用如下方式

bucket <- s3_bucket(
  bucket = "voltrondata-labs-datasets", 
  proxy_options = "https://:1316"
)

模拟 S3 的文件系统

S3FileSystem机制使您能够使用任何提供 S3 兼容接口的文件系统。例如,MinIO是一个模拟 S3 API 的对象存储服务器。如果您在本地运行minio server并使用其默认设置,您可以使用S3FileSystem通过 Arrow 连接到它,如下所示

minio <- S3FileSystem$create(
  access_key = "minioadmin",
  secret_key = "minioadmin",
  scheme = "http",
  endpoint_override = "localhost:9000"
)

或者,作为 URI,它将是

s3://minioadmin:minioadmin@?scheme=http&endpoint_override=localhost%3A9000

(注意endpoint_override:的 URL 转义)。

除其他应用程序外,这对于在远程 S3 存储桶上运行代码之前在本地测试代码可能很有用。

禁用环境变量

如上所述,可以使用环境变量来配置访问。但是,如果您希望通过 URI 或其他方法传递连接详细信息,但同时又定义了现有的 AWS 环境变量,这些变量可能会干扰您的会话。例如,您可能会看到如下错误消息

Error: IOError: When resolving region for bucket 'analysis': AWS Error [code 99]: curlCode: 6, Couldn't resolve host name 

您可以使用Sys.unsetenv()取消设置这些环境变量,例如

Sys.unsetenv("AWS_DEFAULT_REGION")
Sys.unsetenv("AWS_S3_ENDPOINT")

默认情况下,AWS SDK 尝试检索有关用户配置的元数据,这在通过 URI 传递连接详细信息时(例如在访问 MINIO 存储桶时)可能导致冲突。要禁用使用 AWS 环境变量,您可以将环境变量AWS_EC2_METADATA_DISABLED设置为TRUE

Sys.setenv(AWS_EC2_METADATA_DISABLED = TRUE)

进一步阅读