跳至内容

'Parquet' 是一种列式存储文件格式。此函数使您能够将 Parquet 文件读入 R。

用法

read_parquet(
  file,
  col_select = NULL,
  as_data_frame = TRUE,
  props = ParquetArrowReaderProperties$create(),
  mmap = TRUE,
  ...
)

参数

file

字符文件名或 URI、连接、raw 向量、Arrow 输入流或带有路径的 FileSystem (SubTreeFileSystem)。如果是文件名或 URI,则将在完成时打开和关闭 Arrow InputStream。如果提供输入流,它将保持打开状态。

col_select

要保留的列名的字符向量,与 data.table::fread() 中的 "select" 参数相同,或 整洁选择规范,用于 dplyr::select() 中的列。

as_data_frame

函数应该返回 tibble (默认) 还是 Arrow Table

props

ParquetArrowReaderProperties

mmap

使用 TRUE 在可能的情况下使用内存映射

...

传递给 ParquetFileReader$create() 的其他参数

如果 as_data_frameTRUE (默认),则为 tibble,否则为 Arrow Table

示例

tf <- tempfile()
on.exit(unlink(tf))
write_parquet(mtcars, tf)
df <- read_parquet(tf, col_select = starts_with("d"))
head(df)
#> # A tibble: 6 x 2
#>    disp  drat
#>   <dbl> <dbl>
#> 1   160  3.9 
#> 2   160  3.9 
#> 3   108  3.85
#> 4   258  3.08
#> 5   360  3.15
#> 6   225  2.76