跳转至内容

'Parquet' 是一种列式存储文件格式。此函数使您能够将 Parquet 文件读入 R。

用法

read_parquet(
  file,
  col_select = NULL,
  as_data_frame = TRUE,
  props = ParquetArrowReaderProperties$create(),
  mmap = TRUE,
  ...
)

参数

file

一个字符文件名或 URI,连接,raw 向量,一个 Arrow 输入流,或一个带有路径的 FileSystem (SubTreeFileSystem)。如果是文件名或 URI,则会在完成后打开和关闭 Arrow InputStream。如果提供了输入流,它将保持打开状态。

col_select

要保留的列名的字符向量,如 data.table::fread() 的 "select" 参数,或 tidy 选择规范,如 dplyr::select() 中所使用。

as_data_frame

该函数应该返回 tibble(默认)还是 Arrow Table

props

ParquetArrowReaderProperties

mmap

使用 TRUE 来尽可能使用内存映射

...

传递给 ParquetFileReader$create() 的其他参数

返回值

如果 as_data_frameTRUE(默认值),则返回 tibble,否则返回 Arrow Table

示例

tf <- tempfile()
on.exit(unlink(tf))
write_parquet(mtcars, tf)
df <- read_parquet(tf, col_select = starts_with("d"))
head(df)
#> # A tibble: 6 x 2
#>    disp  drat
#>   <dbl> <dbl>
#> 1   160  3.9 
#> 2   160  3.9 
#> 3   108  3.85
#> 4   258  3.08
#> 5   360  3.15
#> 6   225  2.76