'Parquet' 是一种列式存储文件格式。此函数使您可以将 Parquet 文件读入 R。
用法
read_parquet(
file,
col_select = NULL,
as_data_frame = TRUE,
props = ParquetArrowReaderProperties$create(),
mmap = TRUE,
...
)
参数
- file
一个字符文件名或 URI、连接、
raw
向量、一个 Arrow 输入流或带有路径的FileSystem
(SubTreeFileSystem
)。 如果是文件名或 URI,则将在完成后打开并关闭 Arrow InputStream。 如果提供输入流,它将保持打开状态。- col_select
要保留的列名的字符向量,如
data.table::fread()
的 "select" 参数,或 tidy selection specification 的列,如dplyr::select()
中使用。- as_data_frame
函数应返回一个
tibble
(默认) 还是一个 Arrow Table?- props
- mmap
如果可能,使用 TRUE 来使用内存映射
- ...
传递给
ParquetFileReader$create()
的附加参数
返回值
如果 as_data_frame
为 TRUE
(默认),则为 tibble
,否则为 Arrow Table。
示例
tf <- tempfile()
on.exit(unlink(tf))
write_parquet(mtcars, tf)
df <- read_parquet(tf, col_select = starts_with("d"))
head(df)
#> # A tibble: 6 x 2
#> disp drat
#> <dbl> <dbl>
#> 1 160 3.9
#> 2 160 3.9
#> 3 108 3.85
#> 4 258 3.08
#> 5 360 3.15
#> 6 225 2.76