'Parquet' 是一种列式存储文件格式。此函数使您能够将 Parquet 文件读取到 R 中。
用法
read_parquet(
file,
col_select = NULL,
as_data_frame = TRUE,
props = ParquetArrowReaderProperties$create(),
mmap = TRUE,
...
)参数
- file
字符文件名或 URI、连接、
raw向量、Arrow 输入流,或带有路径的FileSystem(SubTreeFileSystem)。如果是文件名或 URI,将打开一个 Arrow InputStream 并在完成后关闭。如果提供了输入流,它将保持打开状态。- col_select
要保留的列名的字符向量,类似于
data.table::fread()中的 "select" 参数,或 tidy selection 规范的列,如dplyr::select()中使用。- as_data_frame
函数应该返回一个
tibble(默认)还是一个 Arrow Table?- props
- mmap
如果可能,使用 TRUE 来使用内存映射
- ...
传递给
ParquetFileReader$create()的附加参数
返回值
如果 as_data_frame 为 TRUE(默认值),则为 tibble,否则为 Arrow Table。
示例
tf <- tempfile()
on.exit(unlink(tf))
write_parquet(mtcars, tf)
df <- read_parquet(tf, col_select = starts_with("d"))
head(df)
#> # A tibble: 6 x 2
#> disp drat
#> <dbl> <dbl>
#> 1 160 3.9
#> 2 160 3.9
#> 3 108 3.85
#> 4 258 3.08
#> 5 360 3.15
#> 6 225 2.76