'Parquet' 是一种列式存储文件格式。此函数使您能够将 Parquet 文件读入 R。
用法
read_parquet(
file,
col_select = NULL,
as_data_frame = TRUE,
props = ParquetArrowReaderProperties$create(),
mmap = TRUE,
...
)
参数
- file
一个字符文件名或 URI,连接,
raw
向量,一个 Arrow 输入流,或一个带有路径的FileSystem
(SubTreeFileSystem
)。如果是文件名或 URI,则会在完成后打开和关闭 Arrow InputStream。如果提供了输入流,它将保持打开状态。- col_select
要保留的列名的字符向量,如
data.table::fread()
的 "select" 参数,或 tidy 选择规范,如dplyr::select()
中所使用。- as_data_frame
该函数应该返回
tibble
(默认)还是 Arrow Table?- props
- mmap
使用 TRUE 来尽可能使用内存映射
- ...
传递给
ParquetFileReader$create()
的其他参数
返回值
如果 as_data_frame
为 TRUE
(默认值),则返回 tibble
,否则返回 Arrow Table。
示例
tf <- tempfile()
on.exit(unlink(tf))
write_parquet(mtcars, tf)
df <- read_parquet(tf, col_select = starts_with("d"))
head(df)
#> # A tibble: 6 x 2
#> disp drat
#> <dbl> <dbl>
#> 1 160 3.9
#> 2 160 3.9
#> 3 108 3.85
#> 4 258 3.08
#> 5 360 3.15
#> 6 225 2.76