'Parquet' 是一种列式存储文件格式。此函数使您能够将 Parquet 文件读入 R。
用法
read_parquet(
file,
col_select = NULL,
as_data_frame = TRUE,
props = ParquetArrowReaderProperties$create(),
mmap = TRUE,
...
)
参数
- file
字符文件名或 URI、连接、
raw
向量、Arrow 输入流或带有路径的FileSystem
(SubTreeFileSystem
)。如果是文件名或 URI,则将在完成时打开和关闭 Arrow InputStream。如果提供输入流,它将保持打开状态。- col_select
要保留的列名的字符向量,与
data.table::fread()
中的 "select" 参数相同,或 整洁选择规范,用于dplyr::select()
中的列。- as_data_frame
函数应该返回
tibble
(默认) 还是 Arrow Table?- props
- mmap
使用 TRUE 在可能的情况下使用内存映射
- ...
传递给
ParquetFileReader$create()
的其他参数
值
如果 as_data_frame
为 TRUE
(默认),则为 tibble
,否则为 Arrow Table。
示例
tf <- tempfile()
on.exit(unlink(tf))
write_parquet(mtcars, tf)
df <- read_parquet(tf, col_select = starts_with("d"))
head(df)
#> # A tibble: 6 x 2
#> disp drat
#> <dbl> <dbl>
#> 1 160 3.9
#> 2 160 3.9
#> 3 108 3.85
#> 4 258 3.08
#> 5 360 3.15
#> 6 225 2.76