跳转至内容

write_*_dataset() 函数族是对 write_dataset 的封装,可以方便地在写入数据集的函数之间切换。

用法

write_delim_dataset(
  dataset,
  path,
  partitioning = dplyr::group_vars(dataset),
  basename_template = "part-{i}.txt",
  hive_style = TRUE,
  existing_data_behavior = c("overwrite", "error", "delete_matching"),
  max_partitions = 1024L,
  max_open_files = 900L,
  max_rows_per_file = 0L,
  min_rows_per_group = 0L,
  max_rows_per_group = bitwShiftL(1, 20),
  col_names = TRUE,
  batch_size = 1024L,
  delim = ",",
  na = "",
  eol = "\n",
  quote = c("needed", "all", "none")
)

write_csv_dataset(
  dataset,
  path,
  partitioning = dplyr::group_vars(dataset),
  basename_template = "part-{i}.csv",
  hive_style = TRUE,
  existing_data_behavior = c("overwrite", "error", "delete_matching"),
  max_partitions = 1024L,
  max_open_files = 900L,
  max_rows_per_file = 0L,
  min_rows_per_group = 0L,
  max_rows_per_group = bitwShiftL(1, 20),
  col_names = TRUE,
  batch_size = 1024L,
  delim = ",",
  na = "",
  eol = "\n",
  quote = c("needed", "all", "none")
)

write_tsv_dataset(
  dataset,
  path,
  partitioning = dplyr::group_vars(dataset),
  basename_template = "part-{i}.tsv",
  hive_style = TRUE,
  existing_data_behavior = c("overwrite", "error", "delete_matching"),
  max_partitions = 1024L,
  max_open_files = 900L,
  max_rows_per_file = 0L,
  min_rows_per_group = 0L,
  max_rows_per_group = bitwShiftL(1, 20),
  col_names = TRUE,
  batch_size = 1024L,
  na = "",
  eol = "\n",
  quote = c("needed", "all", "none")
)

参数

dataset

DatasetRecordBatchTablearrow_dplyr_querydata.frame。如果是 arrow_dplyr_query,则将评估查询并将结果写入。这意味着您可以在写入数据之前使用 select()filter()mutate() 等函数转换数据(如果需要)。

path

字符串路径、URI 或 SubTreeFileSystem,引用要写入的目录(如果目录不存在,则将创建该目录)

partitioning

Partitioning 或用作分区键(将作为路径段写入)的列的字符向量。默认为使用当前的 group_by() 列。

basename_template

要写入的文件名的字符串模板。必须包含 "{i}",它将被替换为自动递增的整数以生成数据文件的基本名称。例如,"part-{i}.arrow" 将生成 "part-0.arrow", ...。如果未指定,则默认为 "part-{i}.<默认扩展名>"

hive_style

逻辑值:将分区段写入为 Hive 样式 (key1=value1/key2=value2/file.ext) 或仅作为裸值。默认为 TRUE

existing_data_behavior

目标目录中已有数据时使用的行为。必须是“overwrite”、“error”或“delete_matching”之一。

  • “overwrite”(默认值)则创建的任何新文件都将覆盖现有文件

  • “error”则如果目标目录不为空,操作将失败

  • “delete_matching”则如果要将数据写入这些分区,写入器将删除任何现有分区,并保留未写入数据的分区。

max_partitions

任何批次可以写入到的最大分区数。默认为 1024L。

max_open_files

写入操作期间可以保持打开状态的最大文件数。如果大于 0,则这将限制可以保持打开状态的最大文件数。如果尝试打开的文件过多,则将关闭最近最少使用的文件。如果此设置设置得太低,您最终可能会将数据 fragmentation 成许多小文件。默认值为 900,这还允许扫描器在达到默认 Linux 限制 1024 之前打开一定数量的文件。

max_rows_per_file

每个文件的最大行数。如果大于 0,则这将限制放置在任何单个文件中的行数。默认为 0L。

min_rows_per_group

当累积的行数达到此数字时,将行组写入磁盘。默认为 0L。

max_rows_per_group

单个组中允许的最大行数,当超过此行数时,将对其进行拆分,并将下一组行写入下一组。必须设置此值,使其大于 min_rows_per_group。默认为 1024 * 1024。

col_names

是否使用列名写入初始标题行。

batch_size

一次处理的最大行数。默认为 1024L。

delim

用于分隔值的定界符。对于 write_delim_dataset()write_csv_dataset(),默认为 ",";对于 write_tsv_dataset(),默认为 "\t。对于 write_tsv_dataset(),不能更改。

na

要解释为缺失值的字符串的字符向量。此字符串中不允许使用引号。默认为空字符串 ""

eol

用于结束行的行尾字符。默认为 "\n"

quote

如何处理包含需要引用的字符的字段。

  • needed - 将所有字符串和二进制值括在需要它们的引号中,因为它们的 CSV 呈现本身可以包含引号(默认值)

  • all - 将所有有效值括在引号中。空值不带引号。如果推断架构,则可能导致读取器将所有值解释为字符串。

  • none - 不要将任何值括在引号中。防止值包含引号 (")、单元格分隔符 (,) 或行尾 (\r, \n)(遵循 RFC4180)。如果值包含这些字符,则尝试写入时会导致错误。

返回值

输入的 dataset,不可见。

另请参阅