CSV 转换选项
用法
csv_convert_options(
check_utf8 = TRUE,
null_values = c("", "NA"),
true_values = c("T", "true", "TRUE"),
false_values = c("F", "false", "FALSE"),
strings_can_be_null = FALSE,
col_types = NULL,
auto_dict_encode = FALSE,
auto_dict_max_cardinality = 50L,
include_columns = character(),
include_missing_columns = FALSE,
timestamp_parsers = NULL,
decimal_point = "."
)
参数
- check_utf8
逻辑值:是否检查字符串列的 UTF8 有效性?
- null_values
识别为空值的字符串向量。类似于
read.csv()
的na.strings
参数或readr::read_csv()
中的na
参数。- true_values
识别为
TRUE
值的字符串向量- false_values
识别为
FALSE
值的字符串向量- strings_can_be_null
逻辑值:字符串/二进制列是否可以为空值?类似于
readr::read_csv()
的quoted_na
参数- col_types
一个
Schema
或NULL
(用于推断类型)- auto_dict_encode
逻辑值:是否尝试自动对字符串/二进制数据进行字典编码(类似于
stringsAsFactors
)。此设置对非推断列(col_types
中的列)将被忽略。- auto_dict_max_cardinality
如果
auto_dict_encode
为真,则字符串/二进制列将被字典编码,最多可达此数量的唯一值(默认为 50),之后将切换为常规编码。- include_columns
如果非空,则指示 CSV 文件中应实际读取和转换的列的名称(按向量的顺序)。
- include_missing_columns
逻辑值:如果提供了
include_columns
,其中指定的列但在数据中未找到,是否应将其作为null()
类型的列包含在内?默认值(FALSE
)表示读取器将引发错误。- timestamp_parsers
用户定义的时间戳解析器。如果指定了多个解析器,CSV 转换逻辑将尝试从该向量的开头开始解析值。可能的值为:(a)
NULL
,默认值,使用 ISO-8601 解析器;(b) strptime 解析字符串的字符向量;或 (c) TimestampParser 对象的列表。- decimal_point
用于浮点数中小数点的字符。
示例
tf <- tempfile()
on.exit(unlink(tf))
writeLines("x\n1\nNULL\n2\nNA", tf)
read_csv_arrow(tf, convert_options = csv_convert_options(null_values = c("", "NA", "NULL")))
#> # A tibble: 4 x 1
#> x
#> <int>
#> 1 1
#> 2 NA
#> 3 2
#> 4 NA
open_csv_dataset(tf, convert_options = csv_convert_options(null_values = c("", "NA", "NULL")))
#> FileSystemDataset with 1 csv file
#> 1 columns
#> x: int64