Apache Arrow 6.0.0 (2021年10月26日)
这是一个涵盖超过3个月开发的大版本发布。
下载
贡献者
此版本包括来自88位不同贡献者的592次提交。
58 David Li
56 Antoine Pitrou
46 Neal Richardson
42 Sutou Kouhei
38 Jonathan Keane
34 Krisztián Szűcs
27 Matthew Topol
26 Nic Crane
23 Andrew Lamb
22 Joris Van den Bossche
21 Weston Pace
16 Alessandro Molina
15 Yibo Cai
10 Eduardo Ponce
9 Benson Muite
9 Rok
9 Micah Kornfield
8 liyafan82
8 michalursa
8 Benjamin Kietzman
8 Carlos O'Ryan
8 Ben Chambers
8 Navin
7 Alexander
7 Jiayu Liu
6 Phillip Cloud
5 Dominik Moritz
5 Percy Camilo Triveño Aucahuasi
5 Ian Cook
5 karldw
5 Wakahisa
4 Ruihang Xia
4 Nate Clark
4 Bryan Cutler
4 Dragos Moldovan-Grünfeld
4 Romain Francois
3 Daniël Heres
3 Matthew Turner
3 Sumit
3 Alenka Frim
3 okadakk
3 Laurent Goujon
3 Keith Kraus
3 Rommel Quintanilla
3 Roee Shlomo
2 Boaz
2 Chojan Shang
2 Ilya Biryukov
2 Markus Westerlind
2 Sergii Mikhtoniuk
2 Wang Fenjin
2 baishen
2 Fernando Rodriguez
2 João Pedro
2 Junwang Zhao
2 Takashi Hashida
2 William Butler
2 christian
2 darion.yaphet
2 frank400
2 jreid
2 rvernica
2 Jorge C. Leitao
1 Pachamaltese
1 Itamar Turner-Trauring
1 Projjal Chanda
1 Qingping Hou
1 Hongze Zhang
1 Eric Erhardt
1 ElenaHenderson
1 Sasha Krassovsky
1 Shoichi Kagawa
1 Eduard Tudenhoefner
1 Tahsin Hassan
1 niranda perera
1 Ted Dunning
1 Tim Swast
1 Wes McKinney
1 Dongjoon Hyun
1 Carol (Nichols || Goulding)
1 Christian Williams
1 Felix Yan
1 Andrey Klochkov
1 William Hyun
1 William Malpica
1 Dmitry Kalinkin
1 rodrigojdebem
1 czxrrr
1 wuzhuoming
1 seidl
1 jeremyd2019
1 shanhuuang
1 Dewey Dunnington
1 kharoc
1 lixiang.li
1 Daniel Rodriguez
1 Anthony Louis
1 neil
1 Matt Peterson
1 Kevin Gurney
1 Nathanaël Leaute
1 Kazuaki Ishizaki
1 Jiajun Yao
1 James Bourbeau
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
159 Antoine Pitrou
81 Neal Richardson
73 Sutou Kouhei
73 Andrew Lamb
49 Krisztián Szűcs
49 Jonathan Keane
43 David Li
24 Benjamin Kietzman
21 Matt Topol
18 Joris Van den Bossche
17 Micah Kornfield
16 Wakahisa
13 Weston Pace
13 Yibo Cai
7 Praveen
6 Nic Crane
6 Daniël Heres
4 Ian Cook
3 Phillip Cloud
3 Eric Erhardt
3 Bryan Cutler
3 Dominik Moritz
3 QP Hou
2 liyafan82
2 Chao Sun
更新日志
Apache Arrow 6.0.0 (2021-10-26)
新功能和改进
- ARROW-1565 - [C++][Compute] 实现 TopK/BottomK
- ARROW-1568 - [C++] 实现 "drop null" 内核,返回不含 null 的数组
- ARROW-4333 - [C++] 在计算层为内核和“查询”执行勾画设计草图
- ARROW-4700 - [C++] 为 arrow::json::TableReader 添加 DecimalType 支持
- ARROW-5002 - [C++] 实现哈希聚合查询执行节点
- ARROW-5244 - [C++] 审查实验性/不稳定的 API
- ARROW-6072 - [C++] 实现 List <-> LargeList 之间的转换
- ARROW-6607 - [Python] 支持从 Pandas 转换时的 set/list 列
- ARROW-6626 - [Python] 在转换为 Arrow 时将嵌套的 "set" 值作为列表处理
- ARROW-6870 - [C#] 添加对字典数组和字典编码的支持
- ARROW-7102 - [Python] 使文件系统与 fsspec 兼容
- ARROW-7179 - [C++][Compute] 合并 fill_null 和 coalesce
- ARROW-7901 - [Integration][Go] 添加 null 类型(及集成测试)
- ARROW-8022 - [C++] 提供或打包一个 small_vector 实现
- ARROW-8147 - [C++] 将 google-cloud-cpp 添加到 ThirdpartyToolchain
- ARROW-8379 - [R] 调查/修复线程安全问题(尤其是在 Windows 上)
- ARROW-8621 - [Release][Go] 通过创建标签添加模块支持
- ARROW-8780 - [Python] 一个与 fsspec 兼容的 pyarrow.fs 文件系统包装器
- ARROW-8928 - [C++] 测量与 ExecBatchIterator 相关的微观性能
- ARROW-9226 - [Python] pyarrow.fs.HadoopFileSystem - 如果可用,从 core-site.xml 或 hdfs-site.xml 检索选项
- ARROW-9434 - [C++] 在 UnionScalar::value 中存储 type_code 信息
- ARROW-9719 - [Doc][Python] 更好地记录新的 pa.fs.HadoopFileSystem
- ARROW-10094 - [Python][Doc] 更新 pandas 文档
- ARROW-10415 - [R] 支持 dplyr::distinct()
- ARROW-10898 - [C++] 调查 Table 排序性能
- ARROW-11238 - [Python] 使 SubTreeFileSystem 的打印方法更具信息性
- ARROW-11243 - [C++] 从字符串解析 time32 并在 CSV 读取器中进行推断
- ARROW-11460 - [R] 在 Linux 上如果存在则使用系统库
- ARROW-11691 - [Developer][CI] 为基准测试相关的环境变量提供一个合并的 .env 文件
- ARROW-11748 - [C++] 确保 Decimal128 和 Decimal256 的字段采用原生字节序
- ARROW-11828 - [C++] 在 API 中暴露 CSVWriter 对象
- ARROW-11885 - [R] 当 LIBARROW_MINIMAL=true 时关闭某些功能
- ARROW-11981 - [C++][Dataset][Compute] 用 Union ExecNode 替换 UnionDataset
- ARROW-12063 - [C++] 为排序函数添加 nulls 位置选项
- ARROW-12181 - [C++][R] test-dataset.R 中的 "CSV dataset" 在 RTools 3.5 上失败
- ARROW-12216 - [R] 在 RTools3.5 (32位?) 上主动禁用多线程
- ARROW-12359 - [C++] 弃用或移除 FileSystem::OpenAppendStream
- ARROW-12388 - [C++][Gandiva] 在 gandiva 中实现从 varbinary 转换数字的函数
- ARROW-12410 - [C++][Gandiva] 在 Gandiva 上实现 regexp_replace 函数
- ARROW-12479 - [C++][Gandiva] 实现 castBigInt, castInt, castIntervalDay 和 castIntervalYear 额外函数
- ARROW-12563 - 为字符串添加 space、add_months 和 datediff 函数
- ARROW-12615 - [C++] 为 stddev 和 variance 添加处理 NA 的选项
- ARROW-12650 - [Doc][Python] 改进关于处理内存映射文件的文档
- ARROW-12657 - [C++][Python][Compute] 字符串十六进制到数字的转换和位移
- ARROW-12669 - [C++] 返回 ListArray 中列表索引处元素数组的内核
- ARROW-12673 - [C++] 为列数不正确的行配置自定义处理程序
- ARROW-12688 - [R] 使用 DuckDB 查询 Arrow Dataset
- ARROW-12714 - [C++] 字符串首字母大写内核
- ARROW-12725 - [C++][Compute] GroupBy:通过仅在键插入哈希表时才以行格式编码键来提高性能
- ARROW-12728 - [C++][Compute] 实现 count_distinct/distinct 哈希聚合内核
- ARROW-12744 - [C++][Compute] 添加舍入内核
- ARROW-12759 - [C++][Compute] 将分组聚合包装在 ExecNode 中
- ARROW-12763 - [R] 优化在 arrange 后使用 head/tail 的 dplyr 查询
- ARROW-12846 - [Release] 改进二进制文件的上传
- ARROW-12866 - [C++][Gandiva] 在 Gandiva 上实现 STRPOS 函数
- ARROW-12871 - [R] 升级到 testthat 3e
- ARROW-12876 - [R] 修复树莓派上的构建标志
- ARROW-12944 - [C++] 字符串 capitalize 内核
- ARROW-12946 - [C++] 字符串大小写转换内核
- ARROW-12953 - [C++][Compute] 重构 CheckScalar* 以接受 Datum 参数
- ARROW-12959 - [C++][R] is_null(NaN) 评估为 true 的选项
- ARROW-12965 - [Java] Arrow C 数据接口的 Java 实现
- ARROW-12980 - [C++] 提取日期时间组件的内核应支持时区
- ARROW-12981 - [R] 仅从 CRAN 安装源代码包
- ARROW-13033 - [C++] 将朴素时间戳本地化到时区的内核(保留时钟时间)
- ARROW-13056 - [Dev][MATLAB] 为支持的语言扩展 PR 标记器
- ARROW-13067 - [C++][Compute] 实现整数到小数的转换
- ARROW-13089 - [Python] 允许从 Python 字典创建 RecordBatch
- ARROW-13112 - [R] 用于字符串和其他类型的 altrep 向量
- ARROW-13132 - [C++] 添加 Scalar 验证
- ARROW-13138 - [C++] 实现从日期类型对象中提取日期时间组件(年、月、日等)的内核
- ARROW-13141 - [C++][Python] HadoopFileSystem:是否应根据 HADOOP_HOME 环境变量自动设置 CLASSPATH?
- ARROW-13163 - [C++][Gandiva] 在 Gandiva 上实现 REPEAT 函数
- ARROW-13164 - [R] 从带 null 值的数组创建 altrep 向量
- ARROW-13172 - [Java] 将 Vector 中的 TYPE_WIDTH 设为 public
- ARROW-13174 - [C++][Compute] 添加 strftime 内核
- ARROW-13202 - [MATLAB] 在 Linux 上为 MATLAB 接口启用 GitHub Actions CI
- ARROW-13218 - [Doc] 记录/阐明时间戳存储的约定
- ARROW-13220 - [C++] 添加一个 'choose' 内核/标量计算函数
- ARROW-13222 - [C++] 在 case_when 函数中支持可变宽度类型
- ARROW-13227 - [C++][Compute] 记录 ExecNode, ExecPlan
- ARROW-13257 - [Java][Dataset] 允许传递空列进行投影
- ARROW-13260 - [Doc] 托管不同发布版本的文档 + 版本切换器
- ARROW-13268 - [C++][Compute] 为半连接和反半连接添加 ExecNode
- ARROW-13279 - [R] 在 wday 实现中使用 C++ DayOfWeekOptions,而不是通过 Expression 手动计算
- ARROW-13287 - [C++] [Dataset] FileSystemDataset::Write 应使用异步扫描
- ARROW-13295 - [C++] 实现 hash_aggregate mean/stdev/variance 内核
- ARROW-13298 - [C++] 实现 hash_aggregate any/all 布尔内核
- ARROW-13307 - [C++] 移除基于反射的枚举(原:为计算选项使用基于反射的枚举)
- ARROW-13311 - [C++][Documentation] 在某处列出哈希聚合内核
- ARROW-13317 - [Python] 改进 'read_feather' 中 'use_threads' 作用的文档
- ARROW-13326 - [R] [Archery] 为开发 CI 添加代码风格检查
- ARROW-13327 - [Python] 提高 PyArrow 文件中显式 C++ 类型的一致性
- ARROW-13330 - [Go][Parquet] 添加编码包第二部分
- ARROW-13344 - [R] ExecPlan/ExecNode 的初始绑定
- ARROW-13345 - [C++] 实现 logN 计算函数
- ARROW-13358 - [C++] 扩展 if_else 内核的类型支持
- ARROW-13379 - [Dev][Docs] 改进 archery 文档
- ARROW-13390 - [C++] 改进 'coalesce' 内核的类型支持
- ARROW-13397 - [R] 更新 arrow.Rmd 指南
- ARROW-13399 - [R] 更新 dataset.Rmd 指南
- ARROW-13402 - [R] 更新 flight.Rmd 指南
- ARROW-13403 - [R] 更新 developing.Rmd 指南
- ARROW-13404 - [Python] [Doc] 使 Python 登录页与 arrow 文档的其余部分解耦
- ARROW-13405 - [Doc] 将“库”作为文档的入口点
- ARROW-13416 - [C++] 实现 mod 计算函数
- ARROW-13420 - [JS] 更新依赖项
- ARROW-13421 - [C++] 添加功能,当使用逗号作为小数分隔符时,从分隔文件中将列读取为浮点数
- ARROW-13433 - [R] 从 Valgrind 测试中移除 CLI hack
- ARROW-13434 - [R] 使用未命名表达式的 group_by()
- ARROW-13435 - [R] 添加函数 arrow_table() 作为 Table$create() 的别名
- ARROW-13444 - [C++] 通过将 std::result_of 更新为 std::invoke_result 实现 C++20 兼容性
- ARROW-13448 - [R] strftime 的绑定
- ARROW-13453 - [R] DuckDB 尚未发布 0.2.8
- ARROW-13455 - [C++][Docs] RecordBatch::SetColumn 中的拼写错误
- ARROW-13458 - [C++][Docs] RecordBatch::schema 中的拼写错误
- ARROW-13459 - [C++][Docs] RecordBatch::SetColumn 缺少参数文档
- ARROW-13461 - [Python][Packaging] 为 python 3.8 构建 M1 wheels
- ARROW-13463 - [Release][Python] 验证 python 3.8 macOS arm64 wheel
- ARROW-13465 - [R] 从 duckdb 到 to_arrow()
- ARROW-13466 - [R] 如果 Arrow C++ 依赖项无法安装,则使安装失败
- ARROW-13468 - [Release] 修复二进制文件下载/上传失败
- ARROW-13472 - [R] 移除 .engine = "duckdb" 参数
- ARROW-13475 - [Release] 清理旧版本时不要考虑 rust tarballs
- ARROW-13476 - [Doc][Python] 确保 ipc/io 文档使用上下文管理器而不是手动关闭流
- ARROW-13478 - [Release] 版本升级后脚本中不必要的 rc-number 参数
- ARROW-13480 - [C++] [R] [Python] Dataset SyncScanner 可能在出错时冻结
- ARROW-13482 - [C++][Compute] 为 ExecNode 实现提供一个注册表
- ARROW-13485 - [Release] 使用 post-12-bump-versions.sh 替换 r/NEWS.md 中的 ${PREVIOUS_RELEASE}.9000
- ARROW-13488 - [Website] 更新 5.0.0 的 Linux 软件包安装信息
- ARROW-13489 - [R] 在 5.0.0 后更新 CI 作业
- ARROW-13501 - [R] count 聚合的绑定
- ARROW-13502 - [R] min/max 聚合的绑定
- ARROW-13503 - [GLib][Ruby][Flight] 添加对 DoGet 的支持
- ARROW-13506 - 升级 ORC 到 1.6.9
- ARROW-13508 - [C++] 允许将自定义 RetryStrategy 对象传递给 S3FileSystem
- ARROW-13510 - [CI][R][C++] 将 -Wall 添加到 fedora-clang-devel as-cran 检查
- ARROW-13511 - [CI][R] 如果 R 依赖项无法安装,则在 docker 构建步骤中失败
- ARROW-13516 - [C++] Mingw-w64 + Clang (lld) 不支持 --version-script
- ARROW-13519 - [R] 使文档示例的输出更简洁
- ARROW-13520 - [C++] 实现 hash_aggregate 近似分位数内核
- ARROW-13521 - [C++][Docs] 在计算函数文档中添加关于 tdigest 的注释
- ARROW-13525 - [Python] 在 ParquetDataset 属性的弃用消息中提及替代方案
- ARROW-13528 - [R] mean, var, sd 聚合的绑定
- ARROW-13532 - [C++][Compute] Join:向 grouper 添加集合成员测试方法
- ARROW-13534 - [C++] 改进 csv 分块器
- ARROW-13540 - [C++][Compute] 添加 OrderByNode 用于在 ExecPlan 中对行进行排序
- ARROW-13541 - [C++][Python] 实现 ExtensionScalar
- ARROW-13542 - [C++][Compute][Dataset] 添加 dataset::WriteNode 用于将 ExecPlan 中的行写入磁盘
- ARROW-13544 - [Java] 移除已弃用很久的 API
- ARROW-13544 - [Java] 移除已弃用很久的 API
- ARROW-13544 - [Java] 移除已弃用很久的 API
- ARROW-13548 - [C++] 实现 datediff 内核
- ARROW-13549 - [C++] 实现提取值的时间戳到日期/时间的转换
- ARROW-13550 - [R] 支持 dplyr::summarize() 的 .groups 参数
- ARROW-13552 - [C++] 移除已弃用的 API
- ARROW-13557 - [Packaging][Python] 在 M1 上跳过 test_cancellation 测试用例
- ARROW-13561 - [C++] 实现接受 WeekOptions 的 week 内核
- ARROW-13562 - [R] Styler 后续工作
- ARROW-13565 - [Packaging][Ubuntu] 放弃对 20.10 的支持
- ARROW-13572 - [C++][Python] 为 pyarrow.datasets API 添加基本的 ORC 支持
- ARROW-13573 - [C++] 在 case_when 内核中直接支持字典
- ARROW-13574 - [C++] 为 count (hash) 聚合内核添加 'count all' 选项
- ARROW-13575 - [C++] 实现 product 聚合和 hash 聚合内核
- ARROW-13576 - [C++][Compute] 用 ::MakeTask 替换 ExecNode::InputReceived
- ARROW-13577 - [Python][FlightRPC] pyarrow 客户端 do_put 在 write_table 后的 close 方法没有抛出 flight 错误
- ARROW-13585 - [GLib] 添加对 C ABI 接口的支持
- ARROW-13587 - [R] 处理 --use-LTO 覆盖
- ARROW-13595 - [C++] 为计算内核输出类型添加调试模式检查
- ARROW-13604 - [Java] 移除表示不支持操作的 API 的弃用注解
- ARROW-13606 - [R] 确实禁用 LTO
- ARROW-13613 - [C++] 实现对小数的 sum/mean 聚合
- ARROW-13614 - [C++] 实现对小数的 min_max 聚合
- ARROW-13618 - [R] 默认情况下对 summarize() 使用 Arrow 引擎
- ARROW-13620 - [R] n_distinct() 的绑定
- ARROW-13626 - [R] 对数以 b 为底的绑定
- ARROW-13627 - [C++] ScalarAggregateOptions(在哈希聚合中)没有意义
- ARROW-13629 - [Ruby] 添加对构建/转换 map 的支持
- ARROW-13633 - [Packaging][Debian] 添加对 bookworm 的支持
- ARROW-13634 - [R] 更新 nixlibs.R 中的 distro() 以从 "bookworm" 映射到 12
- ARROW-13635 - [Packaging][Python] 在 arm manylinux 构建中为 jemalloc 定义 --with-lg-page
- ARROW-13637 - [Python][Doc] 使 docstrings 符合相同风格
- ARROW-13642 - [C++][Compute] 实现多对多内哈希连接
- ARROW-13645 - [Java] 允许 NullVectors 有不同的字段名
- ARROW-13646 - [Go][Parquet] 添加元数据包
- ARROW-13648 - [Dev] 尽可能使用 #!/usr/bin/env 而不是 #!/bin
- ARROW-13650 - [C++] 创建数据集写入器以封装数据集写入逻辑
- ARROW-13651 - [Ruby] 添加对从 [Symbol] 转换为 Arrow 数组的支持
- ARROW-13652 - [Python] 在 Python 中暴露 CopyFiles 工具
- ARROW-13660 - [C++][Compute] 从 ExecNode::InputReceived 中移除 `seq` 参数
- ARROW-13670 - [C++] 进行一轮编译器警告清理
- ARROW-13674 - [Dev][CI] PR 检查工作流应检查 JIRA 组件
- ARROW-13675 - [Doc][Python] 在 Cookbook 中添加关于如何保存分区数据集的配方
- ARROW-13679 - [GLib][Ruby] 添加对组聚合的支持
- ARROW-13680 - [C++] 创建一个异步 nursery 来简化捕获逻辑
- ARROW-13682 - [C++] 添加 TDigest::Merge(const TDigest&)
- ARROW-13684 - [C++][Compute] Strftime 内核后续工作
- ARROW-13686 - [Python] 更新已弃用的 pytest yield_fixture 函数
- ARROW-13687 - [Ruby] 添加对通过 Arrow Dataset 加载表格的支持
- ARROW-13691 - [C++] 为 VarianceOptions 添加处理 NAs 的选项
- ARROW-13693 - [Website] arrow-site 应固定特定的 Ruby 版本并利用 rbenv 等工具
- ARROW-13696 - [Python] 支持带字段的 MapType
- ARROW-13699 - [Python][Doc] 重构文件系统接口文档
- ARROW-13700 - [Docs][C++] 阐明 DayOfWeekOptions 的参数
- ARROW-13702 - [Python] test_parquet_dataset_deprecated_properties 缺少一个 dataset 标记
- ARROW-13704 - [C#] 添加对读取流式格式增量字典的支持
- ARROW-13705 - [Website] 固定 node 版本
- ARROW-13721 - [Doc][Cookbook] 指定模式 - Python
- ARROW-13733 - [Java] 允许 JDBC 适配器重用 vector schema roots
- ARROW-13734 - [Format] 阐明时间类型允许的值
- ARROW-13736 - [C++] 统一 PrettyPrint 和 StringFormatter
- ARROW-13737 - [C++] 支持哈希聚合中的标量列(原:hash_sum 在标量列上段错误)
- ARROW-13739 - [R] 支持 dplyr::count() 和 tally()
- ARROW-13740 - [R] summarize() 不应急切求值
- ARROW-13757 - [R] 修复为 CRAN 补丁版本下载 C++ 源码
- ARROW-13759 - [C++] 更新 linting 和格式化脚本,在 shebang 行中指定 python3
- ARROW-13760 - [C++] 当启用 Flight 时,将 Protobuf 版本提升到 3.15
- ARROW-13764 - [C++] 实现 count_distinct (grouped) 的 ScalarAggregateOptions
- ARROW-13768 - [R] 允许 JSON 成为可选组件
- ARROW-13772 - [R] median() 和 quantile() 聚合函数的绑定
- ARROW-13776 - [C++] 离线 thirdparty versions.txt 缺少某些文件的扩展名
- ARROW-13777 - [R] 只要只有标量函数,group_by 之后的 mutate 应该没问题
- ARROW-13778 - [R] 处理复杂的 summarize 表达式
- ARROW-13782 - [C++] 为 TDigest, Index, Mode, Quantile 聚合添加处理 NAs 的选项
- ARROW-13783 - [Python] 改进 Table.to_string (可能还有 __repr__) 以预览表格数据
- ARROW-13785 - [C++] ExecPlan 和 ExecNode 的打印方法
- ARROW-13787 - [C++] 验证第三方下载
- ARROW-13789 - [Go] 为 Go 实现 Arrow 标量值
- ARROW-13793 - [C++] 将 ORCFileReader 迁移到 Result<T>
- ARROW-13794 - [C++] 弃用 Parquet 伪版本 "2.0"
- ARROW-13797 - [C++] 在 Datasets API 中实现列投影下推到 ORC 读取器
- ARROW-13803 - [C++] 筛选出租车数据集时段错误
- ARROW-13804 - [Go] 添加对 Interval 类型 Month, Day, Nano 的支持
- ARROW-13806 - [Python] 为 Month, Day, Nano Interval 类型添加与 Pandas/Python 的相互转换
- ARROW-13809 - [C ABI] 为 C-ABI 添加对 Month, Day, Nanosecond interval 类型的支持
- ARROW-13810 - [C++][Compute] 谓词 IsAsciiCharacter 允许无效的类型和值
- ARROW-13815 - [R] 适应 rlang 中新的调用堆栈更改
- ARROW-13816 - [Go] 实现 C 数据接口的消费者 API
- ARROW-13820 - [R] 将 na.min_count 重命名为 min_count,na.rm 重命名为 skip_nulls
- ARROW-13821 - [R] 在 sd, var 绑定中处理 na.rm
- ARROW-13823 - 从 git 和 RAT 插件中排除 .factorypath
- ARROW-13824 - [C++][Compute] 使 BooleanToNumber 内核成为 constexpr
- ARROW-13831 - [GLib][Ruby] 添加对通过 Arrow Dataset 写入的支持
- ARROW-13835 - [Python] 记录用于统一模式的工具
- ARROW-13842 - [C++] 提升打包的 date 库版本
- ARROW-13843 - [C++][CI] 在模糊测试设置中测试 ToString / PrettyPrint
- ARROW-13845 - [C++] 统一 RandomArrayGenerator::ArrayOf 变体
- ARROW-13847 - 避免不必要的集合复制
- ARROW-13849 - [C++] 添加 min 和 max 聚合函数
- ARROW-13852 - [R] 在 ExecPlan 中处理 Dataset 模式元数据
- ARROW-13853 - [R] 字符串 to_title, to_lower, to_upper 内核
- ARROW-13855 - [C++] [Python] 添加对导出扩展类型的支持
- ARROW-13857 - [R][CI] 移除 checkbashisms 下载
- ARROW-13859 - [Java] 添加代码覆盖率支持
- ARROW-13866 - [R] 为通过 list_compute_functions 可用的所有计算内核实现选项
- ARROW-13869 - [R] 为未绑定的 MatchSubstringOptions 内核实现选项
- ARROW-13871 - [C++] 如果列表数组键在一个块中存在但在后续块中不存在,JSON 读取器可能会失败
- ARROW-13874 - [R] 实现 TrimOptions
- ARROW-13883 - [Python] 在创建数组时允许除 numpy.array 之外的更多类型作为掩码
- ARROW-13890 - [R] 拆分 test-dataset.R 和 test-dplyr.R
- ARROW-13893 - [R] 使 head/tail 在数据集和查询上延迟执行
- ARROW-13897 - [Python] TimestampScalar.as_py() 和 DurationScalar.as_py() 文档对返回类型的描述不准确
- ARROW-13898 - [C++][Compute] 添加对字符串二进制转换的支持
- ARROW-13899 - [Ruby] 通过计算内核实现切片器
- ARROW-13901 - [R] 实现 IndexOptions
- ARROW-13904 - [R] 实现 ModeOptions
- ARROW-13905 - [R] 实现 ReplaceSliceOptions
- ARROW-13906 - [R] 实现 PartitionNthOptions
- ARROW-13908 - [R] 实现 ExtractRegexOptions
- ARROW-13909 - [GLib] 添加 GArrowVarianceOptions
- ARROW-13909 - [GLib] 添加 GArrowVarianceOptions
- ARROW-13910 - [Ruby] Arrow::Table#[]/Arrow::RecordBatch#[] 接受 Range 和选择器
- ARROW-13919 - [GLib] 添加 GArrowFunctionDoc
- ARROW-13924 - [R] stringr::str_starts, stringr::str_ends, base::startsWith 和 base::endsWith 的绑定
- ARROW-13925 - [R] 移除系统安装 devdocs 作业
- ARROW-13927 - [R] 将 Karl 添加到包的贡献者列表中
- ARROW-13928 - [R] 重命名版本任务,使其更清晰
- ARROW-13937 - [C++][Compute] 为符号函数添加显式输出值并修复一元类型检查
- ARROW-13942 - [Dev] cmake_format autotune 不工作
- ARROW-13944 - [C++] 将 xsimd 升级到最新版本
- ARROW-13958 - [Python] 将 Python ORC 绑定迁移到使用新的基于 Result 的 API
- ARROW-13959 - [R] 更新从 date32 对象提取组件的测试
- ARROW-13962 - [R] 补充 NEWS
- ARROW-13963 - [Go] 将 Bitmap Reader/Writer 实现从 Parquet 移至 Arrow bituil 包
- ARROW-13964 - [Go] 移除 Parquet 位图读写器实现并使用共享的 arrow bitutils 版本
- ARROW-13965 - [C++] parquet TypedColumnWriterImpl 中的 dynamic_casts 影响性能
- ARROW-13966 - [C++] 用于小数的比较内核
- ARROW-13967 - [Go] 实现数组的 Concatenate 函数
- ARROW-13973 - [C++] 添加一个 SelectKSinkNode
- ARROW-13974 - [C++] 解决 TopK/BottomK 的后续审查问题
- ARROW-13975 - [C++][Compute] 为舍入函数添加小数支持
- ARROW-13977 - [Format] 阐明 interval 类型的闰秒和闰日
- ARROW-13979 - [Go] 为 Go 测试启用 -race 参数
- ARROW-13990 - [R] round 内核的绑定
- ARROW-13994 - [Doc][C++] 构建文档缺少 git submodule update
- ARROW-13995 - [R] join 节点的绑定
- ARROW-13999 - [C++][CI] 在 MinGW 上构建 LZ4 必须安装 make
- ARROW-14002 - [Python] unify_schema 也应接受元组
- ARROW-14003 - [C++][Python] 在 "select_k_unstable" 内核中不提供 sort_key 会导致崩溃
- ARROW-14005 - [R] 修复 PartitionNthOptions 的测试,使其可以在各种平台上运行
- ARROW-14006 - [C++][Python] 支持将朴素时间戳转换为字符串
- ARROW-14007 - [C++] 修复小数提升机制中的编译器警告
- ARROW-14008 - [R][Compute] ExecPlan_run 应返回 RecordBatchReader 而不是 Table
- ARROW-14009 - [C++] 确保 SourceNode 真正并行地向计划提供批处理
- ARROW-14012 - [Python] 更新计算文档中的内核类别以匹配 C++
- ARROW-14013 - [C++][Docs] 在 Fedora Linux 上安装的说明
- ARROW-14016 - [C++] 目录分区使用了错误的 type_name
- ARROW-14019 - [R] expect_dplyr_equal() 测试辅助函数忽略分组
- ARROW-14023 - [Ruby] Arrow::Table#slice 接受 Hash
- ARROW-14025 - [R][C++] 通过 exec nodes 扫描 parquet 时未启用 PreBuffer
- ARROW-14030 - [GLib] 使用基于 arrow::Result 的 ORC API
- ARROW-14031 - [Ruby] 分别使用 min 和 max
- ARROW-14033 - [Ruby][Doc] 为 Red Arrow 添加 macOS 开发指南
- ARROW-14033 - [Ruby][Doc] 为 Red Arrow 添加 macOS 开发指南
- ARROW-14035 - [C++][Compute] 实现非哈希 count_distinct 聚合内核
- ARROW-14036 - [R] 无分组的 n_distinct() 绑定
- ARROW-14043 - [Python] 为字典数组添加无符号索引的支持?
- ARROW-14044 - [R] 在 summarize 中处理 group_by .drop 参数
- ARROW-14049 - [C++][Java] 升级 ORC 到 1.7.0
- ARROW-14050 - [C++] 当不跳过 nulls 时,tdigest, quantile 返回空数组
- ARROW-14052 - [C++] 添加 appx_median, hash_appx_median 函数
- ARROW-14054 - [C++][Docs] 提高 row_conversion_example.cpp 的清晰度
- ARROW-14055 - [Docs] 为文档添加规范 URL
- ARROW-14056 - [C++][Doc] 提及 ArrayData
- ARROW-14061 - [Go] 添加 Cgo Arrow 内存池分配器
- ARROW-14062 - [Format] 计算 IR 的初始 arrow-internal 规范
- ARROW-14064 - [CI] 使用 Debian 11
- ARROW-14069 - [R] 默认情况下,在 list_compute_functions() 中过滤掉哈希函数
- ARROW-14070 - [C++][CI] 移除对 VisualStudio 2015 的支持
- ARROW-14072 - [GLib][Parquet] 添加通过元数据获取行数的支持
- ARROW-14073 - [C++] 去除重复的排序键
- ARROW-14084 - [GLib][Ruby][Dataset] 添加从目录扫描的支持
- ARROW-14088 - [GLib][Ruby][Dataset] 添加对过滤器的支持
- ARROW-14106 - [Go][C] 实现导出 C 数据接口
- ARROW-14107 - [R][CI] 并行化 Windows CI 作业
- ARROW-14111 - [C++] 为 time32/time64 添加提取函数支持
- ARROW-14116 - [C++][Docs] WriteCSV 示例中一致的变量名
- ARROW-14127 - [C++][Docs] 使用计算函数和输出的示例
- ARROW-14128 - [Go] 为嵌套类型实现 MakeArrayFromScalar
- ARROW-14132 - [C++] 在 CSV 分块器测试中测试混合引用和转义
- ARROW-14135 - [Python] 缺少对计算内核的 Python 测试
- ARROW-14140 - [R] 从 R 元数据中跳过 arrow_binary/arrow_large_binary 类
- ARROW-14143 - [IR] [C++] 向 IR 添加显式转换节点
- ARROW-14146 - [Dev] 更新合并脚本以在 shebang 行中指定 python3
- ARROW-14150 - [C++] 如果 quoting 为 false,在 CSV 分块器中跳过分隔符检查
- ARROW-14155 - [Go] 添加用于创建数据类型和标量指纹/哈希的函数
- ARROW-14157 - [C++] 在 ThirdpartyToolchain 中重构 Abseil 构建
- ARROW-14165 - [C++] 提高表格排序性能 #2
- ARROW-14178 - [C++] Boost 下载位置已移动
- ARROW-14180 - [Packaging] 添加对 AlmaLinux 8 的支持
- ARROW-14189 - [文档] 向 sphinx 文档添加版本下拉列表
- ARROW-14191 - [C++][Dataset] Dataset 写入应尊重背压
- ARROW-14194 - [Docs] 改善 sphinx API 文档中的垂直间距
- ARROW-14198 - [Java] 升级 Netty 和 gRPC 依赖
- ARROW-14207 - [C++] 为打包的 Boost 目标添加缺失的依赖
- ARROW-14212 - [GLib][Ruby] 添加 GArrowTableConcatenateOptions
- ARROW-14217 - [Python][CI] 添加对 python 3.10 的支持
- ARROW-14222 - [C++] 创建 GcsFileSystem 骨架
- ARROW-14228 - [R] 允许创建可为空的字段
- ARROW-14230 - [C++] 弃用 ArrayBuilder::Advance
- ARROW-14232 - [C++] 更新 crc32c 依赖到 1.1.2
- ARROW-14235 - [C++][Compute] 如果没有提供标签,则使用节点计数器作为标签
- ARROW-14236 - [C++] 为 CI 构建安装 GCS 测试台
- ARROW-14239 - [R] 不要使用 rlang::as_label
- ARROW-14241 - [C++] Dataset ORC 在 java-jars 每夜构建中构建失败
- ARROW-14243 - [C++] 拆分 vector_sort.cc
- ARROW-14244 - [C++] 调查 scalar_temporal.cc 编译速度
- ARROW-14258 - [R] 如果 SF 列被制成表格,则发出警告
- ARROW-14259 - [R] 当 R 向量为 altrep 时,从 R 向量转换为 Array
- ARROW-14261 - [C++] Includes 应按字母顺序排列
- ARROW-14269 - [C++] 整合 utf8 基准测试
- ARROW-14274 - [C++] 升级打包的 base64 代码
- ARROW-14284 - [C++][Python] 改进当需要异步时尝试使用 SyncScanner 时的错误消息
- ARROW-14291 - [CI][C++] 将 cpp/examples/ 文件添加到 lint 目标
- ARROW-14295 - [Doc] 指明 archery 的位置
- ARROW-14296 - [Go] 更新 flatbuf 生成的代码
- ARROW-14304 - [R] 更新 6.0.0 的新闻
- ARROW-14309 - [Python] CompressedInputStream 不支持 str 或文件对象
- ARROW-14317 - [Doc] 更新实现状态
- ARROW-14326 - [Docs] 将 C/GLib 和 Ruby 添加到 C 数据/流接口支持的库中
- ARROW-14327 - [Release] 从 packaging 组中移除 conda-*
- ARROW-14335 - [GLib][Ruby] 添加对表达式的支持
- ARROW-14337 - [C++] 启用 SIMD 加速时 Arrow 无法在 M1 上构建
- ARROW-14341 - [C++] 优化小数基准测试
- ARROW-14343 - [Packaging][Python] 为 M1 wheels 启用 NEON SIMD 优化
- ARROW-14345 - [C++] 实现 GCS FileSystem 的流式读取
- ARROW-14348 - [R] 添加 group_vars.RecordBatchReader 方法
- ARROW-14349 - [IR] 移除 RelBase
- ARROW-14358 - 更新文档中的 CMake 选项
- ARROW-14361 - [C++] 为 ARROW_SIMD_LEVEL 定义一个默认值
- ARROW-14364 - [CI][C++] 支持 LLVM 13
- ARROW-14368 - [CI] ubuntu-16.04 在 Azure Pipelines 上不可用
- ARROW-14369 - [C++][Python] 使用 g++ 4.8.5 构建失败
- ARROW-14386 - [Packaging][Java] manylinux2014 镜像中的 devtoolset 升级到 10
- ARROW-14387 - [Release][Ruby] 发布前检查 Homebrew/MSYS2 包版本
- ARROW-14396 - [R][Doc] 移除 write_dataset 中关于列不能重命名的过时说明
- ARROW-14400 - [Go] 表和分块数组的 Equals 和 ApproxEquals
- ARROW-14401 - [C++] 打包的 crc32c 的包含路径错误
- ARROW-14402 - [Release][Yum] RPM 签名失败
- ARROW-14404 - [Release][APT] 跳过 arm64 Debian GNU/Linux bookworm 验证
- ARROW-14408 - [Packaging][Crossbow] 跳过工件模式验证的选项
- ARROW-14410 - [Python][Packaging] 使用 numpy 1.21.3 为 macOS 和 windows 构建 python 3.10 wheels
- ARROW-14452 - [Release][JS] 更新 Javascript 测试
- PARQUET-490 - [C++] 将 DELTA_BINARY_PACKED 值编码器集成到库中并添加单元测试
Bug 修复
- ARROW-6946 - [Go] 使用 assert 构建标签运行测试
- ARROW-8452 - [Go][Integration] Go JSON 生成器为嵌套类型生成不正确的 nullable 标志
- ARROW-8453 - [Integration][Go] 不支持递归嵌套类型
- ARROW-8999 - [Python][C++] 在 "AMD64 MacOS 10.15 Python 3.7" 构建中出现非确定性段错误
- ARROW-9948 - [C++] Decimal128 在重新调整 scale 时不检查范围;可能导致缓冲区溢出
- ARROW-10213 - [C++] 从时间戳到日期的转换是四舍五入而不是提取日期组件
- ARROW-10373 - [C++] ValidateFull() 不验证 null_count
- ARROW-10773 - [R] 在 Windows 上,并行的 as.data.frame.Table 无限期挂起
- ARROW-11518 - [C++] [Parquet] 读取布尔列时 Parquet 读取器崩溃
- ARROW-11579 - [R] 在 Windows 上 read_feather 挂起
- ARROW-11634 - [C++][Parquet] 字典列的 Parquet 统计信息(min/max)不正确
- ARROW-11729 - [R] 向数据集文档添加示例
- ARROW-12011 - [C++][Python] 将大整数转换为日期时崩溃和结果不正确
- ARROW-12072 - (ipc.Writer).Write 出现 `arrow/array: index out of range` 恐慌
- ARROW-12087 - [C++] 修复 sort_indices, array_sort_indices 时间戳支持不一致问题
- ARROW-12513 - [C++][Parquet] 对于带 null 值的字典编码数组,Parquet Writer 总是将 null_count=0 放入 Parquet 统计信息中
- ARROW-12540 - [C++] 实现从 date32[day] 到 utf8 的转换
- ARROW-12636 - [JS] ESM Tree-Shaking 产生损坏的代码
- ARROW-12700 - [R] 在一次糟糕的写入后,Read/Write_feather 永久卡住,R,Win32
- ARROW-12837 - [C++] Array::ToString() 在 null 缓冲区时段错误
- ARROW-13134 - [C++] 使用 aws-sdk-cpp 1.9.51 时,与 SSL 相关的 arrow-s3fs-test 失败
- ARROW-13151 - [Python] 无法从 Parquet 中读取 struct 列的单个子字段
- ARROW-13198 - [C++][Dataset] 异步扫描器偶尔在 CI 中段错误
- ARROW-13293 - [R] open_dataset 后跟 collect 挂起(而 compute 正常工作)
- ARROW-13304 - [C++] 由于星期几选项,无法在 Ubuntu 21.04 上安装每夜版
- ARROW-13336 - [Doc][Python] make clean 不清理 "generated" 文档
- ARROW-13422 - [R] 澄清 README 中关于 Windows 上 S3 支持的内容
- ARROW-13424 - [C++] conda-forge 基准测试库被拒绝
- ARROW-13425 - [Dev][Archery] Archery 导入 pandas,而 pandas 导入 pyarrow
- ARROW-13429 - [C++][Gandiva] Gandiva 在编译带二进制类型的 If-else 表达式时崩溃
- ARROW-13430 - [Integration][Go] 集成测试中的各种错误
- ARROW-13436 - [Python][Doc] 阐明如果向 read_table 传递空列列表时应期待什么
- ARROW-13437 - [C++] FixedSizeList 的切片未能通过 ValidateFull
- ARROW-13441 - [CSV] 流式读取器转换应跳过空块
- ARROW-13443 - [C++] 修复从 flatbuf::MetadataVersion 到 arrow::ipc::MetadataVersion 的不正确映射
- ARROW-13445 - [Java][Packaging] 修复 Java jars 的工件模式
- ARROW-13446 - [Release] 修复在 amazon linux 上的验证
- ARROW-13447 - [Release] arm64 和 universal2 macOS wheels 的验证脚本
- ARROW-13450 - [Python][Packaging] 为 universal2 wheels 设置部署目标为 10.13
- ARROW-13469 - [C++] 在 DayMilliseconds arrow/type.h 中抑制 -Wmissing-field-initializers
- ARROW-13474 - [C++][Python] PyArrow 在过滤/获取空 Extension 数组时崩溃
- ARROW-13477 - [发布] 将 ARTIFACTORY_API_KEY 传递给上传脚本
- ARROW-13484 - [发布] Amazon Linux 2 的软件包不可用
- ARROW-13490 - [R] [CI] 需要根据 duckdb 版本来控制 duckdb 示例
- ARROW-13492 - [R] [CI] 将 r-tools 35 构建移回 per-commit/pre-PR
- ARROW-13493 - [C++] 匿名联合中的匿名结构体是 GNU 扩展
- ARROW-13495 - [C++] 写入数据集时 BitUtil 中出现 UBSAN 错误
- ARROW-13496 - [CI][R] 修复 r-sanitizer 作业
- ARROW-13497 - [C++][R] 聚合节点未使用 FunctionOptions
- ARROW-13499 - [R] 表达式上的聚合未正确进行非标准评估(NSE)
- ARROW-13500 - [C++] 使用 gcc 9.3 构建时出现警告:无法识别的命令行选项 '-Wno-unknown-warning-option'
- ARROW-13504 - [Python] 无法使用 pytest 标记跳过 s3 或 hdfs 测试
- ARROW-13507 - [R] CRAN 上的 LTO 作业失败
- ARROW-13509 - [C++] take 计算函数应传递 ChunkedArray 类型以处理空输入数组
- ARROW-13522 - [C++] macOS 上计算 `utf8_*trim` 函数的回归问题
- ARROW-13523 - 统一测试用例名称
- ARROW-13524 - [C++] 修复 ApplicationVersion::VersionEq 的描述
- ARROW-13529 - 在写入切片时,IPC 写入器中有过多的释放操作
- ARROW-13538 - [R] [CI] 不要在最小构建中测试 DuckDB
- ARROW-13543 - [R] 处理 summarize() 参数为 0 或没有聚合函数的情况
- ARROW-13556 - [C++] 在 Ubuntu 21.04 上,使用系统库的 flight 没有链接到 libprotobuf
- ARROW-13559 - [CI][C++] test-conda-cpp-valgrind 夜间构建失败
- ARROW-13560 - [R] 允许 Scanner$create() 即使有 arrow_dplyr_querys 也接受 filter / project
- ARROW-13580 - [C++] quoted_strings_can_be_null 仅应用于字符串列
- ARROW-13597 - [C++] [R] ExecNode 工厂名为 source 的项不在注册表中
- ARROW-13600 - [C++] 可能未初始化的警告
- ARROW-13602 - [C++] 测试解引用类型双关指针的编译器警告
- ARROW-13603 - [GLib] GARROW_VERSION_CHECK() 总是返回 false
- ARROW-13605 - [C++] ThreadSanitizer 在 GroupByNode 中发现数据竞争
- ARROW-13608 - [R] 符号初始化似乎依赖于未定义行为
- ARROW-13611 - [C++] 扫描数据集时不强制执行反压
- ARROW-13624 - [R] readr 短类型映射中 T 和 t 反了
- ARROW-13628 - [格式] 添加 MonthDayNano 区间类型
- ARROW-13630 - [CI][C++] Travis s390x CI 作业失败,并阻止了字节序相关代码的验证
- ARROW-13632 - [Python] 过滤切片时,过滤器掩码总是应用于 FixedSizeListArray 开头的元素
- ARROW-13638 - [C++][R] GroupByNode 在 Init/ExecNode_Aggregate keep_alives 未被保持活动状态后访问 FunctionOptions
- ARROW-13639 - [C++] 使用空字典进行连接导致段错误 (TestFilterKernelWithString/0.FilterDictionary 中的 ASan 失败)
- ARROW-13654 - [C++][Parquet] 将 FileMetaData 对象附加到自身会导致内存爆炸
- ARROW-13655 - [C++][Parquet] 使用 Thrift 0.14 读取大型 Parquet 文件可能出现 "MaxMessageSize reached" 错误
- ARROW-13662 - [CI] 使用 pandas 0.24 时,测试 test_extract_datetime_components 失败
- ARROW-13662 - [CI] 使用 pandas 0.24 时,测试 test_extract_datetime_components 失败
- ARROW-13669 - [C++] Variant 的 emplace 方法似乎缺少花括号。
- ARROW-13671 - [Dev] 修复 Arm 64K 页系统上的 conda recipe
- ARROW-13676 - [C++] 将 Arrow 表写入 Parquet 文件时发生核心转储
- ARROW-13681 - [C++] list_parent_indices 只为第一个区块计算
- ARROW-13685 - [C++] 如果存储桶已存在,则无法将数据集写入 S3FileSystem
- ARROW-13689 - [C#] 初始 C# 集成测试
- ARROW-13694 - [R] Arrow 过滤器崩溃(R 会话中止)
- ARROW-13743 - [CI] OSX 作业因 git 和 libcurl 不兼容而失败
- ARROW-13744 - [CI] c++14 和 17 夜间构建作业失败
- ARROW-13747 - [CI][C++] s3fs 测试在 conda-python-pandas 夜间构建作业中失败
- ARROW-13755 - [Python] 允许在保存数据集时在分区中使用 field_names
- ARROW-13761 - [R] arrow::filter() 崩溃(中止 R 会话)
- ARROW-13784 - [Python] 当数组为空但 names 不为空时,Table.from_arrays 应该引发错误
- ARROW-13786 - [R] [CI] 如果 arrow 未构建,则 RCHK 构建不应失败
- ARROW-13788 - [C++] 时间分量提取函数不支持 date32/64
- ARROW-13792 - [Java] 无符号整数向量的 toString 表示不正确
- ARROW-13799 - [R] case_when 错误处理正在捕获字符串
- ARROW-13800 - [R] 使用 divide 而不是 divide_checked
- ARROW-13812 - [C++] Grouper.BooleanKey 中的 Valgrind 失败(未初始化的值)
- ARROW-13814 - [CI] 与 spark master 的夜间集成构建无法编译 spark
- ARROW-13819 - [C++] 构建失败,错误为“'subseconds' 可能在此函数中被使用时未初始化”
- ARROW-13846 - [C++] 修复无效 IPC 文件导致的崩溃 (OSS-Fuzz)
- ARROW-13850 - [C++] 修复无效 Parquet 文件导致的崩溃 (OSS-Fuzz)
- ARROW-13860 - [R] arrow 5.0.0 在写入分组的 data.frame 时抛出错误
- ARROW-13872 - [Java] ExtensionTypeVector 与 RangeEqualsVisitor 不兼容
- ARROW-13876 - [C++] 在计算函数中统一处理 null
- ARROW-13877 - [C++] 为处理列表的计算函数添加了对固定大小列表的支持
- ARROW-13878 - [C++] 在计算函数中添加 fixed_size_binary 支持
- ARROW-13880 - [C++] 计算函数 sort_indices 不支持带时区的时间戳
- ARROW-13881 - [Python] 错误消息显示“请使用使用 gRPC 1.27 或更高版本构建的 Arrow Flight 版本。”,但我正在使用 gRPC 1.39
- ARROW-13882 - [C++] 为更多类型添加计算函数 min_max 支持
- ARROW-13884 - Arrow 5.0.0 无法用 Typescript 4.2.2 编译
- ARROW-13912 - [R] TrimOptions 实现因依赖关系破坏了 test-r-minimal-build
- ARROW-13913 - [C++] 如果调用计算函数 index 时未提供选项,则出现段错误
- ARROW-13915 - [R][CI] R UCRT C++ 捆绑包不完整
- ARROW-13916 - [C++] 在 date32/64 类型上实现 strftime
- ARROW-13921 - [Python][打包] 为 macos wheels 固定最低 setuptools 版本
- ARROW-13940 - [R] 在 Arrow 引擎查询中启用多线程
- ARROW-13961 - [C++] iso_calendar 可能未初始化
- ARROW-13976 - 在 hdfs_internal.cc 中适配 arm 架构 CPU
- ARROW-13978 - [C++] 将 gtest 升级到 1.11 以解决最近 clang 的构建问题
- ARROW-13981 - [Java] VectorSchemaRootAppender 对 BitVector 不起作用
- ARROW-13982 - [C++] 如果一个片段不生成任何批次,异步扫描器会停滞
- ARROW-13983 - [C++] 在 macOS 上使用 NFS 挂载时,fcntl(..., F_RDADVISE, ...) 可能会失败
- ARROW-13996 - [Go][Parquet] 修复行组的文件偏移量
- ARROW-13997 - [C++] 恢复基于 exec node 的查询性能
- ARROW-14001 - [Go] BitmapWriter 中的 AppendBooleans 已损坏
- ARROW-14004 - [Python] to_pandas() 转换为 float 而不是使用 pandas 可空类型
- ARROW-14014 - 解析无效的 trailers 时,FlightClient.ClientStreamListener 不会收到错误通知
- ARROW-14017 - [C++] NULLPTR 未包含在 type_fwd.h 中
- ARROW-14020 - [R] 写入带有列表列的 dataframes 速度慢,并且随着嵌套级别的增加扩展性差
- ARROW-14024 - [C++] ScanOptions::batch_size 在 parquet/IPC 读取器中未被遵守
- ARROW-14026 - [C++] 批预读在 Parquet 扫描器中工作不正常
- ARROW-14027 - [C++][R] 确保 groupers 接受标量输入(原:允许我使用分区字段进行 group_by + summarise())
- ARROW-14040 - [C++] ScanNode.MinimalGroupedAggEndToEnd 中偶发的测试失败
- ARROW-14053 - [C++] AsyncReaderTests.InvalidRowsSkipped 不稳定
- ARROW-14057 - [C++] 升级 aws-c-common 版本
- ARROW-14063 - [R] open_dataset() 对没有标题行的 CSV 文件不起作用
- ARROW-14076 - 无法在 Heroku/Ubuntu 20.04 (focal) 上使用 `red-arrow` gem
- ARROW-14090 - [C++][Parquet] rows_written_ 应该是 int64_t 而不是 int
- ARROW-14103 - [R] [C++] 允许在分组聚合中使用 min/max
- ARROW-14109 - 读取包含重复键的 JSON 时发生段错误
- ARROW-14124 - [R] 在 R <= 3.4 中支持时区
- ARROW-14129 - [C++] 空字典数组在 `unique` 和 `value_counts` 上会崩溃
- ARROW-14139 - [IR] [C++] Table flatbuffer 对象在较旧的 GCC 上编译失败
- ARROW-14141 - [IR] [C++] RelationImpl 中缺少 Join
- ARROW-14156 - [C++] 在某些情况下 StructArray::Flatten 不正确
- ARROW-14162 - [R] 简单的 arrange %>% head 不遵守排序
- ARROW-14173 - [IR] 允许表示带类型的空字面量
- ARROW-14179 - [C++] 在 C 数据接口中导入/导出 UnionArray 的缓冲区计数错误
- ARROW-14192 - [C++][Dataset] 有序扫描中的反压功能损坏
- ARROW-14195 - [R] 修复 ExecPlan 绑定注解
- ARROW-14197 - [C++] Hashjoin + datasets 挂起
- ARROW-14200 - [R] 对日期使用 strftime 不应使用或被时区混淆
- ARROW-14203 - [C++] 修复聚合内核中对 Scalars 的 ExecBatch.length 描述
- ARROW-14204 - [C++] 由于 MatchLike 中缺少 ifdef 保护,导致没有 RE2 的 Arrow 编译失败
- ARROW-14206 - [Go] 修复 ARM 和 s390x 的构建
- ARROW-14206 - [Go] 修复 ARM 和 s390x 的构建
- ARROW-14208 - [C++] 使用 Visual Studio 2019 构建时出错
- ARROW-14210 - [C++] CMAKE_AR 未传递给 bzip2 第三方依赖
- ARROW-14211 - [C++] arrow-compute-hash-join-node-test 中的 Valgrind 和 TSAN 错误
- ARROW-14214 - [Python][CI] wheel-windows-cp36-amd64 夜间构建失败
- ARROW-14216 - [R] 禁用 duckdb 表的自动清理
- ARROW-14219 - [R] [CI] DuckDB valgrind 失败
- ARROW-14220 - [C++] thirdpartyversions 中缺少结尾引号
- ARROW-14221 - [R] [CI] DuckDB 测试在 R < 4.0 上失败
- ARROW-14223 - [C++] 将 google_cloud_cpp_storage 添加到 ARROW_THIRDPARTY_DEPENDENCIES
- ARROW-14224 - [R] [CI] R sanitizer 构建失败
- ARROW-14226 - [R] 处理 n_distinct() 参数不为 1 的情况
- ARROW-14237 - [R] [CI] 在 R <= 3.5 中禁用 altrep
- ARROW-14240 - [C++] nlohmann_json_ep 总是被重新构建
- ARROW-14246 - [C++] build_google_cloud_cpp_storage 中的 find_package(CURL) 失败
- ARROW-14247 - [C++] parquet-arrow-test 中的 Valgrind 错误
- ARROW-14249 - [R] dataframe-to-table 基准测试速度变慢
- ARROW-14252 - [R] 参数部分匹配警告
- ARROW-14255 - [Python] FlightClient.do_action 是一个生成器而不是返回一个生成器。
- ARROW-14257 - [文档][Python] dataset 文档构建失败
- ARROW-14260 - [C++] 使用 vcpkg 和 Visual Studio 2019 时出现 GTest 链接器错误
- ARROW-14283 - [C++][CI] LLVM 13 无法在 macOS GHA 构建中使用
- ARROW-14285 - [C++] 修复在格式化打印有效 IPC 文件数据时发生的崩溃 (OSS-Fuzz)
- ARROW-14299 - [开发][CI] "linux-apt-r" dockerfile 重新安装 Minio
- ARROW-14300 - [R][CI] "test-r-gcc-11" 夜间构建失败
- ARROW-14301 - [C++][CI] "test-ubuntu-20.04-cpp-17" 夜间构建在 GCSFS 测试中崩溃
- ARROW-14302 - [C++] Valgrind 错误
- ARROW-14305 - [C++] arrow-compute-hash-join-node-test 中的 Valgrind 错误
- ARROW-14307 - [R] 读取带有 POSIXct 列的空 feather 文件时崩溃
- ARROW-14313 - [文档][开发] Archery 安装说明不完整
- ARROW-14321 - [R] 转换具有 0 个区块的字典 ChunkedArray 时发生段错误
- ARROW-14340 - [C++] 修复在 apple m1 上的 xsimd 构建错误
- ARROW-14370 - [C++] ASAN CI 作业失败
- ARROW-14373 - [打包][Java] macOS java-jars 构建中缺少 LLVM 依赖
- ARROW-14377 - [打包][Python] 在 macOS wheel 构建中 Python 3.9 安装失败
- ARROW-14381 - [CI][Python] Spark 集成失败
- ARROW-14382 - [C++][Compute] 删除重复的 ThreadIndexer 定义
- ARROW-14392 - [C++] 捆绑的 gRPC 缺少捆绑的 Abseil 包含路径
- ARROW-14393 - [C++] 在源码发布验证期间出现 GTest 链接错误
- ARROW-14397 - [C++] 修复测试工具中的 valgrind 错误
- ARROW-14406 - [Python][CI] 夜间 dask 集成作业失败
- ARROW-14411 - [发布][集成] Go 集成测试在 6.0.0-RC1 中失败
- ARROW-14417 - [R] 连接操作忽略了左侧数据集上的投影
- ARROW-14423 - [Python] 修复 pyproject.toml 中的版本约束
- ARROW-14424 - [打包][Python] 为 python 3.6 禁用 windows wheel 测试
- ARROW-14434 - R 在对带有 DateTime 的数据集进行空选择时崩溃
- PARQUET-2067 - [C++] 重复列的 null_count 和 num_nulls 不正确
- PARQUET-2089 - [C++] RowGroupMetaData file_offset 设置不正确