Apache Arrow 6.0.0 (2021 年 10 月 26 日)
这是涵盖了超过 3 个月开发工作的主要版本。
下载
贡献者
此版本包含来自 88 位不同贡献者的 592 次提交。
58 David Li
56 Antoine Pitrou
46 Neal Richardson
42 Sutou Kouhei
38 Jonathan Keane
34 Krisztián Szűcs
27 Matthew Topol
26 Nic Crane
23 Andrew Lamb
22 Joris Van den Bossche
21 Weston Pace
16 Alessandro Molina
15 Yibo Cai
10 Eduardo Ponce
9 Benson Muite
9 Rok
9 Micah Kornfield
8 liyafan82
8 michalursa
8 Benjamin Kietzman
8 Carlos O'Ryan
8 Ben Chambers
8 Navin
7 Alexander
7 Jiayu Liu
6 Phillip Cloud
5 Dominik Moritz
5 Percy Camilo Triveño Aucahuasi
5 Ian Cook
5 karldw
5 Wakahisa
4 Ruihang Xia
4 Nate Clark
4 Bryan Cutler
4 Dragos Moldovan-Grünfeld
4 Romain Francois
3 Daniël Heres
3 Matthew Turner
3 Sumit
3 Alenka Frim
3 okadakk
3 Laurent Goujon
3 Keith Kraus
3 Rommel Quintanilla
3 Roee Shlomo
2 Boaz
2 Chojan Shang
2 Ilya Biryukov
2 Markus Westerlind
2 Sergii Mikhtoniuk
2 Wang Fenjin
2 baishen
2 Fernando Rodriguez
2 João Pedro
2 Junwang Zhao
2 Takashi Hashida
2 William Butler
2 christian
2 darion.yaphet
2 frank400
2 jreid
2 rvernica
2 Jorge C. Leitao
1 Pachamaltese
1 Itamar Turner-Trauring
1 Projjal Chanda
1 Qingping Hou
1 Hongze Zhang
1 Eric Erhardt
1 ElenaHenderson
1 Sasha Krassovsky
1 Shoichi Kagawa
1 Eduard Tudenhoefner
1 Tahsin Hassan
1 niranda perera
1 Ted Dunning
1 Tim Swast
1 Wes McKinney
1 Dongjoon Hyun
1 Carol (Nichols || Goulding)
1 Christian Williams
1 Felix Yan
1 Andrey Klochkov
1 William Hyun
1 William Malpica
1 Dmitry Kalinkin
1 rodrigojdebem
1 czxrrr
1 wuzhuoming
1 seidl
1 jeremyd2019
1 shanhuuang
1 Dewey Dunnington
1 kharoc
1 lixiang.li
1 Daniel Rodriguez
1 Anthony Louis
1 neil
1 Matt Peterson
1 Kevin Gurney
1 Nathanaël Leaute
1 Kazuaki Ishizaki
1 Jiajun Yao
1 James Bourbeau
补丁提交者
以下 Apache 提交者合并了贡献的补丁到仓库中。
159 Antoine Pitrou
81 Neal Richardson
73 Sutou Kouhei
73 Andrew Lamb
49 Krisztián Szűcs
49 Jonathan Keane
43 David Li
24 Benjamin Kietzman
21 Matt Topol
18 Joris Van den Bossche
17 Micah Kornfield
16 Wakahisa
13 Weston Pace
13 Yibo Cai
7 Praveen
6 Nic Crane
6 Daniël Heres
4 Ian Cook
3 Phillip Cloud
3 Eric Erhardt
3 Bryan Cutler
3 Dominik Moritz
3 QP Hou
2 liyafan82
2 Chao Sun
更新日志
Apache Arrow 6.0.0 (2021-10-26)
新特性和改进
- ARROW-1565 - [C++][Compute] 实现 TopK/BottomK
- ARROW-1568 - [C++] 实现“丢弃空值”内核,返回不含空值的数组
- ARROW-4333 - [C++] 勾勒出计算层中内核和“查询”执行的设计
- ARROW-4700 - [C++] 为 arrow::json::TableReader 添加 DecimalType 支持
- ARROW-5002 - [C++] 实现哈希聚合查询执行节点
- ARROW-5244 - [C++] 审查实验性 / 不稳定的 API
- ARROW-6072 - [C++] 实现 List <-> LargeList 的类型转换
- ARROW-6607 - [Python] 支持从 Pandas 转换时处理 set/list 列
- ARROW-6626 - [Python] 将嵌套的“set”值转换为 Arrow 时作为列表处理
- ARROW-6870 - [C#] 添加对 Dictionary Arrays 和 Dictionary Encoding 的支持
- ARROW-7102 - [Python] 使文件系统与 fsspec 兼容
- ARROW-7179 - [C++][Compute] 合并 fill_null 和 coalesce
- ARROW-7901 - [Integration][Go] 添加 null 类型(和集成测试)
- ARROW-8022 - [C++] 提供或引入 small_vector 实现
- ARROW-8147 - [C++] 将 google-cloud-cpp 添加到 ThirdpartyToolchain
- ARROW-8379 - [R] 调查/修复线程安全问题(尤其是在 Windows 上)
- ARROW-8621 - [Release][Go] 通过创建标签添加模块支持
- ARROW-8780 - [Python] 用于 pyarrow.fs 文件系统的 fsspec 兼容包装器
- ARROW-8928 - [C++] 衡量与 ExecBatchIterator 相关的微性能
- ARROW-9226 - [Python] pyarrow.fs.HadoopFileSystem - 如果可用,从 core-site.xml 或 hdfs-site.xml 中检索选项
- ARROW-9434 - [C++] 在 UnionScalar::value 中存储 type_code 信息
- ARROW-9719 - [Doc][Python] 更好地文档化新的 pa.fs.HadoopFileSystem
- ARROW-10094 - [Python][Doc] 更新 pandas 文档
- ARROW-10415 - [R] 支持 dplyr::distinct()
- ARROW-10898 - [C++] 调查 Table 排序性能
- ARROW-11238 - [Python] 使 SubTreeFileSystem 的打印方法更具信息性
- ARROW-11243 - [C++] 在 CSV 读取器中从字符串解析 time32 并推断
- ARROW-11460 - [R] 如果在 Linux 上存在,则使用系统库
- ARROW-11691 - [Developer][CI] 为基准测试相关的环境变量提供一个整合的 .env 文件
- ARROW-11748 - [C++] 确保 Decimal128 和 Decimal256 的字段采用本机字节序
- ARROW-11828 - [C++] 在 API 中暴露 CSVWriter 对象
- ARROW-11885 - [R] 当 LIBARROW_MINIMAL=true 时关闭部分功能
- ARROW-11981 - [C++][Dataset][Compute] 用 Union ExecNode 替换 UnionDataset
- ARROW-12063 - [C++] 为排序函数添加 null 值位置选项
- ARROW-12181 - [C++][R] test-dataset.R 中的“CSV 数据集”在 RTools 3.5 上失败
- ARROW-12216 - [R] 在 RTools3.5 上主动禁用多线程(32位?)
- ARROW-12359 - [C++] 弃用或移除 FileSystem::OpenAppendStream
- ARROW-12388 - [C++][Gandiva] 在 gandiva 中实现从 varbinary 函数进行数字类型转换
- ARROW-12410 - [C++][Gandiva] 在 Gandiva 中实现 regexp_replace 函数
- ARROW-12479 - [C++][Gandiva] 实现 castBigInt, castInt, castIntervalDay 和 castIntervalYear 额外函数
- ARROW-12563 - 为字符串添加 space、add_months 和 datediff 函数
- ARROW-12615 - [C++] 为 stddev 和 variance 添加处理 NA 的选项
- ARROW-12650 - [Doc][Python] 改进关于处理内存映射文件的文档
- ARROW-12657 - [C++][Python][Compute] 字符串十六进制到数字转换和位移
- ARROW-12669 - [C++] 返回 ListArray 中列表指定索引处元素的内核
- ARROW-12673 - [C++] 为列计数不正确的行配置自定义处理程序
- ARROW-12688 - [R] 使用 DuckDB 查询 Arrow Dataset
- ARROW-12714 - [C++] 字符串标题大小写内核
- ARROW-12725 - [C++][Compute] GroupBy: 仅在键插入哈希表时才将其编码为行格式,以提高性能
- ARROW-12728 - [C++][Compute] 实现 count_distinct/distinct 哈希聚合内核
- ARROW-12744 - [C++][Compute] 添加 rounding 内核
- ARROW-12759 - [C++][Compute] 在 ExecNode 中包装 grouped aggregation
- ARROW-12763 - [R] 优化在 arrange 后使用 head/tail 的 dplyr 查询
- ARROW-12846 - [Release] 改进二进制文件的上传
- ARROW-12866 - [C++][Gandiva] 在 Gandiva 中实现 STRPOS 函数
- ARROW-12871 - [R] 升级到 testthat 3e
- ARROW-12876 - [R] 修复 Raspberry Pi 上的构建标志
- ARROW-12944 - [C++] 字符串首字母大写内核
- ARROW-12946 - [C++] 字符串大小写交换内核
- ARROW-12953 - [C++][Compute] 重构 CheckScalar* 以接受 Datum 参数
- ARROW-12959 - [C++][R] is_null(NaN) 评估为 true 的选项
- ARROW-12965 - [Java] Arrow C 数据接口的 Java 实现
- ARROW-12980 - [C++] 提取 datetime 组件的内核应支持时区
- ARROW-12981 - [R] 仅从 CRAN 安装源代码包
- ARROW-13033 - [C++] 将朴素时间戳本地化到时区(保留时钟时间)的内核
- ARROW-13056 - [Dev][MATLAB] 扩展支持语言的 PR 标签器
- ARROW-13067 - [C++][Compute] 实现整数到小数的类型转换
- ARROW-13089 - [Python] 允许从 Python dict 创建 RecordBatch
- ARROW-13112 - [R] 字符串和其他类型的 altrep 向量
- ARROW-13132 - [C++] 添加 Scalar 验证
- ARROW-13138 - [C++] 实现从 date 类型对象提取 datetime 组件(年、月、日等)的内核
- ARROW-13141 - [C++][Python] HadoopFileSystem: 是否基于 HADOOP_HOME 环境变量自动设置 CLASSPATH?
- ARROW-13163 - [C++][Gandiva] 在 Gandiva 中实现 REPEAT 函数
- ARROW-13164 - [R] 从包含 null 值的 Array 创建 altrep 向量
- ARROW-13172 - [Java] 将 Vector 中的 TYPE_WIDTH 设为 public
- ARROW-13174 - [C++][Compute] 添加 strftime 内核
- ARROW-13202 - [MATLAB] 为 Linux 上的 MATLAB 接口启用 GitHub Actions CI
- ARROW-13218 - [Doc] 文档化/阐明时间戳存储的约定
- ARROW-13220 - [C++] 添加一个 ‘choose’ 内核/scalar 计算函数
- ARROW-13222 - [C++] 在 case_when 函数中支持变长类型
- ARROW-13227 - [C++][Compute] 文档化 ExecNode, ExecPlan
- ARROW-13257 - [Java][Dataset] 允许为投影传递空列
- ARROW-13260 - [Doc] 托管不同发布版本的文档 + 版本切换器
- ARROW-13268 - [C++][Compute] 为 semi 和 anti-semi join 添加 ExecNode
- ARROW-13279 - [R] 在 wday 实现中使用 C++ DayOfWeekOptions 而非通过 Expression 手动计算
- ARROW-13287 - [C++] [Dataset] FileSystemDataset::Write 应使用异步扫描
- ARROW-13295 - [C++] 实现 hash_aggregate mean/stdev/variance 内核
- ARROW-13298 - [C++] 实现 hash_aggregate any/all 布尔内核
- ARROW-13307 - [C++] 移除基于反射的枚举(原:为计算选项使用基于反射的枚举)
- ARROW-13311 - [C++][Documentation] 在某处列出哈希聚合内核
- ARROW-13317 - [Python] 改进关于 ‘use_threads’ 在 ‘read_feather’ 中的作用的文档
- ARROW-13326 - [R] [Archery] 向开发 CI 添加 linting
- ARROW-13327 - [Python] 提高 PyArrow 文件中显式 C++ 类型的一致性
- ARROW-13330 - [Go][Parquet] 添加编码包 第 2 部分
- ARROW-13344 - [R] ExecPlan/ExecNode 的初始绑定
- ARROW-13345 - [C++] 实现 logN 计算函数
- ARROW-13358 - [C++] 扩展对 if_else 内核的类型支持
- ARROW-13379 - [Dev][Docs] 改进 archery 文档
- ARROW-13390 - [C++] 改进对 ‘coalesce’ 内核的类型支持
- ARROW-13397 - [R] 更新 arrow.Rmd vignette
- ARROW-13399 - [R] 更新 dataset.Rmd vignette
- ARROW-13402 - [R] 更新 flight.Rmd vignette
- ARROW-13403 - [R] 更新 developing.Rmd vignette
- ARROW-13404 - [Python] [Doc] 减少 Python 登录页与 Arrow 文档其余部分的耦合
- ARROW-13405 - [Doc] 将“库”设为文档的入口点
- ARROW-13416 - [C++] 实现 mod 计算函数
- ARROW-13420 - [JS] 更新依赖
- ARROW-13421 - [C++] 添加功能,支持从以逗号作为小数分隔符的定界文件中读取列为浮点数
- ARROW-13433 - [R] 从 Valgrind 测试中移除 CLI hack
- ARROW-13434 - [R] 使用未命名表达式的 group_by()
- ARROW-13435 - [R] 添加函数 arrow_table() 作为 Table$create() 的别名
- ARROW-13444 - [C++] 通过将 std::result_of 更新为 std::invoke_result 来实现 C++20 兼容性
- ARROW-13448 - [R] strftime 的绑定
- ARROW-13453 - [R] DuckDB 尚未发布 0.2.8 版本
- ARROW-13455 - [C++][Docs] RecordBatch::SetColumn 中的拼写错误
- ARROW-13458 - [C++][Docs] RecordBatch::schema 中的拼写错误
- ARROW-13459 - [C++][Docs] RecordBatch::SetColumn 缺少参数文档
- ARROW-13461 - [Python][Packaging] 为 python 3.8 构建 M1 wheels
- ARROW-13463 - [Release][Python] 验证 python 3.8 macOS arm64 wheel
- ARROW-13465 - [R] 从 duckdb 的 to_arrow()
- ARROW-13466 - [R] 如果无法安装 Arrow C++ 依赖项,则使安装失败
- ARROW-13468 - [Release] 修复二进制文件下载/上传失败问题
- ARROW-13472 - [R] 移除 .engine = “duckdb” 参数
- ARROW-13475 - [Release] 清理旧版本时不要考虑 rust tarballs
- ARROW-13476 - [Doc][Python] 确保 ipc/io 文档使用上下文管理器而不是手动关闭流
- ARROW-13478 - [Release] 版本 bumping post-release 脚本中不必要的 rc-number 参数
- ARROW-13480 - [C++] [R] [Python] Dataset SyncScanner 可能会在出错时冻结
- ARROW-13482 - [C++][Compute] 为 ExecNode 实现提供一个注册表
- ARROW-13485 - [Release] 在 r/NEWS.md 中将 ${PREVIOUS_RELEASE}.9000 替换为 post-12-bump-versions.sh
- ARROW-13488 - [Website] 更新 5.0.0 版本的 Linux 包安装信息
- ARROW-13489 - [R] 在 5.0.0 后更新 CI 作业
- ARROW-13501 - [R] count 聚合的绑定
- ARROW-13502 - [R] min/max 聚合的绑定
- ARROW-13503 - [GLib][Ruby][Flight] 添加对 DoGet 的支持
- ARROW-13506 - 将 ORC 升级到 1.6.9
- ARROW-13508 - [C++] 允许将自定义 RetryStrategy 对象传递给 S3FileSystem
- ARROW-13510 - [CI][R][C++] 将 -Wall 添加到 fedora-clang-devel 的 as-cran 检查中
- ARROW-13511 - [CI][R] 如果 R 依赖项未能安装,则在 docker 构建步骤中失败
- ARROW-13516 - [C++] Mingw-w64 + Clang (lld) 不支持 –version-script
- ARROW-13519 - [R] 减少文档示例的冗余输出
- ARROW-13520 - [C++] 实现 hash_aggregate 近似分位数内核
- ARROW-13521 - [C++][Docs] 在计算函数文档中添加关于 tdigest 的说明
- ARROW-13525 - [Python] 在 ParquetDataset 属性的弃用消息中提及替代方案
- ARROW-13528 - [R] mean, var, sd 聚合的绑定
- ARROW-13532 - [C++][Compute] Join: 向 grouper 添加集合成员测试方法
- ARROW-13534 - [C++] 改进 csv 分块器
- ARROW-13540 - [C++][Compute] 为 ExecPlan 中的行排序添加 OrderByNode
- ARROW-13541 - [C++][Python] 实现 ExtensionScalar
- ARROW-13542 - [C++][Compute][Dataset] 添加 dataset::WriteNode 用于将 ExecPlan 中的行写入磁盘
- ARROW-13544 - [Java] 移除已弃用很长时间的 API
- ARROW-13544 - [Java] 移除已弃用很长时间的 API
- ARROW-13544 - [Java] 移除已弃用很长时间的 API
- ARROW-13548 - [C++] 实现 datediff 内核
- ARROW-13549 - [C++] 实现提取值的 timestamp 到 date/time 类型转换
- ARROW-13550 - [R] 支持 dplyr::summarize() 的 .groups 参数
- ARROW-13552 - [C++] 移除已弃用的 API
- ARROW-13557 - [Packaging][Python] 在 M1 上跳过 test_cancellation 测试用例
- ARROW-13561 - [C++] 实现接受 WeekOptions 的 week 内核
- ARROW-13562 - [R] Styler 后续改进
- ARROW-13565 - [Packaging][Ubuntu] 停止支持 20.10
- ARROW-13572 - [C++][Python] 为 pyarrow.datasets API 添加基本的 ORC 支持
- ARROW-13573 - [C++] 在 case_when 内核中直接支持字典
- ARROW-13574 - [C++] 为 count (hash) 聚合内核添加 ‘count all’ 选项
- ARROW-13575 - [C++] 实现 product aggregate 和 hash aggregate 内核
- ARROW-13576 - [C++][Compute] 用 ::MakeTask 替换 ExecNode::InputReceived
- ARROW-13577 - [Python][FlightRPC] pyarrow 客户端 write_table 后的 do_put close 方法未抛出 flight 错误
- ARROW-13585 - [GLib] 添加对 C ABI 接口的支持
- ARROW-13587 - [R] 处理 –use-LTO 覆盖
- ARROW-13595 - [C++] 为计算内核输出类型添加调试模式检查
- ARROW-13604 - [Java] 移除表示不支持操作的 API 的弃用注解
- ARROW-13606 - [R] 实际禁用 LTO
- ARROW-13613 - [C++] 实现对小数的 sum/mean 聚合
- ARROW-13614 - [C++] 实现对小数的 min_max 聚合
- ARROW-13618 - [R] 默认使用 Arrow 引擎进行 summarize()
- ARROW-13620 - [R] n_distinct() 的绑定
- ARROW-13626 - [R] log base b 的绑定
- ARROW-13627 - [C++] ScalarAggregateOptions 没有意义(在哈希聚合中)
- ARROW-13629 - [Ruby] 添加构建/转换 map 的支持
- ARROW-13633 - [Packaging][Debian] 添加对 bookworm 的支持
- ARROW-13634 - [R] 更新 nixlibs.R 中的 distro() 以将“bookworm”映射到 12
- ARROW-13635 - [Packaging][Python] 在 arm manylinux 构建中为 jemalloc 定义 –with-lg-page
- ARROW-13637 - [Python][Doc] 使 docstrings 符合相同的风格
- ARROW-13642 - [C++][Compute] 实现多对多内部哈希连接
- ARROW-13645 - [Java] 允许 NullVectors 具有不同的字段名
- ARROW-13646 - [Go][Parquet] 添加 Metadata 包
- ARROW-13648 - [Dev] 尽可能使用 #!/usr/bin/env 而不是 #!/bin
- ARROW-13650 - [C++] 创建数据集写入器以封装数据集写入逻辑
- ARROW-13651 - [Ruby] 添加支持将 [Symbol] 转换为 Arrow array
- ARROW-13652 - [Python] 在 Python 中暴露 CopyFiles 工具
- ARROW-13660 - [C++][Compute] 移除 `seq` 作为 ExecNode::InputReceived 的参数
- ARROW-13670 - [C++] 进行一轮编译器警告清理
- ARROW-13674 - [Dev][CI] PR 检查工作流应检查 JIRA 组件
- ARROW-13675 - [Doc][Python] 在 Cookbook 中添加如何保存分区数据集的示例
- ARROW-13679 - [GLib][Ruby] 添加对 group aggregation 的支持
- ARROW-13680 - [C++] 创建一个异步 nursery 以简化捕获逻辑
- ARROW-13682 - [C++] 添加 TDigest::Merge(const TDigest&)
- ARROW-13684 - [C++][Compute] Strftime 内核后续工作
- ARROW-13686 - [Python] 更新已弃用的 pytest yield_fixture 函数
- ARROW-13687 - [Ruby] 添加通过 Arrow Dataset 加载表的支持
- ARROW-13691 - [C++] 为 VarianceOptions 添加处理 NA 的选项
- ARROW-13693 - [Website] arrow-site 应指定一个特定的 Ruby 版本并利用 rbenv 等工具
- ARROW-13696 - [Python] 支持带有 Fields 的 MapType
- ARROW-13699 - [Python][Doc] 重构文件系统接口文档
- ARROW-13700 - [Docs][C++] 阐明 DayOfWeekOptions 参数
- ARROW-13702 - [Python] test_parquet_dataset_deprecated_properties 缺少 dataset 标记
- ARROW-13704 - [C#] 添加支持读取流格式 delta 字典
- ARROW-13705 - [Website] 锁定 node 版本
- ARROW-13721 - [Doc][Cookbook] 指定 Schema - Python
- ARROW-13733 - [Java] 允许 JDBC 适配器重用 vector schema roots
- ARROW-13734 - [Format] 阐明时间类型允许的值
- ARROW-13736 - [C++] 协调 PrettyPrint 和 StringFormatter
- ARROW-13737 - [C++] 在哈希聚合中支持标量列(原:scalar 列上的 hash_sum 导致段错误)
- ARROW-13739 - [R] 支持 dplyr::count() 和 tally()
- ARROW-13740 - [R] summarize() 不应急切求值
- ARROW-13757 - [R] 修复 CRAN 补丁版本 C++ 源代码下载问题
- ARROW-13759 - [C++] 更新 linting 和格式化脚本,在 shebang 行中指定 python3
- ARROW-13760 - [C++] 启用 Flight 时,将 Protobuf 版本升级到 3.15
- ARROW-13764 - [C++] 为 count_distinct (grouped) 实现 ScalarAggregateOptions
- ARROW-13768 - [R] 允许 JSON 成为可选组件
- ARROW-13772 - [R] median() 和 quantile() 聚合函数的绑定
- ARROW-13776 - [C++] 离线 thirdparty versions.txt 缺少某些文件的扩展名
- ARROW-13777 - [R] 只要只有标量函数,group_by 后的 mutate 应该是可以的
- ARROW-13778 - [R] 处理复杂的 summarize 表达式
- ARROW-13782 - [C++] 为 TDigest, Index, Mode, Quantile 聚合添加处理 NA 的选项
- ARROW-13783 - [Python] 改进 Table.to_string(以及可能 __repr__)以同时预览表的数据
- ARROW-13785 - [C++] ExecPlan 和 ExecNode 的打印方法
- ARROW-13787 - [C++] 验证第三方下载
- ARROW-13789 - [Go] 为 Go 实现 Arrow Scalar 值
- ARROW-13793 - [C++] 将 ORCFileReader 迁移到 Result<T>
- ARROW-13794 - [C++] 弃用 Parquet 伪版本“2.0”
- ARROW-13797 - [C++] 在 Datasets API 中实现列投影下推到 ORC 读取器
- ARROW-13803 - [C++] 过滤 taxi 数据集时出现段错误
- ARROW-13804 - [Go] 添加对间隔类型 Month, Day, Nano 的支持
- ARROW-13806 - [Python] 添加 Month, Day Nano 间隔类型与 Pandas/Python 之间的相互转换
- ARROW-13809 - [C ABI] 为 C-ABI 添加对 Month, Day, Nanosecond 间隔类型的支持
- ARROW-13810 - [C++][Compute] 谓词 IsAsciiCharacter 允许无效类型和值
- ARROW-13815 - [R] 适应 rlang 中新的调用栈变化
- ARROW-13816 - [Go] 实现 C 数据接口的 Consumer API
- ARROW-13820 - [R] 将 na.min_count 重命名为 min_count,将 na.rm 重命名为 skip_nulls
- ARROW-13821 - [R] 在 sd, var 绑定中处理 na.rm
- ARROW-13823 - 将 .factorypath 从 git 和 RAT plugin 中排除
- ARROW-13824 - [C++][Compute] 使 BooleanToNumber 内核 constexpr 化
- ARROW-13831 - [GLib][Ruby] 添加通过 Arrow Dataset 写入的支持
- ARROW-13835 - [Python] 文档化用于统一 schema 的工具
- ARROW-13842 - [C++] 升级引入的 date 库版本
- ARROW-13843 - [C++][CI] 在 fuzzing setup 中练习 ToString / PrettyPrint
- ARROW-13845 - [C++] 协调 RandomArrayGenerator::ArrayOf 变体
- ARROW-13847 - 避免不必要的集合复制
- ARROW-13849 - [C++] 添加 min 和 max 聚合函数
- ARROW-13852 - [R] 在 ExecPlan 中处理 Dataset schema 元数据
- ARROW-13853 - [R] 字符串 to_title, to_lower, to_upper 内核
- ARROW-13855 - [C++][Python] 添加导出扩展类型的支持
- ARROW-13857 - [R][CI] 移除 checkbashisms 下载
- ARROW-13859 - [Java] 添加代码覆盖率支持
- ARROW-13866 - [R] 为通过 list_compute_functions 可用的所有计算内核实现 Options
- ARROW-13869 - [R] 为未绑定的 MatchSubstringOptions 内核实现选项
- ARROW-13871 - [C++] 如果 list array 键在一个 chunk 中存在但在后续 chunk 中不存在,JSON 读取器可能会失败
- ARROW-13874 - [R] 实现 TrimOptions
- ARROW-13883 - [Python] 创建数组时,允许使用 numpy.array 以外的类型作为 mask
- ARROW-13890 - [R] 拆分 test-dataset.R 和 test-dplyr.R
- ARROW-13893 - [R] 使数据集和查询上的 head/tail 延迟执行
- ARROW-13897 - [Python] TimestampScalar.as_py() 和 DurationScalar.as_py() 文档不准确地描述了返回类型
- ARROW-13898 - [C++][Compute] 添加对字符串二进制转换的支持
- ARROW-13899 - [Ruby] 通过计算内核实现切片器
- ARROW-13901 - [R] 实现 IndexOptions
- ARROW-13904 - [R] 实现 ModeOptions
- ARROW-13905 - [R] 实现 ReplaceSliceOptions
- ARROW-13906 - [R] 实现 PartitionNthOptions
- ARROW-13908 - [R] 实现 ExtractRegexOptions
- ARROW-13909 - [GLib] 添加 GArrowVarianceOptions
- ARROW-13909 - [GLib] 添加 GArrowVarianceOptions
- ARROW-13910 - [Ruby] Arrow::Table#[]/Arrow::RecordBatch#[] 接受 Range 和 selectors
- ARROW-13919 - [GLib] 添加 GArrowFunctionDoc
- ARROW-13924 - [R] stringr::str_starts, stringr::str_ends, base::startsWith 和 base::endsWith 的绑定
- ARROW-13925 - [R] 移除系统安装 devdocs 作业
- ARROW-13927 - [R] 将 Karl 添加到包的贡献者列表
- ARROW-13928 - [R] 重命名版本任务以使其更清晰
- ARROW-13937 - [C++][Compute] 为 sign 函数添加显式输出值并修复一元类型检查
- ARROW-13942 - [Dev] cmake_format autotune 不起作用
- ARROW-13944 - [C++] 将 xsimd 升级到最新版本
- ARROW-13958 - [Python] 迁移 Python ORC 绑定以使用新的基于 Result 的 API
- ARROW-13959 - [R] 更新从 date32 对象提取组件的测试
- ARROW-13962 - [R] 更新 NEWS 文件
- ARROW-13963 - [Go] 将 Parquet 中的位图读取器/写入器实现转移到 Arrow bituil 包
- ARROW-13964 - [Go] 移除 Parquet 位图读取器/写入器实现并使用共享的 arrow bitutils 版本
- ARROW-13965 - [C++] parquet TypedColumnWriterImpl 中的 dynamic_casts 影响性能
- ARROW-13966 - [C++] decimal 类型的比较 kernel(s)
- ARROW-13967 - [Go] 为 Arrays 实现 Concatenate 函数
- ARROW-13973 - [C++] 添加 SelectKSinkNode
- ARROW-13974 - [C++] 解决 TopK/BottomK 的后续评审意见
- ARROW-13975 - [C++][Compute] 为 round 函数添加 decimal 支持
- ARROW-13977 - [Format] 澄清 interval 类型的闰秒和闰日
- ARROW-13979 - [Go] 为 Go 测试启用 -race 参数
- ARROW-13990 - [R] round kernels 的绑定
- ARROW-13994 - [Doc][C++] 构建文档遗漏了 git submodule update
- ARROW-13995 - [R] join node 的绑定
- ARROW-13999 - [C++][CI] 必须安装 Make 才能在 MinGW 上构建 LZ4
- ARROW-14002 - [Python] unify_schema 也应该接受 tuples
- ARROW-14003 - [C++][Python] 在 "select_k_unstable" kernel 中不提供 sort_key 会崩溃
- ARROW-14005 - [R] 修复 PartitionNthOptions 的测试,使其能够在各种平台上运行
- ARROW-14006 - [C++][Python] 支持将 naive timestamps 转换为字符串
- ARROW-14007 - [C++] 修复 decimal promotion machinery 中的编译器警告
- ARROW-14008 - [R][Compute] ExecPlan_run 应该返回 RecordBatchReader 而不是 Table
- ARROW-14009 - [C++] 确保 SourceNode 真正并行地向 plan 馈送批次
- ARROW-14012 - [Python] 更新 compute 文档中的 kernel 类别以匹配 C++
- ARROW-14013 - [C++][Docs] Fedora Linux 上的安装说明
- ARROW-14016 - [C++] 目录分区使用了错误的 type_name
- ARROW-14019 - [R] expect_dplyr_equal() 测试辅助函数忽略分组
- ARROW-14023 - [Ruby] Arrow::Table#slice 接受 Hash
- ARROW-14025 - [R][C++] 通过 exec nodes 扫描 parquet 时未启用 PreBuffer
- ARROW-14030 - [GLib] 使用基于 arrow::Result 的 ORC API
- ARROW-14031 - [Ruby] 分别使用 min 和 max
- ARROW-14033 - [Ruby][Doc] 为 Red Arrow 添加 macOS 开发指南
- ARROW-14033 - [Ruby][Doc] 为 Red Arrow 添加 macOS 开发指南
- ARROW-14035 - [C++][Compute] 实现非哈希 count_distinct 聚合 kernel
- ARROW-14036 - [R] 没有分组的 n_distinct() 绑定
- ARROW-14043 - [Python] 在 dictionary array 中添加对无符号索引的支持?
- ARROW-14044 - [R] 在 summarize 中处理 group_by .drop 参数
- ARROW-14049 - [C++][Java] 将 ORC 升级到 1.7.0
- ARROW-14050 - [C++] tdigest, quantile 在不跳过 nulls 时返回空数组
- ARROW-14052 - [C++] 添加 appx_median, hash_appx_median 函数
- ARROW-14054 - [C++][Docs] 改进 row_conversion_example.cpp 的清晰度
- ARROW-14055 - [Docs] 为文档添加 canonical url
- ARROW-14056 - [C++][Doc] 提及 ArrayData
- ARROW-14061 - [Go] 添加 Cgo Arrow Memory Pool Allocator
- ARROW-14062 - [Format] compute IR 的初步 arrow-internal 规范
- ARROW-14064 - [CI] 使用 Debian 11
- ARROW-14069 - [R] 默认情况下,在 list_compute_functions() 中过滤掉哈希函数
- ARROW-14070 - [C++][CI] 移除对 VisualStudio 2015 的支持
- ARROW-14072 - [GLib][Parquet] 添加通过元数据获取行数的功能
- ARROW-14073 - [C++] 去除重复的排序键
- ARROW-14084 - [GLib][Ruby][Dataset] 添加从目录扫描的支持
- ARROW-14088 - [GLib][Ruby][Dataset] 添加 filter 支持
- ARROW-14106 - [Go][C] 实现导出 C 数据接口
- ARROW-14107 - [R][CI] Windows CI 作业并行化
- ARROW-14111 - [C++] 添加对 time32/time64 的提取函数支持
- ARROW-14116 - [C++][Docs] WriteCSV 示例中使用一致的变量名
- ARROW-14127 - [C++][Docs] 使用 compute 函数和输出的示例
- ARROW-14128 - [Go] 为嵌套类型实现 MakeArrayFromScalar
- ARROW-14132 - [C++] 在 CSV chunker 测试中测试混合引用和转义
- ARROW-14135 - [Python] 缺失 compute kernels 的 Python 测试
- ARROW-14140 - [R] 从 R 元数据中跳过 arrow_binary/arrow_large_binary 类
- ARROW-14143 - [IR] [C++] 向 IR 添加显式 cast 节点
- ARROW-14146 - [Dev] 更新 merge 脚本以在 shebang 行中指定 python3
- ARROW-14150 - [C++] 如果 quoting 为 false,在 CSV chunker 中跳过 delimiter 检查
- ARROW-14155 - [Go] 添加创建数据类型和标量指纹/哈希的函数
- ARROW-14157 - [C++] 在 ThirdpartyToolchain 中重构 Abseil 构建
- ARROW-14165 - [C++] 提高 table 排序性能 #2
- ARROW-14178 - [C++] Boost 下载位置已更改
- ARROW-14180 - [Packaging] 添加对 AlmaLinux 8 的支持
- ARROW-14189 - [Docs] 在 sphinx docs 中添加版本下拉菜单
- ARROW-14191 - [C++][Dataset] Dataset 写入应遵循背压
- ARROW-14194 - [Docs] 改善 sphinx API docs 中的垂直间距
- ARROW-14198 - [Java] 升级 Netty 和 gRPC 依赖
- ARROW-14207 - [C++] 添加捆绑 Boost 目标缺失的依赖项
- ARROW-14212 - [GLib][Ruby] 添加 GArrowTableConcatenateOptions
- ARROW-14217 - [Python][CI] 添加对 python 3.10 的支持
- ARROW-14222 - [C++] 创建 GcsFileSystem 骨架
- ARROW-14228 - [R] 允许创建可空字段
- ARROW-14230 - [C++] 弃用 ArrayBuilder::Advance
- ARROW-14232 - [C++] 更新 crc32c 依赖到 1.1.2
- ARROW-14235 - [C++][Compute] 如果未提供 label,则使用节点计数器作为 label
- ARROW-14236 - [C++] 为 CI 构建安装 GCS testbench
- ARROW-14239 - [R] 不使用 rlang::as_label
- ARROW-14241 - [C++] Dataset ORC 构建在 java-jars nightly build 中失败
- ARROW-14243 - [C++] 拆分 vector_sort.cc
- ARROW-14244 - [C++] 调查 scalar_temporal.cc 编译速度
- ARROW-14258 - [R] 警告如果 SF 列被制成 table
- ARROW-14259 - [R] 将 R vector 转换为 Array 当 R vector 是 altrep 时
- ARROW-14261 - [C++] Includes 应该按字母顺序排列
- ARROW-14269 - [C++] 合并 utf8 benchmark
- ARROW-14274 - [C++] 升级 vendored base64 代码
- ARROW-14284 - [C++][Python] 改进在需要 async 时尝试使用 SyncScanner 的错误消息
- ARROW-14291 - [CI][C++] 将 cpp/examples/ 文件添加到 lint 目标
- ARROW-14295 - [Doc] 指出 archery 的位置
- ARROW-14296 - [Go] 更新 flatbuf 生成的代码
- ARROW-14304 - [R] 更新 6.0.0 的 news
- ARROW-14309 - [Python] CompressedInputStream 不支持 str 或 file objects
- ARROW-14317 - [Doc] 更新实现状态
- ARROW-14326 - [Docs] 将 C/GLib 和 Ruby 添加到 C Data/Stream interface 支持的库列表
- ARROW-14327 - [Release] 从 packaging group 中移除 conda-*
- ARROW-14335 - [GLib][Ruby] 添加对 expression 的支持
- ARROW-14337 - [C++] 在启用 SIMD 加速时,Arrow 在 M1 上无法构建
- ARROW-14341 - [C++] 完善 decimal benchmark
- ARROW-14343 - [Packaging][Python] 为 M1 wheels 启用 NEON SIMD 优化
- ARROW-14345 - [C++] 为 GCS FileSystem 实现流式读取
- ARROW-14348 - [R] 添加 group_vars.RecordBatchReader 方法
- ARROW-14349 - [IR] 移除 RelBase
- ARROW-14358 - 更新文档中的 CMake 选项
- ARROW-14361 - [C++] 为 ARROW_SIMD_LEVEL 定义 DEFAULT 值
- ARROW-14364 - [CI][C++] 支持 LLVM 13
- ARROW-14368 - [CI] ubuntu-16.04 在 Azure Pipelines 上不可用
- ARROW-14369 - [C++][Python] 使用 g++ 4.8.5 构建失败
- ARROW-14386 - [Packaging][Java] devtoolset 在 manylinux2014 镜像中升级到 10
- ARROW-14387 - [Release][Ruby] 在发布前检查 Homebrew/MSYS2 包版本
- ARROW-14396 - [R][Doc] 移除 write_dataset 中关于列不能重命名的遗留说明
- ARROW-14400 - [Go] Tables 和 Chunked Arrays 的 Equals 和 ApproxEquals
- ARROW-14401 - [C++] 捆绑的 crc32c 的 include 路径错误
- ARROW-14402 - [Release][Yum] RPM 签名失败
- ARROW-14404 - [Release][APT] 跳过 arm64 Debian GNU/Linux bookwarm 验证
- ARROW-14408 - [Packaging][Crossbow] 跳过 artifact pattern 验证的选项
- ARROW-14410 - [Python][Packaging] 使用 numpy 1.21.3 构建 macOS 和 windows 的 python 3.10 wheels
- ARROW-14452 - [Release][JS] 更新 Javascript 测试
- PARQUET-490 - [C++] 将 DELTA_BINARY_PACKED 值编码器并入库并添加单元测试
错误修复
- ARROW-6946 - [Go] 启用 assert build tag 运行测试
- ARROW-8452 - [Go][Integration] Go JSON producer 为嵌套类型生成错误的 nullable 标志
- ARROW-8453 - [Integration][Go] 不支持递归嵌套类型
- ARROW-8999 - [Python][C++] "AMD64 MacOS 10.15 Python 3.7" 构建中出现非确定性 segfault
- ARROW-9948 - [C++] Decimal128 在 rescale 时未检查 scale 范围;可能导致缓冲区溢出
- ARROW-10213 - [C++] Temporal cast 从 timestamp 到 date 是四舍五入而不是提取日期组件
- ARROW-10373 - [C++] ValidateFull() 未验证 null_count
- ARROW-10773 - [R] Windows 上 parallel as.data.frame.Table 无限期挂起
- ARROW-11518 - [C++] [Parquet] 读取 boolean 列时 Parquet reader 崩溃
- ARROW-11579 - [R] Windows 上 read_feather 挂起
- ARROW-11634 - [C++][Parquet] dictionary 列的 Parquet statistics (min/max) 不正确
- ARROW-11729 - [R] 向 datasets 文档添加示例
- ARROW-12011 - [C++][Python] 转换大整数到 dates 时崩溃并结果不正确
- ARROW-12072 - (ipc.Writer).Write 在 `arrow/array: index out of range` 时 panic
- ARROW-12087 - [C++] 修复 sort_indices, array_sort_indices timestamp 支持差异
- ARROW-12513 - [C++][Parquet] Parquet Writer 对于包含 nulls 的 dictionary-encoded array 始终在 Parquet statistics 中设置 null_count=0
- ARROW-12540 - [C++] 实现从 date32[day] 到 utf8 的 cast
- ARROW-12636 - [JS] ESM Tree-Shaking 产生错误的代码
- ARROW-12700 - [R] Write_feather 在写坏后一直卡住,R, Win32
- ARROW-12837 - [C++] Array::ToString() 在 null buffer 时 segfault
- ARROW-13134 - [C++] aws-sdk-cpp 1.9.51 导致 SSL 相关的 arrow-s3fs-test 失败
- ARROW-13151 - [Python] 无法从 Parquet 读取 struct 列的单个子字段
- ARROW-13198 - [C++][Dataset] Async scanner 在 CI 中偶尔出现 segfault
- ARROW-13293 - [R] open_dataset 后接 collect 挂起 (而 compute 工作正常)
- ARROW-13304 - [C++] 由于 day of week 选项,无法在 Ubuntu 21.04 上安装 nightly build
- ARROW-13336 - [Doc][Python] make clean 未清理 "generated" 文档
- ARROW-13422 - [R] 澄清 README 中关于 Windows 上 S3 支持的说明
- ARROW-13424 - [C++] conda-forge benchmark 库被拒绝
- ARROW-13425 - [Dev][Archery] Archery import pandas,进而 import pyarrow
- ARROW-13429 - [C++][Gandiva] 编译 binary 类型的 If-else 表达式时 Gandiva 崩溃
- ARROW-13430 - [Integration][Go] 集成测试中的各种错误
- ARROW-13436 - [Python][Doc] 澄清 read_table 传递空列列表时应预期的结果
- ARROW-13437 - [C++] FixedSizeList 的 slice 无法通过 ValidateFull
- ARROW-13441 - [CSV] Streaming reader 转换应跳过空块
- ARROW-13443 - [C++] 修复 flatbuf::MetadataVersion 到 arrow::ipc::MetadataVersion 的不正确映射
- ARROW-13445 - [Java][Packaging] 修复 Java jars 的 artifact patterns
- ARROW-13446 - [Release] 修复 amazon linux 上的验证
- ARROW-13447 - [Release] arm64 和 universal2 macOS wheels 的验证脚本
- ARROW-13450 - [Python][Packaging] 为 universal2 wheels 设置部署目标到 10.13
- ARROW-13469 - [C++] 抑制 DayMilliseconds arrow/type.h 中的 -Wmissing-field-initializers 警告
- ARROW-13474 - [C++][Python] filter/take 空的 Extension array 时 PyArrow 崩溃
- ARROW-13477 - [Release] 向 upload 脚本传递 ARTIFACTORY_API_KEY
- ARROW-13484 - [Release] Amazon Linux 2 的包不可用
- ARROW-13490 - [R] [CI] 需要根据 duckdb 版本限制 duckdb 示例
- ARROW-13492 - [R] [CI] 将 r tools 35 构建移回 per-commit/pre-PR
- ARROW-13493 - [C++] 匿名 union 中的匿名 struct 是 GNU 扩展
- ARROW-13495 - [C++] 写入 dataset 时 BitUtil 中的 UBSAN 错误
- ARROW-13496 - [CI][R] 修复 r-sanitizer 作业
- ARROW-13497 - [C++][R] Aggregation nodes 未使用 FunctionOptions
- ARROW-13499 - [R] expression 上的 Aggregation 没有正确进行 NSE
- ARROW-13500 - [C++] 使用 gcc 9.3 构建时警告:无法识别的命令行选项 ‘-Wno-unknown-warning-option’
- ARROW-13504 - [Python] 使用 pytest markers 无法跳过 s3 或 hdfs 测试
- ARROW-13507 - [R] CRAN 上的 LTO 作业失败
- ARROW-13509 - [C++] Take compute 函数应透传 ChunkedArray 类型以处理空输入数组
- ARROW-13522 - [C++] macOS 上 compute `utf8_*trim` 函数的回归问题
- ARROW-13523 - 统一测试用例名称
- ARROW-13524 - [C++] 修复 ApplicationVersion::VersionEq 的描述
- ARROW-13529 - 写入 slices 时 IPC writer 中释放过多
- ARROW-13538 - [R] [CI] 在 minimal build 中不测试 DuckDB
- ARROW-13543 - [R] 处理 summarize() 没有参数或没有聚合函数的情况
- ARROW-13556 - [C++] 在 Ubuntu 21.04 上使用系统库构建时 flight 未链接 libprotobuf
- ARROW-13559 - [CI][C++] test-conda-cpp-valgrind nightly build 失败
- ARROW-13560 - [R] 允许 Scanner$create() 接受 filter / project 即使使用 arrow_dplyr_querys
- ARROW-13580 - [C++] quoted_strings_can_be_null 仅应用于 string 列
- ARROW-13597 - [C++] ExecNode factory named source 未在 registry 中
- ARROW-13600 - [C++] Maybe uninitialized warnings
- ARROW-13602 - [C++] Tests dereferencing type-punned pointer 编译器警告
- ARROW-13603 - [GLib] GARROW_VERSION_CHECK() 始终返回 false
- ARROW-13605 - [C++] ThreadSanitizer 发现 GroupByNode 中的数据竞争
- ARROW-13608 - [R] symbol 初始化似乎依赖于未定义行为
- ARROW-13611 - [C++] 扫描 datasets 未强制执行背压
- ARROW-13624 - [R] readr 短类型映射中的 T 和 t 反了
- ARROW-13628 - [Format] 添加 MonthDayNano interval 类型
- ARROW-13630 - [CI][C++] Travis s390x CI 作业失败并阻止 endianness 相关代码验证
- ARROW-13632 - [Python] Filter mask 在过滤 slice 时总是应用于 FixedSizeListArray 开头的元素
- ARROW-13638 - [C++][R] Init/ExecNode_Aggregate keep_alives 未保持 alive 后 GroupByNode 访问 FunctionOptions
- ARROW-13639 - [C++] Concatenate 空 dictionary 导致 segfault (ASan failure in TestFilterKernelWithString/0.FilterDictionary)
- ARROW-13654 - [C++][Parquet] 将 FileMetaData 对象附加到自身会导致内存爆炸
- ARROW-13655 - [C++][Parquet] 使用 Thrift 0.14 读取大型 Parquet 文件可能出现 "MaxMessageSize reached" 错误
- ARROW-13662 - [CI] 使用 pandas 0.24 时 failing test test_extract_datetime_components
- ARROW-13662 - [CI] 使用 pandas 0.24 时 failing test test_extract_datetime_components
- ARROW-13669 - [C++] Variant emplace 方法似乎缺少花括号
- ARROW-13671 - [Dev] 修复 Arm 64K page system 上的 conda recipe
- ARROW-13676 - [C++] 将 Arrow table 写入 Parquet 文件时 Coredump
- ARROW-13681 - [C++] list_parent_indices 仅计算第一个 chunk
- ARROW-13685 - [C++] 如果 bucket 已存在,则无法将 dataset 写入 S3FileSystem
- ARROW-13689 - [C#] 初步 C# 集成测试
- ARROW-13694 - [R] Arrow filter 崩溃 (R session 已中止)
- ARROW-13743 - [CI] OSX 作业因 git 和 libcurl 不兼容而失败
- ARROW-13744 - [CI] c++14 和 17 nightly job 失败
- ARROW-13747 - [CI][C++] conda-python-pandas nightly job 中 s3fs 测试失败
- ARROW-13755 - [Python] 保存 datasets 时允许在 partitioning 中使用 field_names
- ARROW-13761 - [R] arrow::filter() 崩溃 (中止 R session)
- ARROW-13784 - [Python] 当 array 为空但 names 不为空时,Table.from_arrays 应抛出错误
- ARROW-13786 - [R] [CI] 如果 arrow 未构建成功,则 RCHK 构建不应失败
- ARROW-13788 - [C++] Temporal component extraction functions 不支持 date32/64
- ARROW-13792 - [Java] unsigned integer vectors 的 toString 表示不正确
- ARROW-13799 - [R] case_when 错误处理捕获了字符串
- ARROW-13800 - [R] 使用 divide 而不是 divide_checked
- ARROW-13812 - [C++] Valgrind 失败在 Grouper.BooleanKey (uninitialized values)
- ARROW-13814 - [CI] Nightly integration build with spark master 无法编译 spark
- ARROW-13819 - [C++] 构建失败,出现 “‘subseconds’ may be used uninitialized in this function” 警告
- ARROW-13846 - [C++] 修复无效 IPC 文件导致的崩溃 (OSS-Fuzz)
- ARROW-13850 - [C++] 修复无效 Parquet 文件导致的崩溃 (OSS-Fuzz)
- ARROW-13860 - [R] arrow 5.0.0 写入 grouped data.frame 时抛出错误
- ARROW-13872 - [Java] ExtensionTypeVector 不适用于 RangeEqualsVisitor
- ARROW-13876 - [C++] compute 函数中的统一 null 处理
- ARROW-13877 - [C++] 添加对处理 lists 的 compute 函数的 fixed sized list 支持
- ARROW-13878 - [C++] 添加 fixed_size_binary 支持到 compute 函数
- ARROW-13880 - [C++] Compute 函数 sort_indices 不支持带时区的 timestamps
- ARROW-13881 - [Python] 错误消息显示 "Please use a release of Arrow Flight built with gRPC 1.27 or higher." 尽管我使用的是 gRPC 1.39
- ARROW-13882 - [C++] 为更多类型添加 compute 函数 min_max 支持
- ARROW-13884 - Arrow 5.0.0 无法与 Typescript 4.2.2 编译
- ARROW-13912 - [R] TrimOptions 实现由于依赖项破坏了 test-r-minimal-build
- ARROW-13913 - [C++] 如果调用 compute function index 时没有提供 options,则 segfault
- ARROW-13915 - [R][CI] R UCRT C++ bundles 不完整
- ARROW-13916 - [C++] 对 date32/64 类型实现 strftime
- ARROW-13921 - [Python][Packaging] 为 macos wheels 锁定最低 setuptools 版本
- ARROW-13940 - [R] 使用 Arrow engine queries 时开启多线程
- ARROW-13961 - [C++] iso_calendar 可能未初始化
- ARROW-13976 - 在 hdfs_internal.cc 中适应 arm 架构 CPU
- ARROW-13978 - [C++] Bump gtest 到 1.11 以修复与最新 clang 的构建问题
- ARROW-13981 - [Java] VectorSchemaRootAppender 不适用于 BitVector
- ARROW-13982 - [C++] 如果 fragment 没有生成批次,则 Async scanner 会停止
- ARROW-13983 - [C++] fcntl(…, F_RDADVISE, …) 在 macOS NFS mount 上可能失败
- ARROW-13996 - [Go][Parquet] 修复 row groups 的 file offsets
- ARROW-13997 - [C++] 恢复基于 exec node 的查询性能
- ARROW-14001 - [Go] BitmapWriter 中的 AppendBooleans 损坏
- ARROW-14004 - [Python] to_pandas() 转换为 float 而不是使用 pandas nullable types
- ARROW-14014 - FlightClient.ClientStreamListener 在解析无效 trailers 时未收到错误通知
- ARROW-14017 - [C++] type_fwd.h 中未包含 NULLPTR
- ARROW-14020 - [R] 写入带有列表列的数据帧速度较慢,并且随着嵌套级别的增加扩展性变差
- ARROW-14024 - [C++] Parquet/IPC 读取器中未遵循 ScanOptions::batch_size
- ARROW-14026 - [C++] Parquet 扫描器中的批量预读未正常工作
- ARROW-14027 - [C++][R] 确保分组器接受标量输入 (原标题:允许我对分区字段进行 group_by + summarise())
- ARROW-14040 - [C++] ScanNode.MinimalGroupedAggEndToEnd 中出现虚假测试失败
- ARROW-14053 - [C++] AsyncReaderTests.InvalidRowsSkipped 测试不稳定
- ARROW-14057 - [C++] 提升 aws-c-common 版本
- ARROW-14063 - [R] open_dataset() 对没有标题行的 CSV 文件无效
- ARROW-14076 - 无法在 Heroku/Ubuntu 20.04 (focal) 上使用 `red-arrow` gem
- ARROW-14090 - [C++][Parquet] rows_written_ 应为 int64_t 而不是 int
- ARROW-14103 - [R] [C++] 允许在分组聚合中使用 min/max
- ARROW-14109 - 读取带有重复键的 JSON 时发生段错误
- ARROW-14124 - [R] R <= 3.4 中的时区支持
- ARROW-14129 - [C++] 空字典数组在 `unique` 和 `value_counts` 上崩溃。
- ARROW-14139 - [IR] [C++] Table flatbuffer 对象在较旧的 GCC 上编译失败
- ARROW-14141 - [IR] [C++] RelationImpl 中缺少 Join
- ARROW-14156 - [C++] 在某些情况下 StructArray::Flatten 不正确
- ARROW-14162 - [R] 简单的 arrange %>% head 不遵循排序
- ARROW-14173 - [IR] 允许表示带类型 null 字面值
- ARROW-14179 - [C++] C 数据接口中 UnionArray 的导入/导出 buffer 计数错误
- ARROW-14192 - [C++][Dataset] 有序扫描上的背压已损坏
- ARROW-14195 - [R] 修复 ExecPlan 绑定注解
- ARROW-14197 - [C++] Hashjoin + datasets 挂起
- ARROW-14200 - [R] 对日期使用 strftime 时不应使用或被时区混淆
- ARROW-14203 - [C++] 修复 aggregate 内核中 ExecBatch.length 对标量的描述
- ARROW-14204 - [C++] 由于 MatchLike 中缺少 ifdef 保护,在没有 RE2 的情况下编译 Arrow 失败
- ARROW-14206 - [Go] 修复 ARM 和 s390x 的构建
- ARROW-14206 - [Go] 修复 ARM 和 s390x 的构建
- ARROW-14208 - [C++] 使用 Visual Studio 2019 构建时出错
- ARROW-14210 - [C++] CMAKE_AR 未传递给 bzip2 第三方依赖项
- ARROW-14211 - [C++] arrow-compute-hash-join-node-test 中出现 Valgrind 和 TSAN 错误
- ARROW-14214 - [Python][CI] wheel-windows-cp36-amd64 夜间构建失败
- ARROW-14216 - [R] 禁用 duckdb 表的自动清理
- ARROW-14219 - [R] [CI] DuckDB valgrind 失败
- ARROW-14220 - [C++] thirdpartyversions 中缺少结束引号
- ARROW-14221 - [R] [CI] DuckDB 测试在 R < 4.0 上失败
- ARROW-14223 - [C++] 将 google_cloud_cpp_storage 添加到 ARROW_THIRDPARTY_DEPENDENCIES
- ARROW-14224 - [R] [CI] R sanitizer 构建失败
- ARROW-14226 - [R] 处理参数 != 1 的 n_distinct()
- ARROW-14237 - [R] [CI] 在 R <= 3.5 中禁用 altrep
- ARROW-14240 - [C++] nlohmann_json_ep 总是被重复构建
- ARROW-14246 - [C++] build_google_cloud_cpp_storage 中的 find_package(CURL) 失败
- ARROW-14247 - [C++] parquet-arrow-test 中出现 Valgrind 错误
- ARROW-14249 - [R] dataframe 到 table 性能测试变慢
- ARROW-14252 - [R] 参数部分匹配警告
- ARROW-14255 - [Python] FlightClient.do_action 是一个生成器而不是返回一个结果。
- ARROW-14257 - [Doc][Python] dataset 文档构建失败
- ARROW-14260 - [C++] 使用 vcpkg 和 Visual Studio 2019 时出现 GTest 链接器错误
- ARROW-14283 - [C++][CI] LLVM 13 无法用于 macOS GHA 构建
- ARROW-14285 - [C++] 修复打印有效 IPC 文件数据时崩溃的问题 (OSS-Fuzz)
- ARROW-14299 - [Dev][CI] “linux-apt-r” dockerfile 重复安装 Minio
- ARROW-14300 - [R][CI] “test-r-gcc-11” 夜间构建失败
- ARROW-14301 - [C++][CI] “test-ubuntu-20.04-cpp-17” 夜间构建在 GCSFS 测试中崩溃
- ARROW-14302 - [C++] Valgrind 错误
- ARROW-14305 - [C++] arrow-compute-hash-join-node-test 中出现 Valgrind 错误
- ARROW-14307 - [R] 读取带有 POSIXct 列的空 feather 文件时崩溃
- ARROW-14313 - [Doc][Dev] Archery 安装说明不完整
- ARROW-14321 - [R] 转换 chunk 为 0 的字典 ChunkedArray 时发生段错误
- ARROW-14340 - [C++] 修复 apple m1 上的 xsimd 构建错误
- ARROW-14370 - [C++] ASAN CI 作业失败
- ARROW-14373 - [Packaging][Java] macOS java-jars 构建中缺少 LLVM 依赖项
- ARROW-14377 - [Packaging][Python] Python 3.9 在 macOS wheel 构建中安装失败
- ARROW-14381 - [CI][Python] Spark 集成失败
- ARROW-14382 - [C++][Compute] 删除重复的 ThreadIndexer 定义
- ARROW-14392 - [C++] 捆绑的 gRPC 缺少捆绑的 Abseil 包含路径
- ARROW-14393 - [C++] 源发布验证期间出现 GTest 链接错误
- ARROW-14397 - [C++] 修复测试工具中的 valgrind 错误
- ARROW-14406 - [Python][CI] 夜间 dask 集成作业失败
- ARROW-14411 - [Release][Integration] Go 集成测试在 6.0.0-RC1 版本失败
- ARROW-14417 - [R] Join 操作忽略左侧数据集的投影
- ARROW-14423 - [Python] 修复 pyproject.toml 中的版本约束
- ARROW-14424 - [Packaging][Python] 禁用 python 3.6 的 windows wheel 测试
- ARROW-14434 - 对包含 DateTime 的数据集进行空选择时,R 崩溃
- PARQUET-2067 - [C++] 重复列的 null_count 和 num_nulls 不正确
- PARQUET-2089 - [C++] RowGroupMetaData 的 file_offset 设置不正确