Apache Arrow 21.0.0 (2025年7月17日)
这是一个涵盖两个多月开发的主要版本。
下载
贡献者
本次发布包含来自 82 位不同贡献者的 400 次提交。
$ git shortlog -sn apache-arrow-20.0.0..apache-arrow-21.0.0
78 Sutou Kouhei
37 Raúl Cumplido
33 Hiroyuki Sato
30 William Ayd
22 Antoine Pitrou
19 Bryce Mecum
18 Nic Crane
11 Alenka Frim
10 Dewey Dunnington
9 Jacob Wujciak-Jens
9 dependabot[bot]
8 mwish
7 Jonathan Keane
7 Rossi Sun
6 Sarah Gilmore
5 Arash Andishgar
4 Dongjoon Hyun
4 takuya kodama
3 David Li
3 Eddie Chang
3 Enrico Minack
3 Ian Cook
3 Lester Fan
3 Ziy
3 abandy
2 Abhinav
2 David Sherrier
2 Krisztián Szűcs
2 Rok Mihevc
2 gitmodimo
1 Adam Reeve
1 Akum Kang
1 Alina (Xi) Li
1 Anatolii Tsyplenkov
1 Antoine Prouvost
1 Benjamin Kietzman
1 Brian Hulette
1 Bruno
1 Carsten Haubold
1 ChiLin Chiu
1 Colin
1 DenisTarasyuk
1 Eric Dinse
1 Etienne Bacher
1 Even Rouault
1 Gang Wu
1 Guilherme Martins Crocetti
1 Hadrian Reppas
1 HyunWoo Oh
1 Igor Antropov
1 JB Onofré
1 Joshua
1 Junwang Zhao
1 Kevin Gurney
1 Kevin Wilson
1 Kirill Tsyganov
1 Konstantin Malanchev
1 Kyle Hemker
1 Lukas
1 Mateusz Rzeszutek
1 Matt Topol
1 Michael
1 Michael Chirico
1 NazilaAk
1 Patrick Walsh
1 Ranjit Ranjan
1 Roman Karlstetter
1 Saurabh Singh
1 Thomas Newton
1 Tommy Hughes IV
1 Xingyu Long
1 Zihan Qi
1 bw513
1 dawg
1 koenvo
1 leopardracer
1 lriggs
1 neilechao
1 omahs
1 shu-kitamura
1 yuri@FreeBSD
1 yyossy
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-20.0.0..apache-arrow-21.0.0
179 Sutou Kouhei
51 Antoine Pitrou
47 Raúl Cumplido
15 Nic Crane
13 AlenkaF
13 Bryce Mecum
12 Jacob Wujciak-Jens
7 David Li
7 Dewey Dunnington
7 mwish
6 Rossi Sun
5 Curt Hagenlocher
5 Jonathan Keane
5 Sarah Gilmore
4 Rok Mihevc
3 Gang Wu
3 Will Ayd
2 Kevin Gurney
2 Krisztian Szucs
1 Benjamin Kietzman
更新日志
Bug 修复
- GH-32276 - [C++][FlightRPC] 为提供给 IPC 读取器的 RecordBatch 缓冲区添加对齐选项 (#44279)
- GH-35166 - [C++][Compute] 提高 sum 聚合中 decimal 类型的精度 (#44184)
- GH-39811 - [R] 改进 open_delim_dataset 中 col_types 参数的文档 (#45719)
- GH-40756 - [C++] 移除已失效的 Boost URL (#46452)
- GH-43132 - [CI] 修复 pre-commit Rat 检查 (#46541)
- GH-44366 - [Python][Acero] 在表达式上使用 RecordBatch.filter 时,如果结果集为空则引发错误 (#46057)
- GH-44502 - [R] 负小数日期必须通过 floor 而非 trunc 转换为整数 (#46873)
- GH-44910 - [Swift] 修复 IPC 流读取器和写入器的实现 (#45029)
- GH-45292 - [Python] test_dtypes 的 hypothesis 测试会零星失败 (#46029)
-
GH-45532 - [C++]
RunEndEncodedBuilder应在调用Finish()后清除维度信息 (#45533) -
GH-45534 - [C++][测试]
RunEndEncodeTableColumns应更新 REE 列的模式类型 (#45535) - GH-45608 - [C++][Flight] 修复 clang 的编译问题 (#46264)
- GH-45716 - [R][CI] 重构 skip_on_python_older_than 以避免初始化 reticulate (#46079)
- GH-45735 - [C++] 修复 extract_regex 计算函数的损坏测试 (#45900)
- GH-45853 - [C++][Dev] 修复 Docker 构建中的 Meson 编译问题 (#45858)
- GH-46011 - [C++] 从公共头文件中隐藏 DCHECK 系列宏 (#46015)
- GH-46025 - [C++] 对 libarrow_cuda 使用 ARROW_CUDA_EXPORT 而非 ARROW_EXPORT (#46030)
- GH-46052 - [C++][Benchmarking] 在 ARROW_COMPUTE=OFF 时不要构建 grouper 基准测试 (#46053)
-
GH-46065 - [Release] 在
02-source.sh中不要对gh release upload使用--verify-tag(#46066) -
GH-46068 - [Release] 从 05-binary-upload.sh 中移除不必要的
docs:rc任务 (#46069) - GH-46070 - [C++] 移除 JsonExtension 中重复的 storage_type (#46071)
- GH-46080 - [Python][Docs] 为使用 pip 安装时遇到的 tzdata 相关问题提供指导 (#46591)
- GH-46084 - [C++] 始终使用 ARROW_VCPKG 来检测 vcpkg 模式 (#46467)
- GH-46090 - [C++] 在 Meson 中将默认的 IPC 选项设置为启用 (#46114)
- GH-46094 - [C++][Docs] 在 RleDecoder::Get 的文档注释中添加说明 (#46874)
-
GH-46121 - [Python] 为
ArrowReaderProperties::read_dictionary的 Cython 绑定添加缺失的column_index参数 (#46122) - GH-46127 - [CI][Release] 使 02-source.sh 测试在 fork 上也能通过 (#46143)
- GH-46146 - [C++] 在 SchemaBuidler::AddMetadata 中合并元数据 (#46654)
- GH-46149 - [C++] 由于 F_RDADVISE 错误,使用 sshfs-3.7.3 打开数据集失败 (#46346)
- GH-46157 - [C++] 将使用 REE 的测试工具 RunEndEncodeTableColumns 从 common gtest_util 移至 acero 的 test_util_internal (#46161)
- GH-46174 - [Python] python 最小构建中的测试失败 (#46175)
-
GH-46192 - [C++] 将
substrait依赖项添加到第三方下载脚本 (#46191) - GH-46197 - [C++] 测试使用了旧版时区 (#46201)
- GH-46214 - [C++] 改进 S3 客户端初始化 (#46723)
- GH-46224 - [C++][Acero] 修复 asof join 中的挂起问题 (#46300)
-
GH-46231 - [C++][CMake] 修复
arrow_bundled_dependencies,使其可由 FetchContent 从外部访问 (#46232) - GH-46233 - [C++] 修复 QueuedTask 初始化中缺失的嵌套大括号 (#46234)
-
GH-46236 - [Release][Packaging] 修复
dev/release/post-03-binary.sh脚本中的错误 (#46237) -
GH-46238 - [Release][Python] 在
dev/release/post-11-python.sh中使用数组以避免空参数 (#46239) - GH-46240 - [Release][Packaging] 修复现有 APT 仓库元数据丢失的 bug (#46287)
- GH-46242 - [Release] 获取发布时间时不要显示 gpg 签名 (#46243)
- GH-46259 - [CI] 从 mamba info 中移除已弃用的标志 (#46260)
- GH-46262 - [CI][Ruby] 不要更新 MSYS2 的 GCC (#46278)
- GH-46268 - [C++] 改进 ArrayData 的文档字符串 (#46271)
- GH-46270 - [C++][Parquet] 澄清 GeoStatistics 的文档字符串 (#46649)
- GH-46284 - [Release][Packaging] 为 .ddeb 添加缺失的 APT 元数据 (#46288)
- GH-46296 - [Swift] 添加对读取 struct 的支持 (#46302)
-
GH-46299 - [C++][Compute] 不要对默认选项使用
static inline const(#46303) - GH-46304 - [Release][Packaging] 对 .deb 使用优化的调试构建 (#46392)
- GH-46306 - [C++][Parquet] 应为 geo 枚举使用 LoadEnumSafe (#46307)
- GH-46314 - [C++][Parquet] 修复收集 MakeWKBPoint 参数化测试时的 valgrind 错误 (#46320)
- GH-46326 - [C++][Parquet] 修复 rapidjson 值与整数比较时的堆栈溢出问题 (#46327)
-
GH-46333 - [CI] 始终向
mamba clean传递--yes参数 (#46341) -
GH-46333 - [CI] 显式向
mamba clean传递--yes参数 (#46334) - GH-46343 - [CI][Python] 移除针对 gdb 打包问题的临时解决方案 (#46848)
- GH-46343 - [CI] 避免在 python 3.10 作业中安装 gdb 16.3 以修复 CI (#46511)
- GH-46344 - [CI][Python] 跳过 s3.get_file_info 的 doctest 以避免存储桶限制 (#46345)
- GH-46351 - [Archery][Docs] 修复 docker 子命令中的 cli 参数解析 bug (#46352)
- GH-46355 - [Python] 修复对空表调用 table.to_struct_array 的问题 (#46357)
- GH-46359 - [C++][Thirdparty] 将 Apache ORC 版本提升至 2.1.2 (#46360)
- GH-46362 - [CGLib][Packaging] 为 g-ir-scanner 显式使用 -fPIE (#46366)
- GH-46363 - [CI][Packaging] 在 Alpine 上使用 community 仓库的 mono,而非 testing 仓库的 (#46364)
- GH-46394 - [C++][R] CRAN 上的 gcc-UBSAN 错误 (#46397)
- GH-46395 - [C++][Statistics] 在 arrow::ArrayStatistics::Equals() 中为 min 和 max 使用 EqualOptions (#46422)
- GH-46407 - [C++] 修复切片列表数组的 IPC 序列化问题 (#46408)
- GH-46414 - [C++] 修复 GCS 文件系统的 getFileInfo 方法 (#46416)
- GH-46417 - [C++][Parquet] 修复 LoadEnumSafe 中 EdgeInterpolationAlgorithm 的未定义行为 (#46418)
- GH-46419 - [C++] 移除重复声明并同步 acero test_util_internal 函数的参数名称 (#45400)
- GH-46420 - [C++][Dataset] 修复 DatasetWriter 在写入大于 max_rows_queued 的批次时出现的死锁问题 (#46139)
- GH-46424 - [C++][Parquet] 修复错误的单元测试跳过问题 (#46425)
- GH-46435 - [Parquet][C++] 修复写入器测试中未初始化的值 (#46533)
- GH-46442 - [R] hms::as_hms 测试在某些 crossbow 构建中失败 (#46443)
-
GH-46456 - [GLib] 添加缺失的
since:标签 (#46457) - GH-46478 - [C++] 将最近的 JSON 更改应用到 Meson 配置中 (#46479)
- GH-46481 - [C++][Python] 允许 FlightInfo 中的 schema 为空 (#46489)
- GH-46512 - [CI][C++] 在 MSYS2 上显式安装 llvm 包 (#46525)
- GH-46516 - [CI][Python] 强制文档构建使用 Cython > 3.1.1 (#46770)
- GH-46523 - [GLib] 修复编译器警告:使用 gsize 而非 int (#46524)
- GH-46538 - [CI][Packaging][AlmaLinux8] 确保存在 pip3 (#46539)
- GH-46564 - [C++] 在 ArrowConfig.cmake 中导出 ARROW_VCPKG (#46565)
-
GH-46576 - [C++] 抑制
codecvt_utf8弃用警告 (#46622) - GH-46589 - [C++] 修复 utf8_is_digit 以支持完整的 Unicode 数字范围 (#46590)
- GH-46593 - [CI][Integration] 禁用嵌套日志分组 (#46594)
- GH-46598 - [Dev] 使用语言名称作为别名 (#46602)
- GH-46599 - [C++][Doc][Parquet] 更新支持类型文档 (#46620)
- GH-46605 - [CI][Release][C#] 更新验证脚本中 dotnet 的下载 URL (#46612)
- GH-46606 - [Python] 规范化切片时不再需要 numpy (#46732)
- GH-46609 - [Release][CI] 对 macos 验证使用系统 GTest (#46823)
- GH-46610 - [CI][Release] 在 AlmaLinux 8 上使用 Python 3.12 (#46621)
- GH-46611 - [Python][C++] 允许在没有 numpy 的情况下构建 float16 数组 (#46618)
- GH-46623 - [C++][Compute] 修复 arrow-compute-row-test 中的大内存测试失败问题 (#46635)
-
GH-46636 - [R] 修复
case_when()中不在全局环境中的外部对象的评估问题 (#46667) - GH-46659 - [C++] 修复使用 binary view/string view 存储的扩展数组的导出问题 (#46660)
- GH-46673 - [CI][R][Docs] 再次接受空的 INSTALL_ARGS (#46682)
- GH-46674 - [C++] 从 ExtensionType Scalar 构建 Array (#46675)
- GH-46684 - [C++] 修复 Windows 上的 Meson 配置问题 (#46685)
- GH-46688 - [Ruby] 修复一个拼写错误 (#46689)
- GH-46691 - [CI][Packaging] 更新生成的 wheel 名称中的平台标签以匹配最新的 auditwheel 命名规则 (#46705)
- GH-46693 - [CI] 将 GitHub 托管的运行器从已弃用的 windows-2019 更新为 windows-2022 (#46694)
- GH-46704 - [C++] 修复 OSS-Fuzz 构建失败问题 (#46706)
- GH-46708 - [C++][Gandiva] 为 castDECIMAL_utf8 添加了零返回值 (#46709)
- GH-46710 - [C++] 修复 Dataset Writer 中的所有权和生命周期问题 (#46711)
- GH-46717 - [R][Docs] 为内部函数添加缺失的 "internal" 关键字 (#46722)
- GH-46724 - [C++][Parquet] OSSFuzz: 防止在处理统计信息时出现 Bad-cast (#46725)
- GH-46729 - [Python] 允许从 RecordBatchReader 构建 InMemoryDataset (#46731)
- GH-46736 - [CI] 在 conan-minimum 中禁用 Parquet (#46744)
- GH-46761 - [C++] 在 FreeBSD 上添加可执行文件检测 (#46759)
-
GH-46764 - [C++][Gandiva] 修复错误的
.bc依赖关系 (#46765) - GH-46777 - [C++] 仅当表达式的 value_set 低于阈值时才使用 SimplifyIsIn (#46859)
- GH-46782 - [Docs] 从“实现”页面链接到相同版本的文档
- GH-46805 - [CI][Dev] 修复 lint 作业中 R hooks 的缓存问题 (#46812)
- GH-46809 - [CI][Packaging] 停止尝试从 arrow/compu… 添加头文件 (#46810)
- GH-46811 - [C++][Python] 修复 FileReaderImpl::GetRecordBatchReader 中的崩溃问题 (#46931)
- GH-46816 - [Docs] 修复指向 Swift 文档和源代码的链接 (#46817)
- GH-46827 - [C++] 更新 compute 共享库的 Meson 配置 (#46839)
- GH-46831 - [C++][R] 移除一些对 CMake < 3.25 的待定引用(文档 + 次要 CMake 引用) (#46834)
- GH-46841 - [C++][Gandiva] 修复日期截断的边缘情况 (#46842)
- GH-46863 - [CI][C++] 抑制 AWS SDK for C++ 中的一个假阳性 UBSAN 错误 (#46870)
- GH-46871 - [C++][Parquet] 恢复 3 个 arrow::FileReader::GetRecordBatchReader() 函数的实现 (#46868)
- GH-46879 - [CI][Packaging][Linux] 不要使用旧版 CMake 检查示例构建 (#46880)
- GH-46888 - [C++] 移除 Meson 配置中对默认 buildtype 的覆盖 (#46919)
- GH-46915 - [C++][Compute] 在需要额外内核的基准测试中初始化 Compute 内核 (#46922)
- GH-46916 - [R] 由于基础 R as.Date() 的更改,负小数日期的测试在旧版 R 上失败 (#46917)
- GH-46920 - [FlightRPC] 修复 Flight SQL ColumnMetadata 检索问题 (#46921)
- GH-46934 - [C++][Parquet] 尝试修复 AttachStatistics 中的未定义行为 (#46940)
- GH-46947 - [R][Packaging] 将 src/arrow/flight/sql/odbc 添加到源排除项 (#46948)
- GH-46964 - [CI][Packaging][Conan] 确保配置后缀使用大写 (#46967)
- GH-46986 - [CI][C++] 修复 C++20 的一个构建错误 (#46987)
- GH-46988 - [C++][Parquet] 修复 FLBA DecodeArrow 的乘法溢出问题 (#46991)
- GH-46989 - [CI][R] 对 R 4.1 使用 Ubuntu 20.04 而非 OpenSUSE (#46990)
- GH-46995 - [CI][R][C++] 在 sanitizer 作业中使用系统内存分配器 (#47007)
- GH-46998 - [C++] 修复 mockfs.cc 在 C++23 下的编译错误 (#46999)
- GH-47015 - [CI][C++] 在 conda-cpp 上使用 mold 以解决 GNU ld 的问题 (#47028)
- GH-47033 - [C++][Compute] 永远不要对 MSVC 使用自定义的 gtest main (#47049)
- GH-47037 - [CI][C++] 修复 Fedora 39 CI 作业 (#47038)
- GH-47061 - [Release] 修复用于签名的错误变量名 (#47062)
- GH-47063 - [Release] 定义缺失的 RELEASE_TARBALL (#47064)
- GH-47065 - [Release] 修复 verify_rc.yml 中的 timeout 键 (#47066)
- GH-47067 - [Release] 修复 verify_rc.yml 中错误的 GitHub Actions 上下文 (#47068)
- GH-47069 - [Release] 添加缺失的 "needs: target" (#47070)
- GH-47071 - [Release] 解引用源码归档中的所有硬链接 (#47072)
- GH-47074 - [Release] 对源码归档中的 csharp/ 使用可复现的 mtime (#47076)
- GH-47078 - [Release] 确保使用克隆的 apache/arrow 进行可复现性检查 (#47079)
- GH-47092 - [Release] 二进制验证 CI 作业失败
新功能和改进
- GH-25025 - [C++] 将非核心计算内核移至单独的共享库 (#46261)
- GH-26818 - [C++][Python] 在多线程写入数据集时保持顺序 (#44470)
- GH-35419 - [GLib] 添加 GArrowFixedShapeTensorDataType (#46305)
-
GH-35644 - [MATLAB] 添加测试以验证
arrow.array.<Type>Array.fromMATLAB()在给定类型错误的数组时会抛出异常 (#47020) - GH-36753 - [C++] 正确地格式化打印和比较 HalfFloatArrays (#46857)
- GH-37027 - [C++] 为 if-else 和 vector-replace 函数添加 float16 内核 (#46446)
- GH-37561 - [Ruby] 为 Arrow::Table#each_raw_records 添加空分块数组测试 (#46862)
-
GH-37577 - [MATLAB] 为与
DateType相关的 MATLAB 测试创建一个超类 (#46923) - GH-37677 - [C++][FlightRPC] 允许 FlightInfo.schema 为空
- GH-37891 - [C++][Parquet] 优化 Parquet 加密中的几个类 (#46202)
- GH-37891 - [C++] 跟进 Buffer 的更改以使用 sptr 移动 (#46027)
-
GH-38214 - [MATLAB] 添加一个通用的
arrow.tabular.TabularMATLAB 接口 (#47014) -
GH-38369 - [MATLAB] 创建工具函数以简化对
Array的Proxy实例的管理 (#46907) - GH-38903 - [R][Docs] 改进 col_types 的文档 (#46145)
- GH-38914 - [Python] 添加 EncryptionConfiguration.uniform_encryption (#46347)
- GH-39294 - [C++][Python] 在 Tensor 类上实现 DLPack (#42118)
- GH-39759 - [Docs] 将 pydata-sphinx-theme 更新至 0.16.1 (#46943)
- GH-40278 - [C++] 支持在 CSV 转换器中将字符串转换为 duration (#46035)
- GH-40343 - [C++] 将 S3FileSystem 移至注册表 (#41559)
- GH-40754 - [Python] 向 S3FileSystem 暴露 tls_ca_file_path (#45881)
- GH-41496 - [Python][Azure][Docs] 在 debian-docs 中开启 azure (#46892)
- GH-41672 - [Python][Doc] 澄清 FixedSizeListArray.values 的文档字符串,说明它忽略偏移量 (#46144)
- GH-41973 - 暴露新的 S3 选项 check_directory_existence_before_creation - 手动 rebase (#46619)
- GH-42012 - [Python] 添加 Schema 的 with_field 或 set_field 方法 (#46348)
- GH-43041 - [C++][Python] 直接读/写 Parquet BYTE_ARRAY 为 Large/View 类型 (#46532)
- GH-43170 - [Swift] 为 ArrowWriter 添加 StructArray 支持 (#43439)
- GH-43623 - [R] 移除 libarrow 向后兼容性强制要求 (#46491)
- GH-43807 - [C++][Python] 添加 UUID 扩展类型与 Parquet 之间的转换支持 (#45866)
- GH-43891 - [C++][Parquet] 更快地读取 FIXED_LEN_BYTE_ARRAY 数据 (#46886)
- GH-44208 - [R] 添加测试以确保 bit64 的新语义与 arrow 兼容 (#46651)
- GH-44435 - [GLib] 为 GArrowArrayStatistics 添加 distinct count 支持 (#46894)
- GH-44500 - [Python][Parquet] 默认将 Parquet 逻辑类型映射到 Arrow 扩展类型 (#46772)
-
GH-44900 - [Python] 支持显式的
fsspec+{protocol}和hf://文件系统 URI (#45089) - GH-44953 - [R] 为新的计算函数添加 R 绑定 (#44971)
- GH-45028 - [C++][Compute] 允许 cast 重新排序 struct 字段 (#45246)
- GH-45083 - [C++] 为 is_nan, is_inf, is_finite, negate, negate_checked, sign 添加 HalfFloat 内核 (#46866)
- GH-45195 - [C++] 将捆绑的 AWS SDK for C++ 更新至 1.11.587 (#45306)
- GH-45229 - [Python] 从 scipy.spmatrix 迁移到 scipy.sparray (#46423)
- GH-45229 - [Python] 跳过 float16 的 scipy.sparse 往返测试 (#46413)
- GH-45290 - [Docs][Release] 更改 show_version_warning_banner 替换 (#46883)
- GH-45522 - [Parquet][C++] Parquet GEOMETRY 和 GEOGRAPHY 逻辑类型的实现 (#45459)
-
GH-45531 - [Python] 为
from_numpy_ndarray添加dim_names参数 (#46170) - GH-45619 - [Python] 使用 f-string 而非 string.format (#45629)
- GH-45643 - [R] 实现 hms 函数以创建和操作时间变量 (#46206)
- GH-45653 - [Python] Scalar 子类应实现 Python 协议 (#45818)
- GH-45664 - [C++] 允许 RecordBatch::MakeStatisticsArray() 使用 LargeString、LargeBinary、FixedSizeBinary、StringView 和 BinaryView (#46031)
- GH-45713 - [GLib] 添加 garrow_chunked_array_(import|export)() (#46876)
- GH-45750 - [C++][Python][Parquet] 为 Parquet 写入器实现基于内容的分块(Content-Defined Chunking) (#45360)
- GH-45794 - [C++] 将 array 目录添加到 Meson 配置 (#45795)
- GH-45796 - [C++] 将 integration 目录添加到 Meson 配置 (#45797)
- GH-45798 - [C++] 将 extension 目录添加到 Meson (#45799)
- GH-45800 - [C++] 在 Meson 中实现 util 配置 (#45824)
- GH-45829 - [C++] 将 compute 目录添加到 Meson 配置 (#45830)
- GH-45833 - [C++] 将 JSON 目录添加到 Meson 配置 (#45834)
- GH-45865 - [C++] 在 Meson 中创建专用的基准测试依赖项 (#45909)
- GH-45908 - [C++][Docs] 重命名并暴露基本的 {Array,...}FromJSON 帮助函数作为公共 API (#46180)
-
GH-45957 - [C++][Python] 向 S3FileSystem 暴露
allow_delayed_open(#46078) - GH-45978 - [C++] 提升捆绑的 mimalloc 版本 (#45979)
- GH-45991 - [C++] 将捆绑的 nlohmann_json 提升至 v3.12.0 (#46112)
- GH-45992 - [C++] 将捆绑的 utf8proc 版本提升至 2.10.0 (#46032)
- GH-46019 - [Python] 如果 columns 不是序列,在 feather read_table 中引发 TypeError (#46038)
- GH-46054 - [Python][Packaging] 在 Windows free-threaded wheel 中重新启用 pandas (#46109)
- GH-46058 - [Python] 在 AppVeyor 中于源代码目录外运行 Python (#46059)
- GH-46087 - [FlightSQL] 允许在 FlightSQL 的 CommandGetTables 中返回列备注 (#46110)
- GH-46091 - [C++] 在 Meson 配置中使用特性选项 (#46204)
- GH-46092 - [C++] 向 Meson 添加与文件系统相关的选项 (#46101)
- GH-46104 - GH-45937: [C++][Parquet] variant 的逻辑类型定义
- GH-46115 - [C++] 在 Meson 中实现压缩库 (#46358)
- GH-46116 - [C++] 在 Meson 中实现 IPC 目录 (#46117)
- GH-46118 - [C++] 将 tensor 目录添加到 Meson (#46119)
-
GH-46130 - [Python] 移除
use_legacy_format,改为设置IpcWriteOptions(#46131) - GH-46132 - [C++][Parquet] 移除从 19.0.0 版本开始已弃用的 parquet API (#46133)
- GH-46141 - [C++] 将 flight 目录添加到 Meson 配置 (#46142)
- GH-46153 - [C++] 在 Meson 中实现 acero 目录 (#46154)
- GH-46155 - [C++] 在 Meson 中实现 Tensorflow 目录 (#46156)
- GH-46163 - [C++] 将 vendored 目录添加到 Meson (#46164)
- GH-46189 - [C#] 在 ArrowStreamWriter 中使用池化缓冲区 (#46190)
- GH-46196 - [C++] 移除 ARROW_USE_PRECOMPILED_HEADERS 及相关逻辑 (#46200)
- GH-46198 - [Python] 移除已弃用的 PyExtensionType (#46199)
- GH-46207 - [C++] 重命名 arrow::util::StringBuilder 并将其移至内部命名空间 (#46813)
- GH-46209 - [Documentation][C++][Compute] 为行式表添加 cpp 开发者文档 (#46210)
- GH-46215 - [C++][Docs] 为 Meson subprojects 目录添加 README (#46216)
- GH-46217 - [C++][Parquet] 正确更新 parquet::encryption::TwoLevelCacheWithExpiration 的时间戳 (#46283)
- GH-46219 - [C++][Parquet] 移除 PARQUET_MINIMAL_DEPENDENCY 选项 (#46274)
- GH-46222 - [Python] 允许在打开 IPC 文件进行写入时指定页脚元数据 (#46354)
- GH-46241 - [Release][Packaging] 添加对重新生成 APT 仓库元数据的支持 (#46277)
-
GH-46245 - [Swift] 将
FlatBuffers升级至 v25.2.10 (#46246) -
GH-46250 - [Swift] 将
swift-tools-version更新至 5.10 (#46252) - GH-46285 - [C++] 为 run_end_encode/run_end_decode 添加对 Decimal32/64 和 HalfFloat 的支持 (#46286)
- GH-46289 - [Release][Packaging] 验证 APT/Yum 仓库对旧版本是否仍然可用 (#46292)
-
GH-46290 - [Swift] 将
grpc-swift升级至1.25.0并将swift-protobuf升级至1.29.0(#46291) - GH-46318 - [Docs][C++] 添加 Extension Array/Type 文档 (#46319)
- GH-46321 - [C++][Doc] 更好地解释 ArrayData IsValid 和 GetNullCount (#46332)
- GH-46336 - [Release][Packaging] 为源码归档添加可复现构建支持 (#46342)
- GH-46338 - [C++] 在 cpp_build.sh 中为 Meson 添加编译步骤 (#46339)
- GH-46349 - [Python] 将 parquet 定义移至 pyarrow/includes/libparquet.pxd (#46437)
- GH-46367 - [C++] 如果作为子项目构建,则阻止 Meson 使用 git 信息 (#46368)
- GH-46373 - [Python] 在数据集不可用的情况下,为 parquet.read_table 的测试运行回退用例 (#46550)
- GH-46376 - [Docs] 将 Xitter 链接替换为 BlueSky 链接 (#46402)
- GH-46378 - [Docs] 从文档中移除对 autotune 的引用 (#46379)
- GH-46380 - [GLib] 添加 GArrowFixedShapeDataType#shape (#46381)
- GH-46386 - [C++] 确保使用我们的 CMake 包而非 Find*.cmake (#46387)
-
GH-46388 - [C++] 在
FindSnappyAlt.cmake中检查Snappy::snappy{,-static}(#46389) - GH-46396 - [C++][Documentation][Statistics] 修订文档,澄清在 arrow::Array 比较期间 arrow::ArrayStatistics 会被忽略 (#46470)
- GH-46398 - [GLib] 添加 GArrowFixedShapeTensorDataType#n_dimensions (#46399)
- GH-46400 - [GLib] 添加 GArrowFixedShapeDataType#permutation (#46401)
- GH-46403 - [C++] 添加打印数据时限制元素大小的支持 (#46536)
- GH-46433 - [GLib] 添加 GArrowFixedShapeDataType#dim_names (#46434)
- GH-46439 - [C++] 对所有 FromJSONString 帮助函数使用 result 模式 (#46696)
- GH-46439 - [C++] 重命名 from_string.cc 中的内部 Converter 类 (#46697)
- GH-46439 - [C++] 移除 test_util_internal.h 中不必要的命名空间前缀 (#46695)
- GH-46444 - [Documentation][C++][Acero] 将内部 Swiss 表文档移至公共 C++ 开发者文档 (#46445)
- GH-46450 - [GLib] 添加 GArrowFixedShapeDataType#strides (#46451)
- GH-46459 - [C++] 将一些 arrow/util 头文件设为内部 (#46721)
- GH-46462 - [C++][Parquet] 在检查 is_stats_set 时暴露当前抛出的 EncodedStatistics (#46463)
- GH-46473 - [C++][Docs] 修复 decimal 注释中的拼写错误 (#46474)
- GH-46475 - [Documentation][C++][Compute] 整合 Acero 开发者文档 (#46476)
- GH-46477 - [C++] 在 Meson 配置中使用 vendored flatbuffers (#46484)
- GH-46482 - [CI][Dev] 添加 shellcheck 文件,无改动 (#46483)
- GH-46487 - [C++] 将 lz4 从 ExternalProject 重构为 FetchContent (#46390)
- GH-46490 - [CI][Dev] 添加 shellcheck ci/scripts/install_ccache.sh (#46492)
- GH-46494 - [CI][Dev] 添加 shellcheck 文件,无改动 (#46495)
- GH-46496 - [CI][Dev] 修复 ci/scripts 目录中的 shellcheck SC2086 错误 (#46497)
- GH-46499 - [CI][Crossbow][C++] 对 Meson 使用 apache/arrow (#46501)
- GH-46500 - [CI][Java] 移除 Java 的 CI 脚本 (#46502)
- GH-46508 - [C++] 升级 OpenTelemetry cpp 以避免在最近的 Clang 上出现构建错误 (#46509)
- GH-46520 - [Docs] 修复文档构建中的各种警告和错误 (#46521)
- GH-46522 - [C++][FlightRPC] 添加 Arrow Flight SQL ODBC 驱动程序 (#40939)
- GH-46526 - [CI][Dev] 修复 ci/scripts 目录中的 shellcheck SC2086 和 SC2223 错误 (#46527)
- GH-46528 - [CI][Dev] 移除 "archery lint" (#46686)
- GH-46529 - [C++] 将静态内联类型特征函数转换为 constexpr (#46559)
- GH-46537 - [Docs][C++] 添加 RunEndEncodedArray、FlatArray 和 PrimitiveArray 的 API 文档 (#46540)
- GH-46544 - [CI][Dev][Python] 使用 pre-commit 进行 autopep8 (#46552)
- GH-46545 - [CI][Dev][Python] 为 cython-lint 更新 pre-commit (#46580)
- GH-46546 - [CI][Dev][Python] 使用 pre-commit 进行 numpydoc (#46595)
- GH-46547 - [CI][Dev][R] 使用 pre-commit 进行 lintr (#46581)
- GH-46548 - [CI][Dev][R] 使用 pre-commit 进行 cpplint (#46549)
-
GH-46551 - [C++] 对类型模式 API 使用
std::string_view(#46553) - GH-46556 - [GLib] 添加 GArrowUUIDDataType (#46558)
- GH-46569 - [CI][Integration] 对 JS 使用 apache/arrow-js (#46570)
- GH-46572 - [Python] 向 python 的 join 函数暴露 filter 选项 (#46566)
- GH-46585 - [JS][Dev] 移除 JS 的 dependabot 配置 (#46586)
- GH-46587 - [CI][JS] 移除与 JS 相关的测试 CI (#46588)
- GH-46603 - [JS][Release] 移除与 JavaScript 相关的发布代码 (#46604)
- GH-46613 - [GLib] 添加 GArrowBaseListDataType (#46615)
- GH-46632 - [R][Docs] 为 arrow::one 添加文档 (#46648)
- GH-46633 - [Docs][C++][Python] 更新 CombineChunks 文档,说明二进制列可以合并到多个块中 (#46638)
- GH-46642 - [Format] 添加脚注,澄清 REE 布局具有 O(log n) 的随机访问性能 (#46643)
- GH-46645 - [CI][Dev][R] 使用 pre-commit 进行 styler (#46664)
- GH-46652 - [Python][Docs] 更新 row_group_size 参数的语言描述 (#46653)
- GH-46656 - [CI][Dev] 修复 ci/scripts 目录中的 shellcheck SC2034 和 SC2086 错误 (#46657)
- GH-46662 - [CI][Dev] 修复 ci/scripts 目录中的 shellcheck SC2148 错误 (#46663)
- GH-46665 - [CI][Crossbow][C++] 对 Alpine Linux 使用 apache/arrow (#46666)
- GH-46676 - [C++][Python][Parquet] 允许直接将 Parquet LIST 数据读取为 LargeList (#46678)
- GH-46679 - [C++][Meson] 对 gflags 使用 WrapDB 条目而非 CMake 包装器 (#46680)
- GH-46683 - [C++][Python] 添加 utf8_zero_fill 计算函数,用于带符号感知的零填充 (#46815)
- GH-46699 - [CI][Dev] 修复 ci/scripts/cpp_test.sh 中的 shellcheck 错误 (#46700)
- GH-46702 - [JS] 移除 js/ (#46703)
- GH-46714 - [C++] 在 Meson 配置中使用隐藏符号可见性 (#46715)
- GH-46719 - [R] 添加 32 位和 64 位 Decimal 类型 (#46720)
- GH-46726 - [CI][Dev] 修复 ci/scripts/conan_build.sh 中的 shellcheck 错误 (#46727)
- GH-46740 - [C++] 更新捆绑的 Thrift
- GH-46745 - [C++] 将捆绑的 Boost 更新至 1.88.0,Apache Thrift 更新至 0.22.0 (#46912)
- GH-46746 - [C++] 假设 AWS SDK >= 1.11.0 (#46742)
- GH-46748 - [C++] 在 AIX 上的初步移植 (#46749)
- GH-46757 - [CI][Packaging][Conan] 同步上游 conan (#46758)
- GH-46763 - [CI][Dev] 修复 ci/scripts/ccache_setup.sh 中的 shellcheck 错误 (#46766)
- GH-46767 - [C++] 为 arrow::Array, arrow::Scalar, arrow::RecordBatch, 和 arrow::ChuckedArray 启用 EqualOptions::use_atol_ (#46779)
- GH-46771 - [Python][C++] 实现 pa.arange 函数以生成数组序列 (#46778)
- GH-46773 - [GLib] 添加 GArrowFixedSizeListDataType (#46774)
- GH-46775 - [Docs] 修复导航问题 (#46784)
- GH-46785 - [CI][Dev][C++] 使用 pre-commit 抑制 cpplint 的不必要输出 (#46786)
- GH-46787 - [CI][Integration] 使用 Node.js 20 (#46790)
- GH-46788 - [C++][Parquet] 对双流字节流拆分启用 SIMD (#46789)
-
GH-46791 - [C++] 添加
Status::OrElse、IntoStatus<T>和ToStatus(#46792) - GH-46794 - [CI][Dev] 修复 ci/scripts/csharp_test.sh 中的 shellcheck 错误 (#46795)
- GH-46798 - [CI][Dev] 添加对 pre-commit 2.17.0 的支持 (#46799)
- GH-46801 - [Dev] 移除一些配置文件中 Java、Go、JS 和 Swift 的残留内容 (#46802)
- GH-46803 - [Swift] 迁移到新仓库后从 apache/arrow 中移除 swift 实现 (#46804)
- GH-46806 - [Ci][Dev][Swift] 移除与 Swift 相关的设置 (#46807)
- GH-46820 - [CI][Integration] 默认使用 Node.js 20 (#46821)
- GH-46833 - [Python] 向 PyArrow 的 AzureFileSystem 暴露 ConfigureManagedIdentityCredential 和 ConfigureClientSecretCredential (#46837)
- GH-46843 - [C++] 对捆绑的 AWS SDK for C++ 不使用 unity build (#46845)
- GH-46846 - [CI][Dev] 修复 ci/scripts/install_dask.sh 中的 shellcheck 错误 (#46847)
-
GH-46854 - [CI][MATLAB][Packaging] 在 CI 和 crossbow 打包工作流中添加对 MATLAB
R2025a的支持 (#46855) -
GH-46864 - [C++] 为
ArrayFromJSONString添加 half-float 测试 (#46865) -
GH-46869 - [C++][Parquet] 弃用
arrow::Status parquet::arrow::FileReadeder::GetRecordBatchReader()(#46932) -
GH-46877 - [MATLAB] 添加
arrow.tabular.Table.fromRecordBatches静态方法 (#46885) - GH-46881 - [CI][Dev] 修复 ci/scripts/install_gcs_testbench.sh 中的 shellcheck 错误 (#46882)
- GH-46895 - [CI][Dev] 修复 ci/scripts/install_minio.sh 中的 shellcheck 错误 (#46896)
- GH-46899 - [CI][Dev] 修复 ci/scripts/install_numba.sh 中的 shellcheck 错误 (#46900)
- GH-46909 - [CI][Dev] 修复 ci/scripts/install_sccache.sh 中的 shellcheck 错误 (#46910)
- GH-46911 - [Packaging] 添加对 AlmaLinux 10 的支持 (#46933)
- GH-46952 - [Packaging] 放弃对 CentOS Stream 8 的支持 (#46953)
- GH-46959 - [Python][Packaging] 放弃对 manylinux2014 的支持 (#46965)
- GH-46968 - [CI][Packaging] 同步 20.0.0 的 conan 文件 (#46966)
- GH-46974 - [Integration][Archery] 添加对 ARROW_JS_ROOT 的支持 (#46975)
- GH-47025 - [C++][Docs] 将构建所需的最低 gcc 版本从 7.1 提高到 9 (#47026)
- GH-47081 - [Release] 重新审视可复现源码归档的验证