Apache Arrow 18.0.0 (2024年10月28日)
这是一个涵盖超过3个月开发的大版本发布。
下载
贡献者
本次发布包含来自 89 位不同贡献者的 530 次提交。
$ git shortlog -sn apache-arrow-17.0.0..apache-arrow-18.0.0
113 dependabot[bot]
65 Sutou Kouhei
41 Raúl Cumplido
35 Antoine Pitrou
21 Vibhatha Lakmal Abeykoon
19 Dane Pitkin
16 Felipe Oliveira Carvalho
16 Jonathan Keane
16 Joris Van den Bossche
16 Rossi Sun
16 mwish
13 Joel Lubinitsky
9 Laurent Goujon
7 Lysandros Nikolaou
7 Neal Richardson
6 Bryce Mecum
6 David Li
5 Matt Topol
4 Adam Reeve
4 Curt Hagenlocher
4 Hyunseok Seo
4 Oliver Layer
4 abandy
3 Dewey Dunnington
3 Jin Chengcheng
3 Rok Mihevc
3 ViggoC
2 Albert Villanova del Moral
2 Alenka Frim
2 Alkis Evlogimenos
2 Benjamin Kietzman
2 Devin Smith
2 Ian Cook
2 Jacob Wujciak-Jens
2 Thomas Newton
2 Xin Hao
1 0x26res
1 Abdulaziz Aloqeely
1 Abhinand-J
1 Alessandro Molina
1 Alex Malins
1 AlexSpace
1 Amir Gonnen
1 Amit Mittal
1 Anja Kefala
1 Benson Muite
1 Chungmin Lee
1 Costi Ciudatu
1 Crystal
1 David Chapman
1 Etienne Bacher
1 Feiyang472
1 Fokko Driesprong
1 George Vanburgh
1 Grant McDermott
1 James Henderson
1 Joe Marshall
1 Kevin Wilson
1 Kyle Barron
1 Liang-Chi Hsieh
1 Matthijs Brobbel
1 Max Feinleib
1 Michael Chirico
1 Nic Crane
1 Nick Crews
1 Nozomi Isozaki
1 PANKAJ9768
1 Patrick Aboyoun
1 Paul Taylor
1 Pradeep Gollakota
1 RoboSchmied
1 Sarah Gilmore
1 Seb. V
1 Stephen Coussens
1 Sylvain Wallez
1 Tai Le Manh
1 Tom Scott-Coombes
1 Vyas Ramasubramani
1 William Ayd
1 ben-freist
1 hellishfire
1 larry98
1 ndglover
1 qmmk
1 rene-hess
1 shinespiked
1 wiedld
1 yihao.dai
1 ziglerari
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-17.0.0..apache-arrow-18.0.0
137 Sutou Kouhei
84 David Li
63 Antoine Pitrou
35 Curt Hagenlocher
31 Dane Pitkin
31 Raúl Cumplido
21 Joris Van den Bossche
16 Jonathan Keane
15 Felipe Oliveira Carvalho
13 mwish
12 Jacob Wujciak-Jens
11 Joel Lubinitsky
9 Matt Topol
9 dependabot[bot]
6 Nic Crane
5 Bryce Mecum
3 Benjamin Kietzman
2 AlenkaF
2 Rok Mihevc
1 Will Ayd
更新日志
Apache Arrow 18.0.0 (2024-10-28 07:00:00+00:00)
Bug 修复
- GH-36295 - [C++] 在大数据集上使用 `group_by` 和 `aggregate` 时出现数据损坏
- GH-39789 - [Go][Parquet] 在写入非缓冲批处理完成后关闭当前行组 (#43326)
- GH-40557 - [C++] 在 OutputStream 中仅上传少量数据时,对 S3 使用 `PutObject` 请求 (#41564)
- GH-41396 - [Ruby] 为 Ubuntu 20.04 上的 re2.pc 添加临时解决方案 (#43721)
- GH-41481 - [CI] 更新为集成测试 docker 作业指定额外环境变量的方式 (#42009)
- GH-41696 - [Python][Packaging] 将 MACOSX_DEPLOYMENT_TARGET 提升至 12 而非 11 (#43137)
- GH-41891 - [C++] 清理隐式 fallthrough 警告 (#41892)
- GH-41993 - [Go] 当偏移量数组不从零开始时,IPC 写入器移动 voffsets (#43176)
- GH-42240 - [R] 修复 ParquetFileWriter$WriteTable 中的崩溃并添加 WriteBatch (#42241)
- GH-43046 - [C++] 修复 `CompareColumnsToRows` 中 avx2 收集行数超过 2^31 的问题 (#43065)
- GH-43130 - [C++][ArrowFlight] 由于 UCS 线程模式导致的崩溃
- GH-43150 - [Docs] pyarrow.compute.microsecond 中需要修正
- GH-43152 - [Release] 为线程安全明确要求 "digest/sha1" (#43154)
- GH-43153 - [R] 对分组查询执行 pull 返回错误的列 (#43172)
- GH-43163 - [R] 修复 Math 组泛型中的绑定 (#43162)
- GH-43167 - [C++] 为 Thrift 缺失的 Boost 依赖添加临时解决方案 (#43328)
- GH-43175 - [C++] 在 CSV 测试中跳过未准备好 Emscripten 的测试 (#43724)
- GH-43183 - [C++] 添加 `date{32,64}` 到 `date{32,64}` 的转换 (#43192)
- GH-43186 - [Go] 为 pqarrow 路径构建器使用自动对齐的原子 int64 (#43206)
- GH-43194 - [R] R_existsVarInFrame 在 R 4.2 之前的版本中不可用 (#43243)
- GH-43202 - [C++][Compute] 检测并明确报告行表中的偏移量溢出错误 (#43226)
- GH-43211 - [C++] 修复 decimal 基准测试以避免越界访问 (#43212)
- GH-43217 - [Java] 移除 flight-core shaded jars (#43224)
- GH-43218 - [C++] 在构建系统中像其他依赖一样解析 Abseil (#43219)
- GH-43221 - [C++][Parquet] 重构 parquet::encryption::AesEncryptor 以使用 unique_ptr (#43222)
- GH-43228 - [C++] 修复 GCC 13 上的 Abseil 编译错误 (#43157)
- GH-43232 - [Release][Packaging][Python] 添加 tzdata 作为 conda 环境要求以避免 ORC 失败 (#43233)
- GH-43245 - [Packaging][deb] 添加缺失的 libabsl-dev 依赖 (#43246)
- GH-43267 - [C#] 通过 C 数据接口正确导入切片数组 (#44117)
- GH-43270 - [Release] 修复 post-01-tag.sh 中的输入变量 (#43271)
- GH-43276 - [Go][Parquet] 使 DeltaBitPacking 编码器/解码器通用化 (#43279)
- GH-43282 - [Release][Docs][Packaging] 上传二进制文件时上传正确的文档作业 (#43283)
- GH-43284 - [Release] 修复 post-12-bump-versions.sh 脚本中更新 deb 包名时的版本检测时机 (#43294)
- GH-43293 - [Docs] 更新安装 Java 模块的代码块 (#43295)
- GH-43299 - [Release][Packaging] 在 setuptools 中查找包时仅包含 pyarrow 文件夹 (#43325)
- GH-43314 - [CI][Java] 从发布脚本中删除 arrow-maven-plugins (#43313)
- GH-43320 - [Java] 修复传输空 FixedSizeListVector 时的 SchemaChangeRuntimeException (#43321)
- GH-43331 - [C++] 为 Location 添加缺失的 serde 方法 (#43332)
- GH-43346 - [Docs][Format] 更新损坏的链接 (#43347)
- GH-43349 - [R] 修复来自 readr 的 altrep 字符串列 (#43351)
- GH-43357 - [R] 修复一些 lints 问题 (#43338)
- GH-43359 - [Go][Parquet] 在上下文被取消时 ReadRowGroups 发生 panic (#43360)
- GH-43377 - [Java][CI] Java-Jars CI 在 macOS 上因链接错误而失败 (#43385)
- GH-43378 - [Java][CI] 构建 javadocs 时不配置多线程 (#43674)
- GH-43382 - [C++][Parquet] 当 min-max 值之一被截断时,min-max 统计信息工作不正常 (#43383)
- GH-43388 - [Python] 在 pa.schema(..) 中优先使用 pycapsule 接口 (#43486)
- GH-43393 - [C++][Parquet] parquet-dump-footer: 移除冗余链接并修复 --debug 处理 (#43375)
- GH-43394 - [Java][Benchmarking] 修复 Java 17+ 的 Java 基准测试 (#43395)
- GH-43400 - [C++] 当使用绑定的 GoogleTest 时,确保使用绑定的 GoogleTest (#43465)
- GH-43412 - [Java][Benchmarking] 对 JVM 参数使用 JDK_JAVA_OPTIONS (#43411)
- GH-43414 - [C++][Compute] 修复在行表中调整可变长度缓冲区大小时的无效内存访问 (#43415)
- GH-43429 - [C++][FlightRPC] 修复 Flight UCX 构建问题 (#43430)
- GH-43432 - [Java][Packaging] 清理 java-jars 作业 (#43431)
- GH-43440 - [R] 无法使用 %in% 过滤因子列 (#43446)
- GH-43447 - [C++] 在 gRPC 传输中过滤掉零长度的缓冲区 (#43448)
- GH-43449 - [CI][Conan] 不要推送使用过的镜像 (#43470)
- GH-43463 - [C++][Gandiva] 在 context_helper.cc 中总是使用 gdv_function_stubs.h (#43464)
- GH-43467 - [C++] 添加对官方 LZ4 CMake 包的支持 (#43468)
- GH-43487 - [Python] 清理 UDF 实现中的 Python 引用处理 (#43557)
- GH-43502 - [Java] 修复 Java JNI / AMD64 manylinux2014 Java JNI 测试未测试 dataset 模块的问题 (#43503)
- GH-43506 - [Java] 修复 TestFragmentScanOptions 结果不匹配问题 (#43639)
- GH-43554 - [Go] 处理被排除的字段 (#43555)
- GH-43577 - [Java] getBuffers 方法需要修正 clear 标志的使用 (#43583)
- GH-43588 - [Python] 允许使用元组重命名列 (#43609)
- GH-43618 - [Packaging][Python] 修复 macOS wheel 构建作业中的 vcpkg 版本检测 (#43615)
- GH-43627 - [R] 修复 summarize() 性能回归 (pushdown) (#43649)
- GH-43635 - [R][CI] 不要安装 Quarto (#43636)
- GH-43665 - [R] 移除对 bindings vignette 的引用 (#43889)
- GH-43667 - [Java] 保持 Flight 默认头大小在服务器和客户端之间一致 (#43697)
- GH-43707 - [Python] 修复在 Cython<3 上的编译问题 (#43765)
- GH-43717 - [Java][FlightSQL] 将所有 ActionTypes 添加到 FlightSqlUtils.FLIGHT_SQL_ACTIONS (#43718)
- GH-43735 - [R] AWS SDK 在 CRAN 的一个 M1 构建器上构建失败 (#43736)
- GH-43743 - [CI][Docs] 确保创建构建目录 (#43744)
- GH-43748 - [R] 在 safe_r_metadata 中处理 package_version (#43895)
- GH-43785 - [Python][CI] 纠正 wheel 测试中的 PARQUET_TEST_DATA 路径 (#43786)
- GH-43787 - [C++] 默认注册新的 Opaque 扩展类型 (#43788)
- GH-43815 - [CI][Packaging][Python] 如果版本已存在,避免将 wheel 上传到 gemfury (#43816)
- GH-43837 - [Go][IPC] 合并 StreamWriter 和 FileWriter,确保在文件中写入 EOS 指示符 (#43890)
- GH-43860 - [Go][Parquet] 正确处理错误 (#43861)
- GH-43868 - [CI][Python] 在 emscripten 上跳过需要 PARQUET_TEST_DATA 环境变量的测试 (#43906)
- GH-43869 - [Java][CI] 在 AMD64 Windows Server 2022 Java JDK 11 CI 中与 Flight 相关的失败 (#43850)
- GH-43870 - [C++][Acero] 修复 join 基准测试中的拼写错误 (#43871)
- GH-43877 - [Ruby] 添加对 0 小数值的支持 (#43882)
- GH-43885 - [C++][CI] 捕获 PoolBuffer 中潜在的整数溢出 (#43886)
- GH-43933 - [CI] 移除 docker-compose 警告 (#43934)
- GH-43952 - [CI] 在 /.github/workflows 中将 actions/{upload|download}-artifact 从 3 升级到最新的 v4 (#43940)
- GH-43960 - [R] 修复 `str_sub` 绑定以正确处理负的 `end` 值 (#44141)
- GH-43966 - [Java] 比较 StructVector 时检查可空性 (#43968)
- GH-44046 - [Python] 修复借用引用和 pandas 的线程问题 (#44047)
- GH-44050 - [CI][Integration] 再次执行集成测试 (#44051)
- GH-44069 - [Docs][R] 在 to_arrow() 文档中添加关于 collect/compute 的说明 (#44094)
- GH-44071 - [C++] 如果最终化发生得太晚,会泄漏 S3 结构 (#44090)
- GH-44076 - [CI] 移除现已弃用的 verify-rc-binaries-wheel-macos-11 (#44077)
- GH-44081 - [C++][Parquet] 修复 parquet-arrow-reader-writer-benchmark 中报告的指标 (#44082)
- GH-44088 - [Java] 修复 BaseVariableWidthViewVector 中的 copyFrom (#44078)
- GH-44096 - [C++] 不在 Emscripten 中使用 Boost.Process (#44097)
- GH-44098 - [C++] 为缺少它的编译器添加自制的 _mm256_set_m128i (#44116)
- GH-44122 - [R] 暂时不使用新的管道符 (#44123)
- GH-44127 - [CI][R] 修复 util_enable_core_dumps.sh 路径 (#44128)
- GH-44153 - [GLib][FlightRPC] 修复闭包注解 (#44154)
- GH-44214 - [C++] JsonExtensionType 相等性检查忽略存储类型 (#44215)
- GH-44218 - [Benchmarking][Python] 避免 uwsgi 在 macOS 上的安装失败 (#44221)
- GH-44234 - [CI][C++][AppVeyor] 使用 conda 而非 Mamba (#44235)
- GH-44253 - [CI][Release][Python] 不在 Ubuntu 20.04 上验证 Python (#44254)
- GH-44256 - [C++][FS][Azure] 修复在扁平命名空间和 Azurite 上 GetFileInfo 错误返回 NotFound 的边缘情况 (#44302)
- GH-44268 - [Release][Ruby][CI] 固定验证脚本中使用的 glib 版本 (#44270)
- GH-44269 - [C++][FS][Azure] 在 HNS 支持检查中捕获缺失的异常 (#44274)
- GH-44277 - [CI] 使用 Miniforge 代替 Mambaforge (#44278)
- GH-44297 - [Integration][CI] 对压缩/字典编码文件跳过 nanoarrow IPC 集成测试 (#44298)
- GH-44300 - [Integration][Archery] 不要导入未使用的测试器 (#44301)
- GH-44303 - [C++][FS][Azure] 修复分层命名空间的小问题 (#44307)
- GH-44334 - [C++] 修复 `ObjectOutputStream` 中的 S3 错误处理 (#44335)
- GH-44337 - [CI][GLib] 修复一个不稳定的 StreamDecoder 和 Buffer 测试 (#44341)
- GH-44342 - [C++] 在 ARM 上默认禁用 jemalloc (#44380)
- GH-44358 - [Packaging][Debian] 为 CUDA include 路径添加临时解决方案 (#44359)
- GH-44369 - [CI][Python] 从 test_dataset.py 的测试收集中移除 ds 需求 (#44370)
- GH-44373 - [Packaging][Java] 修复 macOS 上 brew 链接到 Python 3.13 的问题 (#44374)
- GH-44381 - [Ruby][Release] 在验证作业中不仅固定 glib,还固定 python (#44382)
- GH-44386 - [Integration][Release] 在使用 Conda 时为集成验证固定 Python 3.12 (#44388)
- GH-44422 - [Packaging][Release][Linux] 在测试前上传工件 (#44425)
新功能和改进
- GH-15058 - [C++][Python] 原生支持 UUID (#37298)
- GH-17682 - [C++][Python] Bool8 扩展类型实现 (#43488)
- GH-17682 - [Go] Bool8 扩展类型实现 (#43323)
- GH-17682 - [Format] 添加 Bool8 规范扩展类型 (#43234)
- GH-25118 - [Python] 使 NumPy 成为可选的运行时依赖 (#41904)
- GH-28866 - [Java] Java Dataset API ScanOptions 扩展 (#41646)
- GH-30058 - [Python] 添加 StructType 属性以访问其所有字段 (#43481)
- GH-30863 - [JS] 使用单例 StructRow 代理处理程序 (#44289)
- GH-32538 - [C++][Parquet] 添加 JSON 规范扩展类型 (#13901)
- GH-34529 - [C++][Compute] 在行分段器中用 DCHECK 替换显式检查不变式 (#44236)
- GH-37756 - [Format][Docs] 为 IPC 压缩添加文档 (#43950)
- GH-38041 - [C++][CI] 改进 IPC 模糊测试的种子语料库 (#43621)
- GH-38051 - [Java] 移除 Java 8 支持 (#43139)
- GH-38183 - [CI][Python] 使用 pipx 安装 GCS testbench (#43852)
- GH-38255 - [Java] 实现 Flight SQL 批量注入 (#43551)
- GH-38847 - [Documentation][C++] 明确指出 compute 是可选的 (#43629)
- GH-39638 - [Docs][R] 添加 r-universe 指南 (#44033)
- GH-39982 - [Java] 添加 RunEndEncodedVector (#43888)
- GH-40036 - [C++] Azure 文件系统写入缓冲和异步写入 (#43096)
- GH-40154 - [C++][Parquet] 分离编码器和解码器 (#43972)
- GH-40216 - [Python][CI][Packaging] 不要将 sdist 上传到 scientific-python nightly 频道 (仅 wheels) (#43943)
- GH-40216 - [Python][CI][Packaging] 将 nightly wheels 上传到 scientific-python-nightly-wheels 频道的主标签 (#43932)
- GH-40216 - [CI][Packaging][Python] 将 pyarrow nightly wheels 上传到 Anaconda 上的 scientific python 频道 (#43862)
- GH-40493 - [GLib][Ruby] 添加 GArrowStreamDecoder (#44170)
- GH-40570 - [CI] 将默认环境改为 Ubuntu 22.04 而非 20.04 (#44151)
- GH-40860 - [GLib][Parquet] 添加 `gparquet_arrow_file_writer_write_record_batch()` (#44001)
- GH-40936 - [Java] 在 `ViewVarBinaryVector` 中实现基于 Holder 的函数
- GH-40937 - [Java] 为 ViewVarCharVector 和 ViewVarBinaryVector 实现基于 Holder 的函数 (#44187)
- GH-41056 - [GLib][FlightRPC] 添加 gaflight_client_do_put() 和相关 API (#43813)
- GH-41272 - [Java] LargeListViewVector 实现 (#43516)
- GH-41291 - [Java] LargeListViewVector 的 transferPair 实现 (#43637)
- GH-41347 - [FlightRPC][C#] 允许在 Kestrel 之前的 .net 版本中托管 flight 服务器 (#41348)
- GH-41569 - [Java] UnionListViewReader 的 ListViewVector 实现 (#43077)
- GH-41579 - [C++][Python][Parquet] 支持从/向 ColumnChunkMetaData 读/写键值元数据 (#41580)
- GH-41584 - [Java] C 数据接口的 ListView 实现 (#43686)
- GH-41585 - [Java] C 数据接口的 LargeListView 实现
- GH-41623 - [Docs][C++] arrow::dataset 命名空间是否仍为实验性?
- GH-41640 - [Go] 实现 BYTE_STREAM_SPLIT Parquet 编码 (#43066)
- GH-41665 - [Python] 确保 (Chunked)Array/RecordBatch/Table 方法在非 CPU 数据上不会崩溃
- GH-41673 - [Format][Docs] 添加 arrow 格式介绍页面 (#41593)
- GH-41909 - [C++] 添加 arrow::ArrayStatistics (#43273)
- GH-41922 - [CI][C++] 更新 Minio 版本 (#44225)
- GH-41951 - [Java] 添加 @FormatMethod 注解 (#43376)
- GH-42014 - [Python] 让 StructArray.from_array 除了名称或字段外,还接受类型 (#43047)
- GH-42085 - [Python] 测试 FlightStreamReader 迭代器 (#42086)
- GH-42102 - [C++][Parquet] 添加从 parquet 文件中提取页脚的二进制文件 (#42174)
- GH-42222 - [Python] 为 RecordBatch 和 Array 类添加 CopyTo 的绑定 (#42223)
- GH-42247 - [C++] 支持与 utf8_view/binary_view 之间的转换 (#43302)
- GH-43044 - [R] 所谓的非 API 入口点 (#43173)
- GH-43069 - [Python] 使用来自 pythoncapi_compat.h 的 Py_IsFinalizing (#43767)
- GH-43075 - [CI][Crossbow][Docker] 为 docker-tests 设置超时 (#43078)
- GH-43092 - [Swift] 更新 ArrowData 以支持嵌套类型 (允许子级)
- GH-43095 - [C++] 更新绑定的 vendor/datetime 以支持使用 libc++ 和 C++20 构建 (#43094)
- GH-43097 - [C++] 为 Azure 文件系统实现 `PathFromUri` 支持 (#43098)
- GH-43114 - [Archery][Dev] 支持 setuptools-scm >= 8.0.0 (#43156)
- GH-43129 - [C++][Compute] 修复在编码行表时不必要的额外字节分配 (#43125)
- GH-43141 - [C++][Parquet] 在内部 Parquet 加密 API 中用 int32_t 替换 int 的使用 (#43413)
- GH-43142 - [C++][Parquet] 重构 Encryptor API 以使用 arrow::util::span 而非原始指针 (#43195)
- GH-43143 - [C++][Parquet] 默认初始化一些 parquet 元数据变量 (#43144)
- GH-43160 - [Swift] 添加 Struct Array (#43161)
- GH-43164 - [C++] 修复 AWS SDK 的 CMake 链接顺序 (#43230)
- GH-43168 - [Swift] 为 Struct 类型添加缓冲区和数组构建器 (#43171)
- GH-43169 - [Swift] 将 StructArray 添加到 ArrowReader (#43335)
- GH-43185 - [C++] 当 Concatenate 因偏移量溢出而失败时建议进行转换 (#43190)
- GH-43187 - [C++] 支持基本的 is_in 谓词简化 (#43761)
- GH-43197 - [C++][AzureFS] 在 URI 中忽略密码字段 (#44220)
- GH-43209 - [C++] 为公共头文件中的 DCHECK 添加 lint (#43248)
- GH-43229 - [Java] 更新 Maven 项目信息 (#43231)
- GH-43238 - [C++][FlightRPC] 减少 flight/types.cc 中 serde 函数的重复 (#43237)
- GH-43249 - [C++][Parquet] 移除 `DeltaLengthByteArrayEncoder` 的无用模板参数 (#43250)
- GH-43254 - [C++] 总是优先使用 mimalloc 而非 jemalloc (#40875)
- GH-43258 - [C++][Flight] 为 RPC 调用中使用的类型使用 Base CRTP 类型 (#43255)
- GH-43266 - [C#] 添加 LargeBinary、LargeString 和 LargeList 数组类型 (#43269)
- GH-43291 - [C++] 扩展 'take' 函数测试以覆盖更多分块数组的情况 (#43292)
- GH-43301 - [C++][Parquet] 增强 ColumnReader/Decoder 的注释 (#44003)
- GH-43319 - [R][Docs] 更新打包清单 (#43345)
- GH-43329 - [C++] 根据 Flight.proto 对 flight/types.h 中的类进行排序 (#43330)
- GH-43380 - [Java] 添加对跨 jdk 版本测试的支持 (#43381)
- GH-43391 - [Python] 为 Context 类添加内存管理器和设备的绑定 (#43392)
- GH-43396 - [Java] 移除/替换 jsr305 (#43397)
- GH-43418 - [CI] 将 wheels 和 java-jars 添加到 vcpkg 组的任务中 (#43419)
- GH-43425 - [Java] 将 JNI 升级到版本 10 (#43424)
- GH-43427 - [C++][Parquet] 弃用 ColumnChunk::file_offset 字段,并不再在块末尾写入元数据 (#43428)
- GH-43437 - [Java] 将 protobuf 从 3.25.1 更新到 3.25.4 (#43436)
- GH-43443 - [Go][IPC] 如果未指定 schema,则从第一条记录推断 (#43484)
- GH-43444 - [C++] 为 binary view 构建器添加基准测试 (#43445)
- GH-43450 - [CI] 暂时关闭失败的 conda 作业 (#43451)
- GH-43453 - [Format] 添加 Opaque 规范扩展类型 (#43457)
- GH-43454 - [C++][Python] 添加 Opaque 规范扩展类型 (#43458)
- GH-43455 - [Go] 添加 Opaque 规范扩展类型 (#43459)
- GH-43456 - [Java] 添加 Opaque 规范扩展类型 (#43460)
- GH-43469 - [Java] 更改默认的 CompressionCodec.Factory 以透明地利用压缩支持 (#43471)
- GH-43479 - [Java] 更改 MemoryUtil.UNSAFE 的可见性 (#43480)
- GH-43483 - [Java][C++] 在 JNI 调用中支持更多 CsvFragmentScanOptions (#43482)
- GH-43492 - [C++] 第三方库: 将 lz4 升级到 1.10.0 (#43493)
- GH-43495 - [C++][Compute] 将行表的行偏移量加宽到 64 位 (#43389)
- GH-43500 - [R][CI] 升级 dev docs CI 作业的 ubuntu 版本(从 20.04) (#43501)
- GH-43507 - [C++] 在美化打印非 CPU 数据时使用 ViewOrCopyTo 而非 CopyTo (#43508)
- GH-43509 - [R] 从 ?list_compute_functions 添加到 ?acero 的链接 (#44210)
- GH-43512 - [Java] ListViewVector 基于 Visitor 的组件集成 (#43513)
- GH-43514 - [Python] 弃用向 setup.py 传递构建标志的做法 (#43515)
- GH-43518 - [Python][Packaging][CI] 放弃对 Python 3.8 的支持 (#43970)
- GH-43519 - [Python][CI] 添加 Python 3.13 conda 测试构建 (#44192)
- GH-43519 - [Python][CI][Packaging] 使用已发布的版本在 Python 3.13 上构建和测试 wheels (#44193)
- GH-43519 - [Python] 为 Python 3.13 设置 wheel 构建 (#43539)
- GH-43532 - [Python] 在 setup.py 中移除已弃用的 pkg_resources 的使用 (#43602)
- GH-43536 - [Python][CI] 添加一个使用自由线程构建的 Crossbow 作业 (#43671)
- GH-43536 - [Python] 不使用借用引用的 API (#43540)
- GH-43536 - [Python] 在 Cython 中声明支持自由线程 (#43606)
- GH-43543 - [FlightRPC][C++] 减少对 protobuf::Any 的引用次数 (#43544)
- GH-43548 - [R][CI] 使用 grep -F 简化 rchk 输出的匹配 (#43477)
- GH-43559 - [Python][CI] 添加一个使用调试 CPython 解释器的 Crossbow 作业 (#43565)
- GH-43578 - [C++] 简化 arrow::ArrayStatistics::ValueType (#43581)
- GH-43591 - [C++][GLib] 在 Windows 上不安装 arrow-cuda.pc/arrow-cuda-glib.pc (#43593)
- GH-43592 - [C++] 移除 arrow::ArrayStatistics 中冗余的默认构造函数/析构函数 (#43579)
- GH-43594 - [C++] 从 arrow::ArrayStatistics::is_{min,max}_exact 中移除 std::optional (#43595)
- GH-43608 - [CI][Archery] 优先使用 `docker compose` 而非 `docker-compose` (#43586)
- GH-43633 - [R] 为可能在往返数据到 Tables + Parquet 文件时有问题的包添加测试 (#43634)
- GH-43638 - [Java] LargeListViewVector 的 RangeEqualVisitor 和 TypeEqualVisitor 集成 (#43642)
- GH-43643 - [Java] LargeListViewVector IPC 集成 (#43681)
- GH-43669 - [Docs][Dev] 在关于 docker 的部分中记录 archery --debug 标志 (#43935)
- GH-43672 - [C#] Schema 在 FlightInfo 上应为可选 (#43673)
- GH-43677 - [C++][FlightRPC] 将 FlightTestServer 移动到其自己的 .cc 和 .h 文件中 (#43678)
- GH-43680 - [Integration] 在 IPC 集成测试中取消对 nanoarrow 的跳过 (#43715)
- GH-43684 - [Python][Dataset] C++ arrow::dataset::Partitioning::Format 的 Python / Cython 接口 (#43740)
- GH-43687 - [C++] Compute: 修复 AddMinMax512AggKernels 的寄存器内核 SimdLevel (#43704)
- GH-43688 - [C++] 防止 Snappy 在被绑定时禁用 RTTI (#43706)
- GH-43690 - [Python][CI] 简化 python/requirements-wheel-test.txt 文件 (#43691)
- GH-43702 - [C++][FS][Azure] 使用最新的 Azurite 并将绑定的 Azure SDK for C++ 更新到 azure-identity_1.9.0 (#43723)
- GH-43703 - [C++][Parquet][CI] Parquet: 引入更多 bad_data 用于测试 (#43708)
- GH-43712 - [C++][Parquet] Dataset: 在 !HasNullCount() 时正确处理 Parquet 中的 num-nulls (#43726)
- GH-43719 - [C++] 阐明启用 SIMD 的聚合内核来自不同编译单元中相同代码的方式 (#43720)
- GH-43727 - [Python] RecordBatch 在非 CPU 设备上优雅地失败 (#43729)
- GH-43728 - [Python] ChunkedArray 在非 CPU 设备上优雅地失败 (#43795)
- GH-43732 - [Go] 要求 Go 1.22 或更高版本 (#43864)
- GH-43733 - [C++] 修复行编码器中 Scalar 布尔值的处理 (#43734)
- GH-43738 - [GLib] 添加 `GArrowAzureFileSytem` (#43739)
- GH-43746 - [C++] 添加对 Boost 1.86 的支持 (#43766)
- GH-43758 - [C++] Compute: RowEncoder 中的更多注释 (#43763)
- GH-43759 - [C++] Acero: Join 的轻微代码增强 (#43760)
- GH-43764 - [Go][FlightSQL] 添加 NewPreparedStatement 函数 (#43781)
- GH-43768 - [C++] 修复 Acero 中 boolean_{any|all} 遇到固定长度常量输入的情况 (#43799)
- GH-43776 - [C++] 添加具有小选择因子的分块 Take 基准测试 (#43772)
- GH-43790 - [Go][Parquet] 添加对 LZ4_RAW 压缩编解码器的支持 (#43835)
- GH-43796 - [C++] 缩进预处理器指令 (#43798)
- GH-43797 - [C++] 将 `arrow::ArrayStatistics` 附加到 `arrow::ArrayData` (#43801)
- GH-43802 - [GLib] 添加 `GAFlightRecordBatchWriter` (#43803)
- GH-43805 - [C++] 当指定 ARROW_{AZURE,GCS,HDFS,S3}=ON 之一时自动启用文件系统 (#43806)
- GH-43809 - [Docs] 更新扩展类型示例以不使用 UUID (#44120)
- GH-43814 - [GLib][FlightRPC] 添加 `GAFlightServerClass::do_put` (#43999)
- GH-43840 - [CI] 将 cuda 组添加到 tasks.yml 并为新的 cuda 运行器镜像进行小幅更新 (#43841)
- GH-43846 - [Python][Packaging] 从 pyarrow 打包中移除 numpy 依赖 (#44148)
- GH-43854 - [C++] 暴露 ChunkedArray 分配的设备类型集合 (#43853)
- GH-43872 - [Go][CI] 为 Go 禁用 Dependabot (#44102)
- GH-43873 - [Go][CI] 移除与 Go 相关的测试 CI (#44143)
- GH-43874 - [CI][Integration][Go] 使用 apache/arrow-go (#44142)
- GH-43875 - [Go][CI] 移除与 Go 相关的 lint 配置 (#44144)
- GH-43878 - [Go][Release] 从我们的发布脚本中移除与 Go 相关的代码 (#44172)
- GH-43879 - [Go] 移除与 go 相关的代码 (#44293)
- GH-43883 - [CI] 在安装 GCS testbench 时移除 Python 版本保护 (#43884)
- GH-43894 - [R] format_aggregation() 也应打印选项 (#43896)
- GH-43902 - [Java] 支持长内存地址 (#43903)
- GH-43907 - [C#][FlightRPC] 在 Flight 客户端上添加 Grpc 调用选项支持 (#43910)
- GH-43927 - [C++] 使 ChunkResolver::ResolveMany 输出一个 ChunkLocations 列表 (#43928)
- GH-43944 - [C++][Parquet] 添加对 arrow::ArrayStatistics 的支持:非零拷贝的基于 int 的类型 (#43945)
- GH-43946 - [C++][Parquet] 防止使用已清除的解密器/加密器 (#43947)
- GH-43953 - [C++] 为 ChunkResolver::ResolveMany 添加基于随机数据和基准测试的测试 (#43954)
- GH-43962 - [Java] 对 Adapter 模块将警告视为错误 (#43963)
- GH-43964 - [Python] 为自由线程构建 macOS 和 manylinux wheels (#43965)
- GH-43967 - [C++] 增强 URI 解析的错误消息 (#43938)
- GH-43969 - [CI][Dev] 精简 .dockerignore (#43971)
- GH-43973 - [Python] Table 在非 CPU 设备上优雅地失败 (#43974)
- GH-43979 - [CI][C++][Dev] 将 cpplint 添加到 pre-commit (#43982)
- GH-43983 - [C++][Parquet] 添加对 arrow::ArrayStatistics 的支持:零拷贝类型 (#43984)
- GH-43986 - [C++][Acero] 对 `Grouper` 进行一些代码清理 (#43988)
- GH-43992 - [C++] 在 array_nested.cc 中添加缺失的 std::move() (#43993)
- GH-43996 - [Java] 将新分配的 ArrowSchema 标记为已释放 (#43997)
- GH-43998 - [C++][Docs] 在构建文档中添加缺失的安装命令 (#44000)
- GH-44006 - [GLib][Parquet] 添加 `gparquet_arrow_file_writer_new_row_group()` (#44039)
- GH-44007 - [GLib][Parquet] 添加 `gparquet_arrow_file_writer_new_buffered_row_group()` (#44100)
- GH-44008 - [C++][Parquet] 添加对 arrow::ArrayStatistics 的支持:布尔型 (#44009)
- GH-44011 - [Java] 对 C 模块将警告视为错误 (#44012)
- GH-44013 - [Java] 对 Dataset 模块将警告视为错误 (#44014)
- GH-44016 - [Java] 对 Format 模块将警告视为错误 (#44017)
- GH-44034 - [Go][Format][FlightRPC] 更新 Flight.proto 和 FlightSql.proto 中的 go_package (#44035)
- GH-44036 - [C++] IPC: ipc 读/写器代码增强 (#44019)
- GH-44044 - [Java] 对 Vector 模块将警告视为错误 (#44045)
- GH-44052 - [C++][Compute] 降低行分段器的复杂性 (#44053)
- GH-44058 - [CI][Integration] 在 GitHub Actions 上对日志进行分组 (#44060)
- GH-44062 - [Dev][Archery][Integration] 减少不必要的测试矩阵 (#44099)
- GH-44063 - [Python] 弃用不再使用的 serialize/deserialize Pyarrow C++ 函数 (#44064)
- GH-44072 - [C++][Parquet] 添加 Float16 读取基准测试 (#44073)
- GH-44079 - [C++][Parquet] 移除已弃用的 API (#44080)
- GH-44085 - [CI][R] 更新 R 强制测试的 Ubuntu 版本 (#44087)
- GH-44095 - [CI][Python] 在 Windows wheel 构建中启用 S3 测试 (#44093)
- GH-44111 - [CI][Python] 在 macOS CI 上启用 S3 测试 (#44129)
- GH-44149 - [Packaging][CI] 移除对已弃用的 Ubuntu bionic 的引用 (#44150)
- GH-44155 - [Archery][Integration] 将 "language" 重命名为 "implementation" (#44156)
- GH-44158 - [Archery][Integration] 添加更多关于 --target-implementations 工作原理的解释 (#44177)
- GH-44167 - [C++][Acero] 添加更多行分段器测试 (#44166)
- GH-44178 - [GLib][FlightRPC] 添加 GAFlightCallOptions:timeout (#44181)
- GH-44186 - [C++][Parquet] 修复 parquet/column_writer.cc 中的拼写错误 (#40856)
- GH-44194 - [C++] 避免重复的 ArrayData::offset 查找 (#44190)
- GH-44206 - [CI][macOS] 放弃对 macOS 12 的支持 (#44212)
- GH-44222 - [C++][Gandiva] 接受 LLVM 19.1 (#44233)
- GH-44229 - [Docs] 将 PyArrow to JAX 示例添加到文档中 (#44230)
- GH-44237 - [C#] 序列化十进制值时使用栈分配的缓冲区 (#44238)
- GH-44249 - [C++] 统一 simd 头文件包含 (#44250)
- GH-44271 - [C#] 添加对 Decimal32 和 Decimal64 的支持 (#44272)
- GH-44273 - [C++][Decimal] 使用 0E+1 而非 0.E+1 以获得更广泛的兼容性 (#44275)
- GH-44290 - [Java][Flight] 添加 ActionType 描述获取器 (#44291)
- GH-44314 - [Packaging][Python] 使用 macOS 12 作为部署目标以获得 macOS 12 的 pyarrow wheels (#44315)
- GH-44347 - [Packaging][C++] 为 deb/rpm 启用 Azure 文件系统 (#44348)
- GH-44355 - [Packaging][Python] 在 wheel-manylinux--cp313t- 中禁用交互式 deb 配置 (#44362)
- GH-44415 - [Release][Ruby] 从发布验证脚本的 glib 部分移除固定版本 (#44407)