Apache Arrow 18.0.0 (2024年10月28日)
这是一个涵盖超过 3 个月开发的重大版本。
下载
贡献者
此版本包含来自 89 位不同贡献者的 530 次提交。
$ git shortlog -sn apache-arrow-17.0.0..apache-arrow-18.0.0
113 dependabot[bot]
65 Sutou Kouhei
41 Raúl Cumplido
35 Antoine Pitrou
21 Vibhatha Lakmal Abeykoon
19 Dane Pitkin
16 Felipe Oliveira Carvalho
16 Jonathan Keane
16 Joris Van den Bossche
16 Rossi Sun
16 mwish
13 Joel Lubinitsky
9 Laurent Goujon
7 Lysandros Nikolaou
7 Neal Richardson
6 Bryce Mecum
6 David Li
5 Matt Topol
4 Adam Reeve
4 Curt Hagenlocher
4 Hyunseok Seo
4 Oliver Layer
4 abandy
3 Dewey Dunnington
3 Jin Chengcheng
3 Rok Mihevc
3 ViggoC
2 Albert Villanova del Moral
2 Alenka Frim
2 Alkis Evlogimenos
2 Benjamin Kietzman
2 Devin Smith
2 Ian Cook
2 Jacob Wujciak-Jens
2 Thomas Newton
2 Xin Hao
1 0x26res
1 Abdulaziz Aloqeely
1 Abhinand-J
1 Alessandro Molina
1 Alex Malins
1 AlexSpace
1 Amir Gonnen
1 Amit Mittal
1 Anja Kefala
1 Benson Muite
1 Chungmin Lee
1 Costi Ciudatu
1 Crystal
1 David Chapman
1 Etienne Bacher
1 Feiyang472
1 Fokko Driesprong
1 George Vanburgh
1 Grant McDermott
1 James Henderson
1 Joe Marshall
1 Kevin Wilson
1 Kyle Barron
1 Liang-Chi Hsieh
1 Matthijs Brobbel
1 Max Feinleib
1 Michael Chirico
1 Nic Crane
1 Nick Crews
1 Nozomi Isozaki
1 PANKAJ9768
1 Patrick Aboyoun
1 Paul Taylor
1 Pradeep Gollakota
1 RoboSchmied
1 Sarah Gilmore
1 Seb. V
1 Stephen Coussens
1 Sylvain Wallez
1 Tai Le Manh
1 Tom Scott-Coombes
1 Vyas Ramasubramani
1 William Ayd
1 ben-freist
1 hellishfire
1 larry98
1 ndglover
1 qmmk
1 rene-hess
1 shinespiked
1 wiedld
1 yihao.dai
1 ziglerari
补丁提交者
以下 Apache 提交者将贡献的补丁合并到代码库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-17.0.0..apache-arrow-18.0.0
137 Sutou Kouhei
84 David Li
63 Antoine Pitrou
35 Curt Hagenlocher
31 Dane Pitkin
31 Raúl Cumplido
21 Joris Van den Bossche
16 Jonathan Keane
15 Felipe Oliveira Carvalho
13 mwish
12 Jacob Wujciak-Jens
11 Joel Lubinitsky
9 Matt Topol
9 dependabot[bot]
6 Nic Crane
5 Bryce Mecum
3 Benjamin Kietzman
2 AlenkaF
2 Rok Mihevc
1 Will Ayd
变更日志
Apache Arrow 18.0.0 (2024-10-28 07:00:00+00:00)
错误修复
- GH-36295 - [C++] 在大型数据集上使用 `group_by` 和 `aggregate` 时数据损坏
- GH-39789 - [Go][Parquet] 在完成写入未缓冲批处理时关闭当前行组 (#43326)
- GH-40557 - [C++] 当仅上传小数据时,在 OutputStream 中使用 `PutObject` 请求 S3 (#41564)
- GH-41396 - [Ruby] 为 Ubuntu 20.04 上的 re2.pc 添加解决方法 (#43721)
- GH-41481 - [CI] 更新如何为集成测试 docker 作业指定额外的环境变量 (#42009)
- GH-41696 - [Python][打包] 将 MACOSX_DEPLOYMENT_TARGET 提升到 12 而不是 11 (#43137)
- GH-41891 - [C++] 清理隐式 fallthrough 警告 (#41892)
- GH-41993 - [Go] 当偏移量数组不是从零开始时,IPC 写入器会移动 voffsets (#43176)
- GH-42240 - [R] 修复 ParquetFileWriter$WriteTable 中的崩溃并添加 WriteBatch (#42241)
- GH-43046 - [C++] 修复 `CompareColumnsToRows` 中 avx2 gather 行超过 2^31 的问题 (#43065)
- GH-43130 - [C++][ArrowFlight] 由于 UCS 线程模式导致崩溃
- GH-43150 - [文档] pyarrow.compute.microsecond 中需要更正
- GH-43152 - [发布] 为线程安全显式要求 “digest/sha1” (#43154)
- GH-43153 - [R] 对分组查询进行 pull 会返回错误的列 (#43172)
- GH-43163 - [R] 修复 Math 组泛型中的绑定 (#43162)
- GH-43167 - [C++] 为 Thrift 缺少 Boost 依赖项添加解决方法 (#43328)
- GH-43175 - [C++] 在 CSV 测试中跳过未 Emscripten 就绪的测试 (#43724)
- GH-43183 - [C++] 将 `date{32,64}` 到 `date{32,64}` 的转换添加到 (#43192)
- GH-43186 - [Go] 为 pqarrow 路径构建器使用自动对齐的原子 int64 (#43206)
- GH-43194 - [R] R_existsVarInFrame 在 R 4.2 之前的版本中不可用 (#43243)
- GH-43202 - [C++][Compute] 检测行表中偏移量溢出并显式错误 (#43226)
- GH-43211 - [C++] 修复十进制基准测试以避免越界访问 (#43212)
- GH-43217 - [Java] 删除 flight-core shaded jars (#43224)
- GH-43218 - [C++] 在构建系统中像解决其他依赖项一样解决 Abseil 问题 (#43219)
- GH-43221 - [C++][Parquet] 重构 parquet::encryption::AesEncryptor 以使用 unique_ptr (#43222)
- GH-43228 - [C++] 修复 GCC 13 上的 Abseil 编译错误 (#43157)
- GH-43232 - [发布][打包][Python] 将 tzdata 添加为 conda 环境要求以避免 ORC 失败 (#43233)
- GH-43245 - [打包][deb] 添加缺少的 libabsl-dev 依赖项 (#43246)
- GH-43267 - [C#] 通过 C 数据接口正确导入切片数组 (#44117)
- GH-43270 - [发布] 修复 post-01-tag.sh 上的输入变量 (#43271)
- GH-43276 - [Go][Parquet] 使 DeltaBitPacking 编码器/解码器通用 (#43279)
- GH-43282 - [发布][文档][打包] 上传二进制文件时上传正确的文档作业 (#43283)
- GH-43284 - [发布] 修复 post-12-bump-versions.sh 脚本上用于 bumped deb 软件包名称的版本检测时间 (#43294)
- GH-43293 - [文档] 更新安装 Java 模块的代码块 (#43295)
- GH-43299 - [发布][打包] 在 setuptools 上查找软件包时仅包含 pyarrow 文件夹 (#43325)
- GH-43314 - [CI][Java] 从发布脚本中删除 arrow-maven-plugins (#43313)
- GH-43320 - [Java] 修复 SchemaChangeRuntimeException 传输空 FixedSizeListVector 的问题 (#43321)
- GH-43331 - [C++] 向 Location 添加缺少的 serde 方法 (#43332)
- GH-43346 - [文档][格式] 更新损坏的链接 (#43347)
- GH-43349 - [R] 修复 readr 中的 altrep 字符串列 (#43351)
- GH-43357 - [R] 修复一些 lints (#43338)
- GH-43359 - [Go][Parquet] ReadRowGroups 因取消的上下文而恐慌 (#43360)
- GH-43377 - [Java][CI] Java-Jars CI 在 macOS 上因链接错误而失败 (#43385)
- GH-43378 - [Java][CI] 在构建 javadocs 时不要配置多线程 (#43674)
- GH-43382 - [C++][Parquet] 当最小值或最大值之一被截断时,最小-最大统计信息无法正常工作 (#43383)
- GH-43388 - [Python] 在 pa.schema(..) 中优先使用 pycapsule 接口 (#43486)
- GH-43393 - [C++][Parquet] parquet-dump-footer:删除冗余链接并修复 –debug 处理 (#43375)
- GH-43394 - [Java][基准测试] 为 Java 17+ 修复 Java 基准测试 (#43395)
- GH-43400 - [C++] 当我们使用捆绑的 GoogleTest 时,确保使用捆绑的 GoogleTest (#43465)
- GH-43412 - [Java][基准测试] 将 JDK_JAVA_OPTIONS 用于 JVM 参数 (#43411)
- GH-43414 - [C++][Compute] 修复在行表中调整可变长度缓冲区大小时的无效内存访问 (#43415)
- GH-43429 - [C++][FlightRPC] 修复 Flight UCX 构建问题 (#43430)
- GH-43432 - [Java][打包] 清理 java-jars 作业 (#43431)
- GH-43440 - [R] 无法使用 %in% 过滤因子列 (#43446)
- GH-43447 - [C++] 在 gRPC 传输上过滤掉零长度缓冲区 (#43448)
- GH-43449 - [CI][Conan] 不要推送已使用的镜像 (#43470)
- GH-43463 - [C++][Gandiva] 在 context_helper.cc 中始终使用 gdv_function_stubs.h (#43464)
- GH-43467 - [C++] 添加对官方 LZ4 CMake 包的支持 (#43468)
- GH-43487 - [Python] 在 UDF 实现中清理 Python 引用处理 (#43557)
- GH-43502 - [Java] 修复 Java JNI / AMD64 manylinux2014 Java JNI 测试未测试数据集模块的问题 (#43503)
- GH-43506 - [Java] 修复 TestFragmentScanOptions 结果不匹配的问题 (#43639)
- GH-43554 - [Go] 处理排除的字段 (#43555)
- GH-43577 - [Java] getBuffers 方法需要更正 clear 标志的使用 (#43583)
- GH-43588 - [Python] 允许元组用于重命名列 (#43609)
- GH-43618 - [打包][Python] 修复 macOS wheel 构建作业中的 vcpkg 版本检测 (#43615)
- GH-43627 - [R] 修复 summarize() 性能回归(下推) (#43649)
- GH-43635 - [R][CI] 不要安装 Quarto (#43636)
- GH-43665 - [R] 删除对绑定 vignette 的引用 (#43889)
- GH-43667 - [Java] 保持 Flight 默认标头大小在服务器和客户端之间一致 (#43697)
- GH-43707 - [Python] 修复 Cython<3 上的编译问题 (#43765)
- GH-43717 - [Java][FlightSQL] 将所有 ActionTypes 添加到 FlightSqlUtils.FLIGHT_SQL_ACTIONS (#43718)
- GH-43735 - [R] AWS SDK 在 CRAN 的一个 M1 构建器上构建失败 (#43736)
- GH-43743 - [CI][文档] 确保创建构建目录 (#43744)
- GH-43748 - [R] 在 safe_r_metadata 中处理 package_version (#43895)
- GH-43785 - [Python][CI] 在 wheel 测试中修正 PARQUET_TEST_DATA 路径 (#43786)
- GH-43787 - [C++] 默认注册新的 Opaque 扩展类型 (#43788)
- GH-43815 - [CI][Packaging][Python] 如果版本已存在,避免将 wheel 上传到 gemfury (#43816)
- GH-43837 - [Go][IPC] 合并 StreamWriter 和 FileWriter,确保在文件中写入 EOS 指示符 (#43890)
- GH-43860 - [Go][Parquet] 正确处理错误 (#43861)
- GH-43868 - [CI][Python] 在 emscripten 上跳过需要 PARQUET_TEST_DATA 环境变量的测试 (#43906)
- GH-43869 - [Java][CI] AMD64 Windows Server 2022 Java JDK 11 CI 中与 Flight 相关的故障 (#43850)
- GH-43870 - [C++][Acero] 修复 join 基准测试中的拼写错误 (#43871)
- GH-43877 - [Ruby] 添加对 0 十进制值的的支持 (#43882)
- GH-43885 - [C++][CI] 捕获 PoolBuffer 中潜在的整数溢出 (#43886)
- GH-43933 - [CI] 删除 docker-compose 警告 (#43934)
-
GH-43952 - [CI] 在 /.github/workflows 中将 actions/{upload download}-artifact 从 3 升级到最新的 v4 (#43940) - GH-43960 - [R] 修复 `str_sub` 绑定以正确处理负 `end` 值 (#44141)
- GH-43966 - [Java] 比较 StructVector 时检查可空性 (#43968)
- GH-44046 - [Python] 修复借用引用和 pandas 的线程问题 (#44047)
- GH-44050 - [CI][Integration] 再次执行集成测试 (#44051)
- GH-44069 - [Docs][R] 在 to_arrow() 文档中添加关于 collect/compute 的注释 (#44094)
- GH-44071 - [C++] 如果最终确定发生得太晚,则会泄漏 S3 结构 (#44090)
- GH-44076 - [CI] 删除现已弃用的 verify-rc-binaries-wheel-macos-11 (#44077)
- GH-44081 - [C++][Parquet] 修复 parquet-arrow-reader-writer-benchmark 中报告的指标 (#44082)
- GH-44088 - [Java] 修复 BaseVariableWidthViewVector 中的 copyFrom (#44078)
- GH-44096 - [C++] 不要在 Emscripten 中使用 Boost.Process (#44097)
- GH-44098 - [C++] 为缺少它的编译器添加自制的 _mm256_set_m128i (#44116)
- GH-44122 - [R] 暂不使用新的管道 (#44123)
- GH-44127 - [CI][R] 修复 util_enable_core_dumps.sh 路径 (#44128)
- GH-44153 - [GLib][FlightRPC] 修复闭包注释 (#44154)
- GH-44214 - [C++] JsonExtensionType 相等性检查忽略存储类型 (#44215)
- GH-44218 - [Benchmarking][Python] 避免 uwsgi 在 macOS 上安装失败 (#44221)
- GH-44234 - [CI][C++][AppVeyor] 使用 conda 代替 Mamba (#44235)
- GH-44253 - [CI][Release][Python] 不要在 Ubuntu 20.04 上验证 Python (#44254)
- GH-44256 - [C++][FS][Azure] 修复 GetFileInfo 在平面命名空间和 Azurite 上错误地返回 NotFound 的边缘情况 (#44302)
- GH-44268 - [Release][Ruby][CI] 锁定验证脚本中使用的 glib 版本 (#44270)
- GH-44269 - [C++][FS][Azure] 在 HNS 支持检查中捕获缺失的异常 (#44274)
- GH-44277 - [CI] 使用 Miniforge 代替 Mambaforge (#44278)
- GH-44297 - [Integration][CI] 跳过针对压缩/字典编码文件的 nanoarrow IPC 集成测试 (#44298)
- GH-44300 - [Integration][Archery] 不要导入未使用的测试器 (#44301)
- GH-44303 - [C++][FS][Azure] 修复轻微的 hierarchical 命名空间错误 (#44307)
- GH-44334 - [C++] 修复 `ObjectOutputStream` 中的 S3 错误处理 (#44335)
- GH-44337 - [CI][GLib] 修复不稳定的 StreamDecoder 和 Buffer 测试 (#44341)
- GH-44342 - [C++] 默认在 ARM 上禁用 jemalloc (#44380)
- GH-44358 - [Packaging][Debian] 添加 CUDA 包含路径的解决方法 (#44359)
- GH-44369 - [CI][Python] 从 test_dataset.py 的测试集合中删除 ds 要求 (#44370)
- GH-44373 - [Packaging][Java] 修复 macOS 上 brew 与 Python 3.13 的链接 (#44374)
- GH-44381 - [Ruby][Release] 不仅在验证作业中锁定 glib,还锁定 python (#44382)
- GH-44386 - [Integration][Release] 使用 Conda 时,为集成验证锁定 Python 3.12 (#44388)
- GH-44422 - [Packaging][Release][Linux] 在测试之前上传工件 (#44425)
新功能和改进
- GH-15058 - [C++][Python] 对 UUID 的原生支持 (#37298)
- GH-17682 - [C++][Python] Bool8 扩展类型实现 (#43488)
- GH-17682 - [Go] Bool8 扩展类型实现 (#43323)
- GH-17682 - [Format] 添加 Bool8 规范扩展类型 (#43234)
- GH-25118 - [Python] 将 NumPy 设为可选的运行时依赖项 (#41904)
- GH-28866 - [Java] Java Dataset API ScanOptions 扩展 (#41646)
- GH-30058 - [Python] 添加 StructType 属性以访问其所有字段 (#43481)
- GH-30863 - [JS] 使用单例 StructRow 代理处理程序 (#44289)
- GH-32538 - [C++][Parquet] 添加 JSON 规范扩展类型 (#13901)
- GH-34529 - [C++][Compute] 使用 DCHECK 替换显式检查以在行分段器中进行不变量检查 (#44236)
- GH-37756 - [Format][Docs] 记录 IPC 压缩 (#43950)
- GH-38041 - [C++][CI] 改进 IPC 模糊测试种子语料库 (#43621)
- GH-38051 - [Java] 移除 Java 8 支持 (#43139)
- GH-38183 - [CI][Python] 使用 pipx 安装 GCS 测试平台 (#43852)
- GH-38255 - [Java] 实现 Flight SQL 批量导入 (#43551)
- GH-38847 - [Documentation][C++] 明确指出 compute 是可选的 (#43629)
- GH-39638 - [Docs][R] 添加 r-universe 说明 (#44033)
- GH-39982 - [Java] 添加 RunEndEncodedVector (#43888)
- GH-40036 - [C++] Azure 文件系统写入缓冲和异步写入 (#43096)
- GH-40154 - [C++][Parquet] 分离编码器和解码器 (#43972)
- GH-40216 - [Python][CI][Packaging] 不要将 sdist 上传到 scientific-python nightly 频道(仅限 wheel) (#43943)
- GH-40216 - [Python][CI][Packaging] 将 nightly wheels 上传到 scientific-python-nightly-wheels 频道的主标签 (#43932)
- GH-40216 - [CI][Packaging][Python] 将 pyarrow nightly wheels 上传到 Anaconda 上的 scientific python 频道 (#43862)
- GH-40493 - [GLib][Ruby] 添加 GArrowStreamDecoder (#44170)
- GH-40570 - [CI] 将默认环境从 Ubuntu 20.04 更改为 Ubuntu 22.04 (#44151)
- GH-40860 - [GLib][Parquet] 添加 `gparquet_arrow_file_writer_write_record_batch()` (#44001)
- GH-40936 - [Java] 在 `ViewVarBinaryVector` 中实现基于 Holder 的函数
- GH-40937 - [Java] 为 ViewVarCharVector 和 ViewVarBinaryVector 实现基于 Holder 的函数 (#44187)
- GH-41056 - [GLib][FlightRPC] 添加 gaflight_client_do_put() 和相关 API (#43813)
- GH-41272 - [Java] LargeListViewVector 实现 (#43516)
- GH-41291 - [Java] LargeListViewVector 实现 transferPair (#43637)
- GH-41347 - [FlightRPC][C#] 允许在 pre-Kestrel .net 版本中托管 flight 服务器 (#41348)
- GH-41569 - [Java] 为 UnionListViewReader 实现 ListViewVector (#43077)
- GH-41579 - [C++][Python][Parquet] 支持从 ColumnChunkMetaData 读/写键值元数据 (#41580)
- GH-41584 - [Java] 为 C 数据接口实现 ListView (#43686)
- GH-41585 - [Java] 为 C 数据接口实现 LargeListView
- GH-41623 - [Docs][C++] arrow::dataset 命名空间是否仍然是实验性的?
- GH-41640 - [Go] 实现 BYTE_STREAM_SPLIT Parquet 编码 (#43066)
- GH-41665 - [Python] 确保 (Chunked)Array/RecordBatch/Table 方法不会因非 CPU 数据而崩溃
- GH-41673 - [Format][Docs] 添加 arrow 格式介绍页面 (#41593)
- GH-41909 - [C++] 添加 arrow::ArrayStatistics (#43273)
- GH-41922 - [CI][C++] 更新 Minio 版本 (#44225)
- GH-41951 - [Java] 添加 @FormatMethod 注释 (#43376)
- GH-42014 - [Python] 允许 StructArray.from_array 除了名称或字段之外还可以接受类型 (#43047)
- GH-42085 - [Python] 测试 FlightStreamReader 迭代器 (#42086)
- GH-42102 - [C++][Parquet] 添加从 parquet 文件中提取页脚的二进制文件 (#42174)
- GH-42222 - [Python] 为 RecordBatch 和 Array 类添加 CopyTo 绑定 (#42223)
- GH-42247 - [C++] 支持与 utf8_view/binary_view 之间的转换 (#43302)
- GH-43044 - [R] 所谓的非 API 入口点 (#43173)
- GH-43069 - [Python] 使用 pythoncapi_compat.h 中的 Py_IsFinalizing (#43767)
- GH-43075 - [CI][Crossbow][Docker] 为 docker-tests 设置超时 (#43078)
- GH-43092 - [Swift] 更新 ArrowData 以支持嵌套类型(允许子类型)
- GH-43095 - [C++] 更新捆绑的 vendor/datetime 以支持使用 libc++ 和 C++20 构建 (#43094)
- GH-43097 - [C++] 为 Azure 文件系统实现 `PathFromUri` 支持 (#43098)
- GH-43114 - [Archery][Dev] 支持 setuptools-scm >= 8.0.0 (#43156)
- GH-43129 - [C++][Compute] 修复编码行表时不必要的额外字节分配 (#43125)
- GH-43141 - [C++][Parquet] 在内部 Parquet 加密 API 中使用 int32_t 替换 int (#43413)
- GH-43142 - [C++][Parquet] 重构 Encryptor API 以使用 arrow::util::span 代替原始指针 (#43195)
- GH-43143 - [C++][Parquet] 默认初始化一些 parquet 元数据变量 (#43144)
- GH-43160 - [Swift] 添加结构体数组 (#43161)
- GH-43164 - [C++] 修复 CMake 的 AWS SDK 链接顺序 (#43230)
- GH-43168 - [Swift] 为结构体类型添加缓冲区和数组构建器 (#43171)
- GH-43169 - [Swift] 将 StructArray 添加到 ArrowReader (#43335)
- GH-43185 - [C++] 当 Concatenate 因偏移量溢出失败时建议转换 (#43190)
- GH-43187 - [C++] 支持基本的 is_in 谓词简化 (#43761)
- GH-43197 - [C++][AzureFS] 忽略 URI 中的密码字段 (#44220)
- GH-43209 - [C++] 为公共头文件中的 DCHECK 添加 lint (#43248)
- GH-43229 - [Java] 更新 Maven 项目信息 (#43231)
- GH-43238 - [C++][FlightRPC] 减少 flight/types.cc 中 serde 函数的重复 (#43237)
- GH-43249 - [C++][Parquet] 删除 `DeltaLengthByteArrayEncoder` 中无用的模板参数 (#43250)
- GH-43254 - [C++] 始终优先使用 mimalloc 而不是 jemalloc (#40875)
- GH-43258 - [C++][Flight] 为 RPC 调用中使用的类型使用 Base CRTP 类型 (#43255)
- GH-43266 - [C#] 添加 LargeBinary、LargeString 和 LargeList 数组类型 (#43269)
- GH-43291 - [C++] 扩展“take”函数测试以涵盖更多 chunked-array 案例 (#43292)
- GH-43301 - [C++][Parquet] 增强 ColumnReader/Decoder 的注释 (#44003)
- GH-43319 - [R][文档] 更新打包清单 (#43345)
- GH-43329 - [C++] 根据 Flight.proto 对 flight/types.h 中的类进行排序 (#43330)
- GH-43380 - [Java] 添加对跨 JDK 版本测试的支持 (#43381)
- GH-43391 - [Python] 为 Context 类添加内存管理器和设备绑定 (#43392)
- GH-43396 - [Java] 删除/替换 jsr305 (#43397)
- GH-43418 - [CI] 将 wheel 和 java-jars 添加到 vcpkg 任务组 (#43419)
- GH-43425 - [Java] 将 JNI 升级到版本 10 (#43424)
- GH-43427 - [C++][Parquet] 弃用 ColumnChunk::file_offset 字段,并且不再在 Chunk 末尾写入元数据 (#43428)
- GH-43437 - [Java] 将 protobuf 从 3.25.1 更新到 3.25.4 (#43436)
- GH-43443 - [Go][IPC] 如果未指定,则从第一条记录推断 schema (#43484)
- GH-43444 - [C++] 为二进制视图构建器添加基准测试 (#43445)
- GH-43450 - [CI] 临时关闭失败的 conda 作业 (#43451)
- GH-43453 - [格式] 添加 Opaque 规范扩展类型 (#43457)
- GH-43454 - [C++][Python] 添加 Opaque 规范扩展类型 (#43458)
- GH-43455 - [Go] 添加 Opaque 规范扩展类型 (#43459)
- GH-43456 - [Java] 添加 Opaque 规范扩展类型 (#43460)
- GH-43469 - [Java] 更改默认的 CompressionCodec.Factory 以透明地利用压缩支持 (#43471)
- GH-43479 - [Java] 更改 MemoryUtil.UNSAFE 的可见性 (#43480)
- GH-43483 - [Java][C++] 在 JNI 调用中支持更多 CsvFragmentScanOptions (#43482)
- GH-43492 - [C++] 第三方库:将 lz4 升级到 1.10.0 (#43493)
- GH-43495 - [C++][Compute] 将行表的行偏移量扩展到 64 位 (#43389)
- GH-43500 - [R][CI] 将开发文档 CI 作业从 ubuntu 20.04 升级 (#43501)
- GH-43507 - [C++] 在漂亮打印非 CPU 数据时使用 ViewOrCopyTo 而不是 CopyTo (#43508)
- GH-43509 - [R] 从 ?list_compute_functions 添加到 ?acero 的链接 (#44210)
- GH-43512 - [Java] ListViewVector 基于访问者的组件集成 (#43513)
- GH-43514 - [Python] 弃用将构建标志传递给 setup.py (#43515)
- GH-43518 - [Python][打包][CI] 放弃 Python 3.8 支持 (#43970)
- GH-43519 - [Python][CI] 添加 Python 3.13 conda 测试构建 (#44192)
- GH-43519 - [Python][CI][打包] 使用已发布版本在 Python 3.13 上构建和测试 wheel (#44193)
- GH-43519 - [Python] 为 Python 3.13 设置 wheel 构建 (#43539)
- GH-43532 - [Python] 删除 setup.py 中已弃用的 pkg_resources 的使用 (#43602)
- GH-43536 - [Python][CI] 添加一个使用自由线程构建的 Crossbow 作业 (#43671)
- GH-43536 - [Python] 不要使用借用引用 API (#43540)
- GH-43536 - [Python] 在 Cython 中声明对自由线程的支持 (#43606)
- GH-43543 - [FlightRPC][C++] 减少对 protobuf::Any 的引用数量 (#43544)
- GH-43548 - [R][CI] 使用 grep -F 简化 rchk 输出的匹配 (#43477)
- GH-43559 - [Python][CI] 添加一个使用调试 CPython 解释器的 Crossbow 作业 (#43565)
- GH-43578 - [C++] 简化 arrow::ArrayStatistics::ValueType (#43581)
- GH-43591 - [C++][GLib] 不要在 Windows 上安装 arrow-cuda.pc/arrow-cuda-glib.pc (#43593)
- GH-43592 - [C++] 删除 arrow::ArrayStatistics 中冗余的默认构造函数/析构函数 (#43579)
- GH-43594 - [C++] 从 arrow::ArrayStatistics::is_{min,max}_exact 中删除 std::optional (#43595)
- GH-43608 - [CI][Archery] 优先使用 `docker compose` 而不是 `docker-compose` (#43586)
- GH-43633 - [R] 为可能难以将数据往返于表格和 Parquet 文件的包添加测试 (#43634)
- GH-43638 - [Java] LargeListViewVector RangeEqualVisitor 和 TypeEqualVisitor 集成 (#43642)
- GH-43643 - [Java] LargeListViewVector IPC 集成 (#43681)
- GH-43669 - [文档][开发] 在关于 docker 的部分记录 archery –debug 标志 (#43935)
- GH-43672 - [C#] Schema 在 FlightInfo 上应该是可选的 (#43673)
- GH-43677 - [C++][FlightRPC] 将 FlightTestServer 移动到其自己的 .cc 和 .h 文件中 (#43678)
- GH-43680 - [集成] 在 IPC 集成测试中取消跳过 nanoarrow (#43715)
- GH-43684 - [Python][Dataset] Python / Cython 与 C++ arrow::dataset::Partitioning::Format 的接口 (#43740)
- GH-43687 - [C++] 计算:修复注册内核 SimdLevel for AddMinMax512AggKernels (#43704)
- GH-43688 - [C++] 防止 Snappy 在捆绑时禁用 RTTI (#43706)
- GH-43690 - [Python][CI] 简化 python/requirements-wheel-test.txt 文件 (#43691)
- GH-43702 - [C++][FS][Azure] 使用最新的 Azurite 并将捆绑的 Azure SDK for C++ 更新到 azure-identity_1.9.0 (#43723)
- GH-43703 - [C++][Parquet][CI] Parquet:引入更多 bad_data 用于测试 (#43708)
- GH-43712 - [C++][Parquet] 数据集:当 !HasNullCount() 时正确处理 Parquet 中的 num-nulls (#43726)
- GH-43719 - [C++] 阐明 SIMD 启用的 agg 内核在不同编译单元中来自相同代码的方式 (#43720)
- GH-43727 - [Python] RecordBatch 在非 CPU 设备上优雅地失败 (#43729)
- GH-43728 - [Python] ChunkedArray 在非 CPU 设备上优雅地失败 (#43795)
- GH-43732 - [Go] 要求 Go 1.22 或更高版本 (#43864)
- GH-43733 - [C++] 修复行编码器中 Scalar 布尔值处理的问题 (#43734)
- GH-43738 - [GLib] 添加 `GArrowAzureFileSytem` (#43739)
- GH-43746 - [C++] 添加对 Boost 1.86 的支持 (#43766)
- GH-43758 - [C++] 计算:RowEncoder 中的更多注释 (#43763)
- GH-43759 - [C++] Acero:Join 的次要代码增强 (#43760)
- GH-43764 - [Go][FlightSQL] 添加 NewPreparedStatement 函数 (#43781)
-
GH-43768 - [C++] 修复 boolean_{any all} 在 Acero 中遇到长度恒定的输入的情况 (#43799) - GH-43776 - [C++] 添加具有较小选择因子的 chunked Take 基准测试 (#43772)
- GH-43790 - [Go][Parquet] 添加对 LZ4_RAW 压缩编解码器的支持 (#43835)
- GH-43796 - [C++] 缩进预处理器指令 (#43798)
- GH-43797 - [C++] 将 `arrow::ArrayStatistics` 附加到 `arrow::ArrayData` (#43801)
- GH-43802 - [GLib] 添加 `GAFlightRecordBatchWriter` (#43803)
- GH-43805 - [C++] 当指定 ARROW_{AZURE,GCS,HDFS,S3}=ON 之一时自动启用文件系统 (#43806)
- GH-43809 - [文档] 更新扩展类型示例以不使用 UUID (#44120)
- GH-43814 - [GLib][FlightRPC] 添加 `GAFlightServerClass::do_put` (#43999)
- GH-43840 - [CI] 将 cuda 组添加到 tasks.yml 并对新的 cuda runner 镜像进行少量更新 (#43841)
- GH-43846 - [Python][打包] 从 pyarrow 打包中删除 numpy 依赖项 (#44148)
- GH-43854 - [C++] 公开分配 ChunkedArray 的设备类型集 (#43853)
- GH-43872 - [Go][CI] 为 Go 禁用 Dependabot (#44102)
- GH-43873 - [Go][CI] 删除 Go 相关的测试 CI (#44143)
- GH-43874 - [CI][集成][Go] 使用 apache/arrow-go (#44142)
- GH-43875 - [Go][CI] 删除 Go 相关的 lint 配置 (#44144)
- GH-43878 - [Go][发布] 从我们的发布脚本中删除 Go 相关代码 (#44172)
- GH-43879 - [Go] 删除 go 相关代码 (#44293)
- GH-43883 - [CI] 安装 GCS 测试平台时删除 Python 版本防护 (#43884)
- GH-43894 - [R] format_aggregation() 函数也应该打印选项 (#43896)
- GH-43902 - [Java] 支持长内存地址 (#43903)
- GH-43907 - [C#][FlightRPC] 在 Flight 客户端添加 Grpc 调用选项支持 (#43910)
- GH-43927 - [C++] 使 ChunkResolver::ResolveMany 输出 ChunkLocations 列表 (#43928)
- GH-43944 - [C++][Parquet] 为 arrow::ArrayStatistics 添加支持:基于非零拷贝 int 的类型 (#43945)
- GH-43946 - [C++][Parquet] 防止使用已清除的解密器/加密器 (#43947)
- GH-43953 - [C++] 为 ChunkResolver::ResolveMany 添加基于随机数据和基准测试 (#43954)
- GH-43962 - [Java] 将 Adapter 模块的警告视为错误 (#43963)
- GH-43964 - [Python] 为自由线程构建 macOS 和 manylinux wheel 包 (#43965)
- GH-43967 - [C++] 增强 URI 解析的错误消息 (#43938)
- GH-43969 - [CI][开发] 修剪 .dockerignore (#43971)
- GH-43973 - [Python] Table 在非 CPU 设备上优雅地失败 (#43974)
- GH-43979 - [CI][C++][开发] 将 cpplint 添加到 pre-commit (#43982)
- GH-43983 - [C++][Parquet] 为 arrow::ArrayStatistics 添加支持:零拷贝类型 (#43984)
- GH-43986 - [C++][Acero] 对 Grouper 进行一些代码清理 (#43988)
- GH-43992 - [C++] 在 array_nested.cc 中添加缺少的 std::move() (#43993)
- GH-43996 - [Java] 将新分配的 ArrowSchema 标记为已释放 (#43997)
- GH-43998 - [C++][文档] 在构建文档中添加缺少的安装命令 (#44000)
- GH-44006 - [GLib][Parquet] 添加 gparquet_arrow_file_writer_new_row_group() 函数 (#44039)
- GH-44007 - [GLib][Parquet] 添加 gparquet_arrow_file_writer_new_buffered_row_group() 函数 (#44100)
- GH-44008 - [C++][Parquet] 为 arrow::ArrayStatistics 添加支持:布尔类型 (#44009)
- GH-44011 - [Java] 将 C 模块的警告视为错误 (#44012)
- GH-44013 - [Java] 将 Dataset 模块的警告视为错误 (#44014)
- GH-44016 - [Java] 将 Format 模块的警告视为错误 (#44017)
- GH-44034 - [Go][Format][FlightRPC] 更新 Flight.proto 和 FlightSql.proto 中的 go_package (#44035)
- GH-44036 - [C++] IPC: ipc 读取器/写入器代码增强 (#44019)
- GH-44044 - [Java] 将 Vector 模块的警告视为错误 (#44045)
- GH-44052 - [C++][Compute] 降低行分段器的复杂性 (#44053)
- GH-44058 - [CI][集成] 在 GitHub Actions 上分组日志 (#44060)
- GH-44062 - [开发][Archery][集成] 减少不必要的测试矩阵 (#44099)
- GH-44063 - [Python] 弃用不再使用的 serialize/deserialize Pyarrow C++ 函数 (#44064)
- GH-44072 - [C++][Parquet] 添加 Float16 读取基准测试 (#44073)
- GH-44079 - [C++][Parquet] 移除已弃用的 API (#44080)
- GH-44085 - [CI][R] 更新 R 强制测试的 Ubuntu 版本 (#44087)
- GH-44095 - [CI][Python] 在 Windows wheel 构建上启用 S3 测试 (#44093)
- GH-44111 - [CI][Python] 在 macOS CI 上启用 S3 测试 (#44129)
- GH-44149 - [打包][CI] 移除对已弃用的 Ubuntu bionic 的引用 (#44150)
- GH-44155 - [Archery][集成] 将“language”重命名为“implementation” (#44156)
- GH-44158 - [Archery][集成] 添加更多关于 --target-implementations 如何工作的解释 (#44177)
- GH-44167 - [C++][Acero] 添加更多行分段器测试 (#44166)
- GH-44178 - [GLib][FlightRPC] 添加 GAFlightCallOptions:timeout (#44181)
- GH-44186 - [C++][Parquet] 修复 parquet/column_writer.cc 中的拼写错误 (#40856)
- GH-44194 - [C++] 避免重复的 ArrayData::offset 查找 (#44190)
- GH-44206 - [CI][macOS] 放弃对 macOS 12 的支持 (#44212)
- GH-44222 - [C++][Gandiva] 接受 LLVM 19.1 (#44233)
- GH-44229 - [文档] 将 PyArrow 到 JAX 的示例添加到文档中 (#44230)
- GH-44237 - [C#] 在序列化 decimal 值时使用堆栈分配的缓冲区 (#44238)
- GH-44249 - [C++] 统一 simd 头文件包含 (#44250)
- GH-44271 - [C#] 添加对 Decimal32 和 Decimal64 的支持 (#44272)
- GH-44273 - [C++][Decimal] 使用 0E+1 而不是 0.E+1 以获得更广泛的兼容性 (#44275)
- GH-44290 - [Java][Flight] 添加 ActionType 描述 getter (#44291)
- GH-44314 - [打包][Python] 使用 macOS 12 作为部署目标以获得 macOS 12 pyarrow wheel 包 (#44315)
- GH-44347 - [打包][C++] 为 deb/rpm 启用 Azure 文件系统 (#44348)
- GH-44355 - [打包][Python] 在 wheel-manylinux-*-cp313t-* 中禁用交互式 deb 配置 (#44362)
- GH-44415 - [发布][Ruby] 从发布验证脚本的 glib 部分移除 pin (#44407)