Apache Arrow 18.0.0 (2024 年 10 月 28 日)
这是一个主要版本,涵盖了超过 3 个月的开发工作。
下载
贡献者
此版本包含来自 89 位不同贡献者的 530 个提交。
$ git shortlog -sn apache-arrow-17.0.0..apache-arrow-18.0.0
113 dependabot[bot]
65 Sutou Kouhei
41 Raúl Cumplido
35 Antoine Pitrou
21 Vibhatha Lakmal Abeykoon
19 Dane Pitkin
16 Felipe Oliveira Carvalho
16 Jonathan Keane
16 Joris Van den Bossche
16 Rossi Sun
16 mwish
13 Joel Lubinitsky
9 Laurent Goujon
7 Lysandros Nikolaou
7 Neal Richardson
6 Bryce Mecum
6 David Li
5 Matt Topol
4 Adam Reeve
4 Curt Hagenlocher
4 Hyunseok Seo
4 Oliver Layer
4 abandy
3 Dewey Dunnington
3 Jin Chengcheng
3 Rok Mihevc
3 ViggoC
2 Albert Villanova del Moral
2 Alenka Frim
2 Alkis Evlogimenos
2 Benjamin Kietzman
2 Devin Smith
2 Ian Cook
2 Jacob Wujciak-Jens
2 Thomas Newton
2 Xin Hao
1 0x26res
1 Abdulaziz Aloqeely
1 Abhinand-J
1 Alessandro Molina
1 Alex Malins
1 AlexSpace
1 Amir Gonnen
1 Amit Mittal
1 Anja Kefala
1 Benson Muite
1 Chungmin Lee
1 Costi Ciudatu
1 Crystal
1 David Chapman
1 Etienne Bacher
1 Feiyang472
1 Fokko Driesprong
1 George Vanburgh
1 Grant McDermott
1 James Henderson
1 Joe Marshall
1 Kevin Wilson
1 Kyle Barron
1 Liang-Chi Hsieh
1 Matthijs Brobbel
1 Max Feinleib
1 Michael Chirico
1 Nic Crane
1 Nick Crews
1 Nozomi Isozaki
1 PANKAJ9768
1 Patrick Aboyoun
1 Paul Taylor
1 Pradeep Gollakota
1 RoboSchmied
1 Sarah Gilmore
1 Seb. V
1 Stephen Coussens
1 Sylvain Wallez
1 Tai Le Manh
1 Tom Scott-Coombes
1 Vyas Ramasubramani
1 William Ayd
1 ben-freist
1 hellishfire
1 larry98
1 ndglover
1 qmmk
1 rene-hess
1 shinespiked
1 wiedld
1 yihao.dai
1 ziglerari
补丁提交者
以下 Apache committer 将贡献的补丁合并到代码库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-17.0.0..apache-arrow-18.0.0
137 Sutou Kouhei
84 David Li
63 Antoine Pitrou
35 Curt Hagenlocher
31 Dane Pitkin
31 Raúl Cumplido
21 Joris Van den Bossche
16 Jonathan Keane
15 Felipe Oliveira Carvalho
13 mwish
12 Jacob Wujciak-Jens
11 Joel Lubinitsky
9 Matt Topol
9 dependabot[bot]
6 Nic Crane
5 Bryce Mecum
3 Benjamin Kietzman
2 AlenkaF
2 Rok Mihevc
1 Will Ayd
变更日志
Apache Arrow 18.0.0 (2024-10-28 07:00:00+00:00)
错误修复
- GH-36295 - [C++] 在大型数据集上使用 `group_by` 和 `aggregate` 时数据损坏
- GH-39789 - [Go][Parquet] 完成写入未缓冲批处理后关闭当前行组 (#43326)
- GH-40557 - [C++] 在 OutputStream 中仅上传小数据时,对 S3 使用
PutObject
请求 (#41564) - GH-41396 - [Ruby] 添加针对 Ubuntu 20.04 上 re2.pc 的变通方法 (#43721)
- GH-41481 - [CI] 更新集成测试 docker 作业中额外环境变量的指定方式 (#42009)
- GH-41696 - [Python][Packaging] 将 MACOSX_DEPLOYMENT_TARGET 提升到 12 而非 11 (#43137)
- GH-41891 - [C++] 清理隐式 fallthrough 警告 (#41892)
- GH-41993 - [Go] 当偏移数组不是从零开始时,IPC writer 偏移 voffsets (#43176)
- GH-42240 - [R] 修复 ParquetFileWriter$WriteTable 中的崩溃并添加 WriteBatch (#42241)
- GH-43046 - [C++] 修复
CompareColumnsToRows
中 avx2 收集超过 2^31 行的问题 (#43065) - GH-43130 - [C++][ArrowFlight] 由于 UCS 线程模式导致的崩溃
- GH-43150 - [Docs] pyarrow.compute.microsecond 中需要更正
- GH-43152 - [Release] 显式要求 "digest/sha1" 以确保线程安全 (#43154)
- GH-43153 - [R] grouped query 的 pull 返回错误的列 (#43172)
- GH-43163 - [R] 修复 Math group generics 中的绑定 (#43162)
- GH-43167 - [C++] 添加 Thrift 缺失 Boost 依赖的变通方法 (#43328)
- GH-43175 - [C++] 在 CSV 测试中跳过非 Emscripten 就绪的测试 (#43724)
- GH-43183 - [C++] 添加
date{32,64}
到date{32,64}
的转换 (#43192) - GH-43186 - [Go] 对 pqarrow pathbuilders 使用自动对齐的 atomic int64 (#43206)
- GH-43194 - [R] R_existsVarInFrame 在 R 4.2 之前不可用 (#43243)
- GH-43202 - [C++][Compute] 检测并显式错误指示行表中的偏移溢出 (#43226)
- GH-43211 - [C++] 修复 decimal benchmarks 以避免越界访问 (#43212)
- GH-43217 - [Java] 移除 flight-core shaded jars (#43224)
- GH-43218 - [C++] 在构建系统中像其他依赖一样解决 Abseil (#43219)
- GH-43221 - [C++][Parquet] 重构 parquet::encryption::AesEncryptor 以使用 unique_ptr (#43222)
- GH-43228 - [C++] 修复 GCC 13 上的 Abseil 编译错误 (#43157)
- GH-43232 - [Release][Packaging][Python] 添加 tzdata 作为 conda 环境要求以避免 ORC 失败 (#43233)
- GH-43245 - [Packaging][deb] 添加缺失的 libabsl-dev 依赖 (#43246)
- GH-43267 - [C#] 通过 C Data 接口正确导入切片数组 (#44117)
- GH-43270 - [Release] 修复 post-01-tag.sh 中的输入变量 (#43271)
- GH-43276 - [Go][Parquet] 使 DeltaBitPacking Encoders/Decoders 泛型化 (#43279)
- GH-43282 - [Release][Docs][Packaging] 上传二进制文件时上传正确的 docs 作业 (#43283)
- GH-43284 - [Release] 修复 post-12-bump-versions.sh 脚本中 deb 包名提升的版本检测时机 (#43294)
- GH-43293 - [Docs] 更新 Installing Java Modules 的代码块 (#43295)
- GH-43299 - [Release][Packaging] 在 setuptools 中查找包时仅包含 pyarrow 文件夹 (#43325)
- GH-43314 - [CI][Java] 从发布脚本中删除 arrow-maven-plugins (#43313)
- GH-43320 - [Java] 修复 SchemaChangeRuntimeException 传输空 FixedSizeListVector 的问题 (#43321)
- GH-43331 - [C++] 添加 Location 中缺失的 serde 方法 (#43332)
- GH-43346 - [Docs][Format] 更新失效链接 (#43347)
- GH-43349 - [R] 修复 readr 中的 altrep string 列 (#43351)
- GH-43357 - [R] 修复一些 lints (#43338)
- GH-43359 - [Go][Parquet] ReadRowGroups 在上下文被取消时 panic (#43360)
- GH-43377 - [Java][CI] Java-Jars CI 在 macOS 上因链接错误而失败 (#43385)
- GH-43378 - [Java][CI] 构建 javadocs 时不要配置多线程 (#43674)
- GH-43382 - [C++][Parquet] min-max Statistics 在 min-max 之一被截断时工作不佳 (#43383)
- GH-43388 - [Python] 在 pa.schema(..) 中优先使用 pycapsule 接口 (#43486)
- GH-43393 - [C++][Parquet] parquet-dump-footer: 移除冗余链接并修复 --debug 处理 (#43375)
- GH-43394 - [Java][Benchmarking] 修复 Java 17+ 的 Java benchmarks (#43395)
- GH-43400 - [C++] 确保在使用捆绑 GoogleTest 时使用捆绑的 GoogleTest (#43465)
- GH-43412 - [Java][Benchmarking] 对 JVM 参数使用 JDK_JAVA_OPTIONS (#43411)
- GH-43414 - [C++][Compute] 修复行表中变长缓冲区调整大小时的无效内存访问 (#43415)
- GH-43429 - [C++][FlightRPC] 修复 Flight UCX 构建问题 (#43430)
- GH-43432 - [Java][Packaging] 清理 java-jars 作业 (#43431)
- GH-43440 - [R] 无法使用 %in% 过滤 factor 列 (#43446)
- GH-43447 - [C++] 在 gRPC 传输上过滤掉零长度缓冲区 (#43448)
- GH-43449 - [CI][Conan] 不推送已使用的镜像 (#43470)
- GH-43463 - [C++][Gandiva] 在 context_helper.cc 中始终使用 gdv_function_stubs.h (#43464)
- GH-43467 - [C++] 添加对官方 LZ4 CMake 包的支持 (#43468)
- GH-43487 - [Python] 清理 UDF 实现中的 Python 引用处理 (#43557)
- GH-43502 - [Java] 修复 Java JNI / AMD64 manylinux2014 Java JNI 测试不测试 dataset 模块的问题 (#43503)
- GH-43506 - [Java] 修复 TestFragmentScanOptions 结果不匹配的问题 (#43639)
- GH-43554 - [Go] 处理被排除的字段 (#43555)
- GH-43577 - [Java] getBuffers 方法需要修正 clear 标志的使用 (#43583)
- GH-43588 - [Python] 允许使用 tuple 重命名列 (#43609)
- GH-43618 - [Packaging][Python] 修复 macOS wheel 构建作业中的 vcpkg 版本检测 (#43615)
- GH-43627 - [R] 修复 summarize() 性能回退 (pushdown) (#43649)
- GH-43635 - [R][CI] 不安装 Quarto (#43636)
- GH-43665 - [R] 移除对 bindings vignette 的引用 (#43889)
- GH-43667 - [Java] 使 Flight 默认 header size 在服务器和客户端之间保持一致 (#43697)
- GH-43707 - [Python] 修复 Cython<3 上的编译 (#43765)
- GH-43717 - [Java][FlightSQL] 将所有 ActionTypes 添加到 FlightSqlUtils.FLIGHT_SQL_ACTIONS (#43718)
- GH-43735 - [R] AWS SDK 在 CRAN 的一个 M1 builder 上构建失败 (#43736)
- GH-43743 - [CI][Docs] 确保创建构建目录 (#43744)
- GH-43748 - [R] 处理 safe_r_metadata 中的 package_version (#43895)
- GH-43785 - [Python][CI] 修正 wheel 测试中的 PARQUET_TEST_DATA 路径 (#43786)
- GH-43787 - [C++] 默认注册新的 Opaque extension type (#43788)
- GH-43815 - [CI][Packaging][Python] 如果版本已存在则避免上传 wheel 到 gemfury (#43816)
- GH-43837 - [Go][IPC] 合并 StreamWriter 和 FileWriter,确保文件写入 EOS 指示符 (#43890)
- GH-43860 - [Go][Parquet] 正确处理错误 (#43861)
- GH-43868 - [CI][Python] 在 emscripten 上跳过需要 PARQUET_TEST_DATA env 的测试 (#43906)
- GH-43869 - [Java][CI] AMD64 Windows Server 2022 Java JDK 11 CI 中与 Flight 相关的故障 (#43850)
- GH-43870 - [C++][Acero] 修复 join benchmark 中的拼写错误 (#43871)
- GH-43877 - [Ruby] 添加对 0 decimal 值的支持 (#43882)
- GH-43885 - [C++][CI] 捕获 PoolBuffer 中潜在的整数溢出 (#43886)
- GH-43933 - [CI] 移除 docker-compose 警告 (#43934)
-
GH-43952 - [CI] 将 actions/{upload download}-artifact 从 3 升级到 /.github/workflows 中的最新 v4 (#43940) - GH-43960 - [R] 修复
str_sub
绑定以正确处理负数end
值 (#44141) - GH-43966 - [Java] 比较 StructVector 时检查 nullabilities (#43968)
- GH-44046 - [Python] 修复借用引用和 pandas 的线程问题 (#44047)
- GH-44050 - [CI][Integration] 再次执行集成测试 (#44051)
- GH-44069 - [Docs][R] 在 to_arrow() docs 中添加关于 collect/compute 的说明 (#44094)
- GH-44071 - [C++] 如果 finalization 发生太晚,会泄漏 S3 结构体 (#44090)
- GH-44076 - [CI] 移除现已弃用的 verify-rc-binaries-wheel-macos-11 (#44077)
- GH-44081 - [C++][Parquet] 修复 parquet-arrow-reader-writer-benchmark 中报告的 metrics (#44082)
- GH-44088 - [Java] 修复 BaseVariableWidthViewVector 中的 copyFrom (#44078)
- GH-44096 - [C++] 不在 Emscripten 中使用 Boost.Process (#44097)
- GH-44098 - [C++] 为缺少 _mm256_set_m128i 的编译器添加自制版本 (#44116)
- GH-44122 - [R] 暂不使用新的 pipe (#44123)
- GH-44127 - [CI][R] 修复 util_enable_core_dumps.sh 路径 (#44128)
- GH-44153 - [GLib][FlightRPC] 修复 closure 注解 (#44154)
- GH-44214 - [C++] JsonExtensionType 等式检查忽略存储类型 (#44215)
- GH-44218 - [Benchmarking][Python] 避免 macOS 上 uwsgi 安装失败 (#44221)
- GH-44234 - [CI][C++][AppVeyor] 使用 conda 而非 Mamba (#44235)
- GH-44253 - [CI][Release][Python] 不在 Ubuntu 20.04 上验证 Python (#44254)
- GH-44256 - [C++][FS][Azure] 修复 flat namespace 和 Azurite 上 GetFileInfo 错误返回 NotFound 的边缘情况 (#44302)
- GH-44268 - [Release][Ruby][CI] 在验证脚本中锁定使用的 glib 版本 (#44270)
- GH-44269 - [C++][FS][Azure] 捕获 HNS 支持检查中缺失的异常 (#44274)
- GH-44277 - [CI] 使用 Miniforge 而非 Mambaforge (#44278)
- GH-44297 - [Integration][CI] 为压缩/字典编码文件跳过 nanoarrow IPC 集成测试 (#44298)
- GH-44300 - [Integration][Archery] 不导入未使用的 testers (#44301)
- GH-44303 - [C++][FS][Azure] 修复次要的分层命名空间 bugs (#44307)
- GH-44334 - [C++] 修复
ObjectOutputStream
中的 S3 错误处理 (#44335) - GH-44337 - [CI][GLib] 修复一个 flaky 的 StreamDecoder 和 Buffer 测试 (#44341)
- GH-44342 - [C++] 默认在 ARM 上禁用 jemalloc (#44380)
- GH-44358 - [Packaging][Debian] 添加 CUDA include 路径的变通方法 (#44359)
- GH-44369 - [CI][Python] 在 test_dataset.py 的测试收集时移除 ds 要求 (#44370)
- GH-44373 - [Packaging][Java] 修复 macOS 上到 Python 3.13 的 brew 链接 (#44374)
- GH-44381 - [Ruby][Release] 在验证作业中不仅锁定 glib,还锁定 python (#44382)
- GH-44386 - [Integration][Release] 使用 Conda 时,为集成验证锁定 Python 3.12 (#44388)
- GH-44422 - [Packaging][Release][Linux] 在测试前上传 artifacts (#44425)
新功能和改进
- GH-15058 - [C++][Python] 原生支持 UUID (#37298)
- GH-17682 - [C++][Python] Bool8 扩展类型实现 (#43488)
- GH-17682 - [Go] Bool8 扩展类型实现 (#43323)
- GH-17682 - [Format] 添加 Bool8 标准扩展类型 (#43234)
- GH-25118 - [Python] 使 NumPy 成为可选的运行时依赖 (#41904)
- GH-28866 - [Java] Java Dataset API ScanOptions 扩展 (#41646)
- GH-30058 - [Python] 为 StructType 添加属性以访问其所有字段 (#43481)
- GH-30863 - [JS] 使用一个 singleton StructRow proxy handler (#44289)
- GH-32538 - [C++][Parquet] 添加 JSON 标准扩展类型 (#13901)
- GH-34529 - [C++][Compute] 在 row segmenter 中用 DCHECK 替换显式检查不变性 (#44236)
- GH-37756 - [Format][Docs] 文档化 IPC 压缩 (#43950)
- GH-38041 - [C++][CI] 改进 IPC fuzzing seed corpus (#43621)
- GH-38051 - [Java] 移除 Java 8 支持 (#43139)
- GH-38183 - [CI][Python] 使用 pipx 安装 GCS testbench (#43852)
- GH-38255 - [Java] 实现 Flight SQL 批量摄取 (#43551)
- GH-38847 - [Documentation][C++] 明确指出 compute 是可选的 (#43629)
- GH-39638 - [Docs][R] 添加 r-universe 说明 (#44033)
- GH-39982 - [Java] 添加 RunEndEncodedVector (#43888)
- GH-40036 - [C++] Azure 文件系统写缓冲 & 异步写 (#43096)
- GH-40154 - [C++][Parquet] 分离 encoders 和 decoder (#43972)
- GH-40216 - [Python][CI][Packaging] 不将 sdist 上传到 scientific-python nightly channel (仅 wheels) (#43943)
- GH-40216 - [Python][CI][Packaging] 将 nightly wheels 上传到 scientific-python-nightly-wheels channel 的 main label (#43932)
- GH-40216 - [CI][Packaging][Python] 在 Anaconda 上将 pyarrow nightly wheels 上传到 scientific python channel (#43862)
- GH-40493 - [GLib][Ruby] 添加 GArrowStreamDecoder (#44170)
- GH-40570 - [CI] 将默认环境设置为 Ubuntu 22.04 而非 20.04 (#44151)
- GH-40860 - [GLib][Parquet] 添加
gparquet_arrow_file_writer_write_record_batch()
(#44001) - GH-40936 - [Java] 在 `ViewVarBinaryVector` 中实现基于 Holder 的函数
- GH-40937 - [Java] 为 ViewVarCharVector 和 ViewVarBinaryVector 实现基于 Holder 的函数 (#44187)
- GH-41056 - [GLib][FlightRPC] 添加 gaflight_client_do_put() 及相关 API (#43813)
- GH-41272 - [Java] LargeListViewVector 实现 (#43516)
- GH-41291 - [Java] LargeListViewVector 实现 transferPair (#43637)
- GH-41347 - [FlightRPC][C#] 允许在 pre-Kestrel .net 版本中托管 flight server (#41348)
- GH-41569 - [Java] 为 UnionListViewReader 实现 ListViewVector (#43077)
- GH-41579 - [C++][Python][Parquet] 支持从 ColumnChunkMetaData 读取/写入 key-value 元数据 (#41580)
- GH-41584 - [Java] 为 C Data Interface 实现 ListView (#43686)
- GH-41585 - [Java] 为 C Data Interface 实现 LargeListView
- GH-41623 - [Docs][C++] arrow::dataset namespace 是否仍处于实验阶段?
- GH-41640 - [Go] 实现 BYTE_STREAM_SPLIT Parquet 编码 (#43066)
- GH-41665 - [Python] 确保 (Chunked)Array/RecordBatch/Table 方法不会因非 CPU 数据而崩溃
- GH-41673 - [Format][Docs] 添加 arrow format 入门页面 (#41593)
- GH-41909 - [C++] 添加 arrow::ArrayStatistics (#43273)
- GH-41922 - [CI][C++] 更新 Minio 版本 (#44225)
- GH-41951 - [Java] 添加 @FormatMethod 注解 (#43376)
- GH-42014 - [Python] 让 StructArray.from_array 接受 type 以及 names 或 fields (#43047)
- GH-42085 - [Python] 测试 FlightStreamReader iterator (#42086)
- GH-42102 - [C++][Parquet] 添加从 parquet 文件提取 footer 的 binary (#42174)
- GH-42222 - [Python] 为 RecordBatch 和 Array 类添加 CopyTo 绑定 (#42223)
- GH-42247 - [C++] 支持 utf8_view/binary_view 的相互转换 (#43302)
- GH-43044 - [R] 所谓的非 API 入口点 (#43173)
- GH-43069 - [Python] 使用来自 pythoncapi_compat.h 的 Py_IsFinalizing (#43767)
- GH-43075 - [CI][Crossbow][Docker] 为 docker-tests 设置超时 (#43078)
- GH-43092 - [Swift] 更新嵌套类型的 ArrowData (允许子项)
- GH-43095 - [C++] 更新捆绑的 vendor/datetime 以支持使用 libc++ 和 C++20 进行构建 (#43094)
- GH-43097 - [C++] 为 Azure 文件系统实现
PathFromUri
支持 (#43098) - GH-43114 - [Archery][Dev] 支持 setuptools-scm >= 8.0.0 (#43156)
- GH-43129 - [C++][Compute] 修复编码 row table 时不必要的额外字节分配 (#43125)
- GH-43141 - [C++][Parquet] 在内部 Parquet 加密 API 中将 int 替换为 int32_t (#43413)
- GH-43142 - [C++][Parquet] 重构 Encryptor API 以使用 arrow::util::span 而非原始指针 (#43195)
- GH-43143 - [C++][Parquet] 默认初始化一些 parquet metadata 变量 (#43144)
- GH-43160 - [Swift] 添加 Struct Array (#43161)
- GH-43164 - [C++] 修复 AWS SDK 的 CMake link 顺序 (#43230)
- GH-43168 - [Swift] 为 Struct 类型添加 buffer 和 array builders (#43171)
- GH-43169 - [Swift] 将 StructArray 添加到 ArrowReader (#43335)
- GH-43185 - [C++] 当 Concatenate 因偏移溢出失败时建议进行 cast (#43190)
- GH-43187 - [C++] 支持基本的 is_in 谓词简化 (#43761)
- GH-43197 - [C++][AzureFS] 忽略 URI 中的 password 字段 (#44220)
- GH-43209 - [C++] 添加 public headers 中 DCHECK 的 lint 检查 (#43248)
- GH-43229 - [Java] 更新 Maven 项目信息 (#43231)
- GH-43238 - [C++][FlightRPC] 减少 flight/types.cc 中 serde 函数的重复 (#43237)
- GH-43249 - [C++][Parquet] 移除
DeltaLengthByteArrayEncoder
无用的模板参数 (#43250) - GH-43254 - [C++] 始终优先使用 mimalloc 而非 jemalloc (#40875)
- GH-43258 - [C++][Flight] 对 RPC 调用中使用的类型使用 Base CRTP 类型 (#43255)
- GH-43266 - [C#] 添加 LargeBinary, LargeString 和 LargeList 数组类型 (#43269)
- GH-43291 - [C++] 扩展 'take' 函数测试以覆盖更多 chunked-array 情况 (#43292)
- GH-43301 - [C++][Parquet] 增强 ColumnReader/Decoder 注释 (#44003)
- GH-43319 - [R][Docs] 更新 packaging checklist (#43345)
- GH-43329 - [C++] 按照 Flight.proto 在 flight/types.h 中排序类 (#43330)
- GH-43380 - [Java] 添加对跨 jdk 版本测试的支持 (#43381)
- GH-43391 - [Python] 为 Context 类添加 memory manager 和 device 的绑定 (#43392)
- GH-43396 - [Java] 移除/替换 jsr305 (#43397)
- GH-43418 - [CI] 为 tasks 添加 wheels 和 java-jars 到 vcpkg group (#43419)
- GH-43425 - [Java] 将 JNI 升级到版本 10 (#43424)
- GH-43427 - [C++][Parquet] 弃用 ColumnChunk::file_offset 字段并不再在 Chunk 结尾写入 Metadata (#43428)
- GH-43437 - [Java] 将 protobuf 从 3.25.1 升级到 3.25.4 (#43436)
- GH-43443 - [Go][IPC] 如果未指定,从第一个记录推断 schema (#43484)
- GH-43444 - [C++] 为 binary view builder 添加 benchmark (#43445)
- GH-43450 - [CI] 暂时关闭失败的 conda 作业 (#43451)
- GH-43453 - [Format] 添加 Opaque 标准扩展类型 (#43457)
- GH-43454 - [C++][Python] 添加 Opaque 标准扩展类型 (#43458)
- GH-43455 - [Go] 添加 Opaque 标准扩展类型 (#43459)
- GH-43456 - [Java] 添加 Opaque 标准扩展类型 (#43460)
- GH-43469 - [Java] 更改默认的 CompressionCodec.Factory 以透明地利用压缩支持 (#43471)
- GH-43479 - [Java] 更改 MemoryUtil.UNSAFE 的可见性 (#43480)
- GH-43483 - [Java][C++] 在 JNI 调用中支持更多 CsvFragmentScanOptions (#43482)
- GH-43492 - [C++] Thirdparty: 将 lz4 提升到 1.10.0 (#43493)
- GH-43495 - [C++][Compute] 将 row table 的 row offset 加宽到 64 位 (#43389)
- GH-43500 - [R][CI] 将 dev docs CI 作业从 ubuntu 20.04 提升 (#43501)
- GH-43507 - [C++] Pretty printing 非 CPU 数据时使用 ViewOrCopyTo 而非 CopyTo (#43508)
- GH-43509 - [R] 添加 ?list_compute_functions 到 ?acero 的链接 (#44210)
- GH-43512 - [Java] ListViewVector 基于 Visitor 的组件集成 (#43513)
- GH-43514 - [Python] 弃用将 build flags 传递给 setup.py (#43515)
- GH-43518 - [Python][Packaging][CI] 移除 Python 3.8 支持 (#43970)
- GH-43519 - [Python][CI] 添加 Python 3.13 conda 测试构建 (#44192)
- GH-43519 - [Python][CI][Packaging] 在 Python 3.13 上使用已发布版本构建和测试 wheels (#44193)
- GH-43519 - [Python] 为 Python 3.13 设置 wheel 构建 (#43539)
- GH-43532 - [Python] 移除 setup.py 中弃用的 pkg_resources 使用 (#43602)
- GH-43536 - [Python][CI] 添加使用 free-threaded 构建的 Crossbow 作业 (#43671)
- GH-43536 - [Python] 不使用 borrowed references API (#43540)
- GH-43536 - [Python] 在 Cython 中声明支持 free-threading (#43606)
- GH-43543 - [FlightRPC][C++] 减少对 protobuf::Any 的引用次数 (#43544)
- GH-43548 - [R][CI] 使用 grep -F 简化 rchk 输出匹配 (#43477)
- GH-43559 - [Python][CI] 添加使用 debug CPython 解释器的 Crossbow 作业 (#43565)
- GH-43578 - [C++] 简化 arrow::ArrayStatistics::ValueType (#43581)
- GH-43591 - [C++][GLib] 不在 Windows 上安装 arrow-cuda.pc/arrow-cuda-glib.pc (#43593)
- GH-43592 - [C++] 移除 arrow::ArrayStatistics 中冗余的默认构造函数/析构函数 (#43579)
- GH-43594 - [C++] 移除 arrow::ArrayStatistics::is_{min,max}_exact 中的 std::optional (#43595)
- GH-43608 - [CI][Archery] 优先使用
docker compose
而非docker-compose
(#43586) - GH-43633 - [R] 为可能难以往返于 Table + Parquet 文件的数据包添加测试 (#43634)
- GH-43638 - [Java] LargeListViewVector RangeEqualVisitor 和 TypeEqualVisitor 集成 (#43642)
- GH-43643 - [Java] LargeListViewVector IPC 集成 (#43681)
- GH-43669 - [Docs][Dev] 在 docker 部分记录 archery –debug 标志 (#43935)
- GH-43672 - [C#] FlightInfo 中的 Schema 应为可选 (#43673)
- GH-43677 - [C++][FlightRPC] 将 FlightTestServer 移至其自己的 .cc 和 .h 文件 (#43678)
- GH-43680 - [Integration] 在 IPC 集成测试中解除 nanoarrow 的跳过 (#43715)
- GH-43684 - [Python][Dataset] Python / Cython 接口到 C++ arrow::dataset::Partitioning::Format (#43740)
- GH-43687 - [C++] Compute: 修复 AddMinMax512AggKernels 的寄存器内核 SimdLevel (#43704)
- GH-43688 - [C++] 阻止 Snappy 在捆绑时禁用 RTTI (#43706)
- GH-43690 - [Python][CI] 简化 python/requirements-wheel-test.txt 文件 (#43691)
- GH-43702 - [C++][FS][Azure] 使用最新的 Azurite 并更新捆绑的 Azure SDK for C++ 到 azure-identity_1.9.0 (#43723)
- GH-43703 - [C++][Parquet][CI] Parquet: 引入更多 bad_data 用于测试 (#43708)
- GH-43712 - [C++][Parquet] Dataset: 在 !HasNullCount() 时正确处理 Parquet 中的 num-nulls (#43726)
- GH-43719 - [C++] 澄清 SIMD 启用的聚合内核来自不同编译单元中相同代码的方式 (#43720)
- GH-43727 - [Python] RecordBatch 在非 CPU 设备上优雅地失败 (#43729)
- GH-43728 - [Python] ChunkedArray 在非 CPU 设备上优雅地失败 (#43795)
- GH-43732 - [Go] 要求 Go 1.22 或更高版本 (#43864)
- GH-43733 - [C++] 修复行编码器中 Scalar 布尔处理 (#43734)
- GH-43738 - [GLib] 添加
GArrowAzureFileSytem
(#43739) - GH-43746 - [C++] 添加对 Boost 1.86 的支持 (#43766)
- GH-43758 - [C++] Compute: RowEncoder 中的更多注释 (#43763)
- GH-43759 - [C++] Acero: Join 的小代码增强 (#43760)
- GH-43764 - [Go][FlightSQL] 添加 NewPreparedStatement 函数 (#43781)
-
GH-43768 - [C++] 修复 Acero 中 boolean_{any all} 遇到有长度的常量输入的情况 (#43799) - GH-43776 - [C++] 添加具有小选择因子的分块 Take 基准测试 (#43772)
- GH-43790 - [Go][Parquet] 添加对 LZ4_RAW 压缩编解码器的支持 (#43835)
- GH-43796 - [C++] 缩进预处理器指令 (#43798)
- GH-43797 - [C++] 将
arrow::ArrayStatistics
附加到arrow::ArrayData
(#43801) - GH-43802 - [GLib] 添加
GAFlightRecordBatchWriter
(#43803) - GH-43805 - [C++] 当指定 ARROW_{AZURE,GCS,HDFS,S3}=ON 中的一个时自动启用文件系统 (#43806)
- GH-43809 - [Docs] 更新扩展类型示例以不使用 UUID (#44120)
- GH-43814 - [GLib][FlightRPC] 添加
GAFlightServerClass::do_put
(#43999) - GH-43840 - [CI] 为 tasks.yml 添加 cuda 组,并对新 cuda runner 镜像进行小幅更新 (#43841)
- GH-43846 - [Python][Packaging] 从 pyarrow 打包中移除 numpy 依赖项 (#44148)
- GH-43854 - [C++] 暴露 ChunkedArray 分配的设备类型集合 (#43853)
- GH-43872 - [Go][CI] 禁用 Go 的 Dependabot (#44102)
- GH-43873 - [Go][CI] 移除 Go 相关的测试 CI (#44143)
- GH-43874 - [CI][Integration][Go] 使用 apache/arrow-go (#44142)
- GH-43875 - [Go][CI] 移除 Go 相关的 lint 配置 (#44144)
- GH-43878 - [Go][Release] 从我们的发布脚本中移除 Go 相关的代码 (#44172)
- GH-43879 - [Go] 移除 Go 相关的代码 (#44293)
- GH-43883 - [CI] 安装 GCS 测试台时移除 Python 版本守卫 (#43884)
- GH-43894 - [R] format_aggregation() 也应打印选项 (#43896)
- GH-43902 - [Java] 支持长内存地址 (#43903)
- GH-43907 - [C#][FlightRPC] 在 Flight Client 上添加 Grpc Call Options 支持 (#43910)
- GH-43927 - [C++] 使 ChunkResolver::ResolveMany 输出 ChunkLocations 列表 (#43928)
- GH-43944 - [C++][Parquet] 添加对 arrow::ArrayStatistics 的支持:非零拷贝 int 类型 (#43945)
- GH-43946 - [C++][Parquet] 防止使用已清除的 decryptor/encryptor (#43947)
- GH-43953 - [C++] 添加基于随机数据和基准测试的 ChunkResolver::ResolveMany 测试 (#43954)
- GH-43962 - [Java] 将 Adapter 模块的警告视为错误 (#43963)
- GH-43964 - [Python] 为 free-threading 构建 macOS 和 manylinux wheels (#43965)
- GH-43967 - [C++] 增强 URI 解析的错误消息 (#43938)
- GH-43969 - [CI][Dev] 修剪 .dockerignore (#43971)
- GH-43973 - [Python] Table 在非 CPU 设备上优雅地失败 (#43974)
- GH-43979 - [CI][C++][Dev] 将 cpplint 添加到 pre-commit (#43982)
- GH-43983 - [C++][Parquet] 添加对 arrow::ArrayStatistics 的支持:零拷贝类型 (#43984)
- GH-43986 - [C++][Acero]
Grouper
的一些代码清理 (#43988) - GH-43992 - [C++] 在 array_nested.cc 中添加缺失的 std::move() (#43993)
- GH-43996 - [Java] 将新分配的 ArrowSchema 标记为已释放 (#43997)
- GH-43998 - [C++][Docs] 在构建文档中添加缺失的安装命令 (#44000)
- GH-44006 - [GLib][Parquet] 添加
gparquet_arrow_file_writer_new_row_group()
(#44039) - GH-44007 - [GLib][Parquet] 添加
gparquet_arrow_file_writer_new_buffered_row_group()
(#44100) - GH-44008 - [C++][Parquet] 添加对 arrow::ArrayStatistics 的支持:布尔 (#44009)
- GH-44011 - [Java] 将 C 模块的警告视为错误 (#44012)
- GH-44013 - [Java] 将 Dataset 模块的警告视为错误 (#44014)
- GH-44016 - [Java] 将 Format 模块的警告视为错误 (#44017)
- GH-44034 - [Go][Format][FlightRPC] 更新 Flight.proto 和 FlightSql.proto 中的 go_package (#44035)
- GH-44036 - [C++] IPC: ipc reader/writer 代码增强 (#44019)
- GH-44044 - [Java] 将 Vector 模块的警告视为错误 (#44045)
- GH-44052 - [C++][Compute] 降低行分割器的复杂度 (#44053)
- GH-44058 - [CI][Integration] 在 GitHub Actions 上分组日志 (#44060)
- GH-44062 - [Dev][Archery][Integration] 减少不必要的测试矩阵 (#44099)
- GH-44063 - [Python] 弃用不再使用的 serialize/deserialize Pyarrow C++ 函数 (#44064)
- GH-44072 - [C++][Parquet] 添加 Float16 读取基准测试 (#44073)
- GH-44079 - [C++][Parquet] 移除弃用的 API (#44080)
- GH-44085 - [CI][R] 更新 R force test 的 Ubuntu 版本 (#44087)
- GH-44095 - [CI][Python] 在 Windows wheel 构建上启用 S3 测试 (#44093)
- GH-44111 - [CI][Python] 在 macOS CI 上启用 S3 测试 (#44129)
- GH-44149 - [Packaging][CI] 移除对弃用 Ubuntu bionic 的引用 (#44150)
- GH-44155 - [Archery][Integration] 将 “language” 重命名为 “implementation” (#44156)
- GH-44158 - [Archery][Integration] 补充解释 --target-implementations 的工作原理 (#44177)
- GH-44167 - [C++][Acero] 添加更多行分割器测试 (#44166)
- GH-44178 - [GLib][FlightRPC] 添加 GAFlightCallOptions:timeout (#44181)
- GH-44186 - [C++][Parquet] 修复 parquet/column_writer.cc 中的拼写错误 (#40856)
- GH-44194 - [C++] 避免重复查找 ArrayData::offset (#44190)
- GH-44206 - [CI][macOS] 放弃对 macOS 12 的支持 (#44212)
- GH-44222 - [C++][Gandiva] 接受 LLVM 19.1 (#44233)
- GH-44229 - [Docs] 将 PyArrow to JAX 示例添加到文档中 (#44230)
- GH-44237 - [C#] 序列化 decimal 值时使用栈分配的缓冲区 (#44238)
- GH-44249 - [C++] 统一 simd 头文件包含 (#44250)
- GH-44271 - [C#] 添加对 Decimal32 和 Decimal64 的支持 (#44272)
- GH-44273 - [C++][Decimal] 使用 0E+1 而非 0.E+1 以获得更广泛的兼容性 (#44275)
- GH-44290 - [Java][Flight] 添加 ActionType description getter (#44291)
- GH-44314 - [Packaging][Python] 使用 macOS 12 作为部署目标以获得 macOS 12 pyarrow wheels (#44315)
- GH-44347 - [Packaging][C++] 为 deb/rpm 启用 Azure 文件系统 (#44348)
- GH-44355 - [Packaging][Python] 在 wheel-manylinux--cp313t- 中禁用交互式 deb 配置 (#44362)
- GH-44415 - [Release][Ruby] 从发布验证脚本的 glib 部分移除 pins (#44407)