Apache Arrow 17.0.0 (2024年7月16日)
这是一个涵盖两个多月开发的主要版本。
下载
贡献者
本次发布包含来自 92 位不同贡献者的 529 次提交。
$ git shortlog -sn apache-arrow-16.1.0..apache-arrow-17.0.0
84 dependabot[bot]
47 Sutou Kouhei
25 Hyunseok Seo
25 Joris Van den Bossche
22 Raúl Cumplido
21 Adam Reeve
21 Vibhatha Lakmal Abeykoon
20 mwish
18 Laurent Goujon
15 Felipe Oliveira Carvalho
14 abandy
13 Sarah Gilmore
12 Rossi Sun
11 Neal Richardson
10 Alenka Frim
10 Antoine Pitrou
10 Bryce Mecum
9 ZhangHuiGui
8 Jonathan Keane
6 Dewey Dunnington
6 Dominik Moritz
6 Matt Topol
5 Gang Wu
5 William Ayd
4 Curt Hagenlocher
4 Dane Pitkin
4 David Li
4 Tai Le Manh
4 h-vetinari
3 Ian Cook
3 Jacob Wujciak-Jens
3 Kevin Gurney
3 Rok Mihevc
3 Thomas A Caswell
3 Wyatt Alt
2 Ben Harkins
2 Benjamin Kietzman
2 Haocheng Liu
2 JB Onofré
2 Joe Marshall
2 Joel Lubinitsky
2 Nic Crane
2 Steve Lord
2 Thomas Newton
2 Tom Scott-Coombes
2 Weston Pace
1 Adam Curtis
1 Alan Stoate
1 AlbertXingZhang
1 Alex Shcherbakov
1 Anja Kefala
1 Austin Dickey
1 Calvin Kirs
1 Clif Houck
1 David Schlosnagle
1 David Sisson
1 DenisTarasyuk
1 Ed
1 Even Rouault
1 Finn Völkel
1 Francis
1 Gavin Murrison
1 Ivan Chesnov
1 Jaap Versteegh
1 Jacek Stania
1 Jacob Hayes
1 James Duong
1 Joshua MacDonald
1 Judah Rand
1 Kartik Verma
1 Kelvin Wu
1 Kirill Khramkov
1 Konstantin Malanchev
1 Lei (Alexandra) Wang
1 LucasG0
1 Mike Bostock
1 Noam Ross
1 Nozomi Isozaki
1 PHILO-HE
1 PJ Fanning
1 Paul Taylor
1 Stephan T. Lavavej
1 Tao He
1 Tom McTiernan
1 Wenbo Li
1 Yifeng-Sigma
1 a-reich
1 andyfan
1 feik
1 hemidark
1 keshen-msft
1 normanj-bitquill
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-16.1.0..apache-arrow-17.0.0
130 Sutou Kouhei
89 David Li
39 Curt Hagenlocher
38 Antoine Pitrou
37 Joris Van den Bossche
22 Felipe Oliveira Carvalho
22 Raúl Cumplido
20 Matt Topol
14 mwish
11 Jacob Wujciak-Jens
11 Sarah Gilmore
8 AlenkaF
6 Bryce Mecum
6 Jonathan Keane
5 Benjamin Kietzman
5 Gang Wu
4 Dane Pitkin
4 Dewey Dunnington
4 Rok Mihevc
4 Weston Pace
3 Kevin Gurney
3 Nic Crane
3 dependabot[bot]
2 Will Jones
更新日志
Apache Arrow 17.0.0 (2024-07-16 07:00:00+00:00)
Bug 修复
- GH-15053 - [C++] 为字符串 'center' 内核添加选项以控制奇数填充时的左/右对齐 (#41449)
- GH-30866 - [Java] 修复当 vector 为空时 SplitAndTransfer 对 (0,0) 抛出异常的问题 (#41066)
- GH-34484 - [Substrait] 添加一个禁用增强字段的选项 (#41583)
- GH-37669 - [C++][Python] 修复转换为具有固定大小列表存储类型的扩展类型的问题 (#42219)
- GH-38553 - [C++] 在 ListArrayFromArray 和 MapArray 中用 MayHaveNulls 替换 null_count (#41957)
- GH-38575 - [Python] 从 PyCapsule 创建 pa.schema 时包含元数据 (#41538)
- GH-38770 - [C++][Python] 如果传递 ChunkedArray,RecordBatch.filter() 会导致段错误 (#40971)
- GH-39129 - [Python] pa.array: 增加对 python 对象内部字节交换过的 numpy 数组的检查 (#41549)
- GH-39489 - [C++][Parquet] 从 Parquet 到 Arrow 的时间戳转换不遵循 convertedType 的兼容性指南
- GH-39645 - [Python] 修复 read_table 读取加密的 parquet 文件 (#39438)
- GH-40270 - [C++] 将表写入 CSV 时,使用 LargeStringArray 进行转换 (#40271)
- GH-40560 - [Python] RunEndEncodedArray.from_arrays: 修复 Array 参数的 bug (#40560) (#41093)
- GH-40750 - [C++][Python] 从键和项构造的 Map 子数组不应有偏移量 (#40871)
- GH-40913 - [C++] 修复 encoding_benchmark 中 'implicitly-defined constructor does not initialize' 的编译警告 (#41060)
- GH-40997 - [C++] 在 NullUpdateColumnToRow_avx2 中根据 are_cols_in_encoding_order 获取 null_bit_id (#40998)
- GH-41112 - [C++] 清理未使用的参数警告 (#41111)
- GH-41149 - [C++][Acero] 修复 asof join 的竞争条件 (#41614)
- GH-41164 - [C#] 修复切片数组的拼接问题 (#41245)
- GH-41190 - [C++] 支持单线程连接 (#41125)
- GH-41192 - [C++] 修复 hashjoin 基准测试在生成 utf8 随机批次时失败的问题 (#41195)
- GH-41198 - [C#] 修复联合(union)数组的拼接问题 (#41226)
- GH-41199 - [C#] 修复访问切片后的 decimal 数组值的问题 (#41200)
- GH-41258 - [C#][Integration] 修复对具有非零偏移量的切片有效性缓冲区的比较 (#41259)
- GH-41263 - [C#][Integration] 确保在位图比较的所有分支中都考虑了偏移量 (#41264)
- GH-41282 - [Dev] 如果存在下一个主版本,合并脚本总是提示 (#41305)
- GH-41306 - [C++] 当 NullBitmapBuffer 为 Null 时,检查以避免复制 (#41452)
- GH-41317 - [C++] 修复无效 Parquet 文件导致的崩溃 (#41366)
- GH-41319 - [Python] `test_numpy_array_protocol` 测试在 numpy 2.0.0rc1 下失败
- GH-41321 - [C++][Parquet] 更严格的 Parquet 级别检查 (#41346)
- GH-41329 - [C++][Gandiva] 修复 gandiva 缓存大小环境变量 (#41330)
- GH-41340 - [C++][CMake][Windows] 从链接库中移除不必要的 .dll 后缀 (#41341)
- GH-41343 - [C++][CMake] 移除未使用的 ARROW_NO_DEPRECATED_API (#41345)
- GH-41356 - [Release][Docs] 更新发布后文档任务,为稳定版本移除警告横幅 (#41377)
- GH-41367 - [C++] 使用 Arrow 宏的 [maybe_unused] (#41359)
- GH-41371 - [CI][Release] 在 macOS 上使用最新的 Ruby (#41379)
- GH-41390 - [CI] 在 csharp macOS 作业中使用 setup-python GitHub action (#41392)
- GH-41397 - [C#] 降级 macOS 测试运行器以避免基础设施 bug (#41934)
- GH-41418 - [C++][Large] 为 scalar_if_else 的内核函数添加 ListView 和 Map 嵌套类型 (#41419)
- GH-41426 - [R][CI] 在 gh runners 上安装 CRAN 风格的 openssl (#41629)
- GH-41433 - [C++][Gandiva] 修复 ascii_utf8 函数以在 x86 和 Arm 上返回相同结果 (#41434)
- GH-41464 - [Python] 修复 StructArray.sort() 在 by=None 时的行为 (#41495)
- GH-41467 - [CI][Release] 不要推送 conda-verify-rc 镜像 (#41468)
- GH-41470 - [C++] 为直接注册重用去重逻辑 (#41466)
- GH-41471 - [Java] 修复性能 uber-jar (#41473)
- GH-41475 - [Python] 使用 Python 3.13 构建 (#42034)
- GH-41478 - [C++] 清理更多冗余的 move 警告 (#41487)
- GH-41491 - [Python] 在 python <2.6 中移除与缓冲区相关的特殊方法 (#41492)
- GH-41502 - [Python] 修复读取带有 decimal 值的列索引 (#41503)
- GH-41529 - [C++][Compute] 在 ExecScalarCaseWhen 中移除将 ArrayData 作为 ExecResults 的冗余逻辑 (#41380)
- GH-41534 - [Go] 修复导入 0 长度 C 数组时的内存泄漏 (#41535)
- GH-41541 - [Go][Parquet] 更多修复写入器性能回归问题 (#42003)
- GH-41541 - [Go][Parquet] 修复写入器性能回归问题 (#41638)
- GH-41571 - [Java] 还原 GH-41307 (#41309) (#41628)
- GH-41573 - [Java] VectorSchemaRoot 使用低效的流来复制 fieldVectors (#41574)
- GH-41581 - [C++][CMake] 正确使用 Protobuf_PROTOC_EXECUTABLE (#41582)
- GH-41587 - [Docs][Python] 移除重复内容 (#41588)
- GH-41602 - [C#] 解决构建警告 (#41645)
- GH-41617 - [C++][CMake] 修复 ARROW_USE_BOOST 检测条件 (#41622)
- GH-41630 - [Benchmarking] 修复基准测试中的源码外构建 (#41631)
- GH-41648 - [Java] 关于 splitAndTransfer 的内存泄漏 (#41898)
- GH-41660 - [CI][Java] 恢复与 devtoolset 相关的 GANDIVA_CXX_FLAGS (#41661)
- GH-41679 - [Release][Packaging][deb] 在 01-preparesh 中也更新包名 (#41859)
- GH-41684 - [C++][Python] 向 MapArray::FromArrays 添加可选的 null_bitmap (#41757)
- GH-41686 - [Java] 在 TransferPair 中未保留 struct 子向量的可空性 (#41785)
- GH-41688 - [Dev] 在 cmake-format precommit 钩子中包含所有相关的 CMakeLists.txt 文件 (#41689)
- GH-41697 - [Go][Parquet] 在 BufferedPageWriter 关闭时释放 BufferWriter (#41698)
- GH-41699 - [Python][Parquet] 在 SortingColumn 上实现 to_dict 方法 (#41704)
- GH-41711 - [C++] macros.h: 修复 MSVC 的 ARROW_FORCE_INLINE (#41712)
- GH-41717 - [Java][Vector] 修复 MessageSerializer 中 ByteBuffer rewind 的问题 (#41718)
- GH-41720 - [C++][Acero] 移除在 hash_join_benchmark 中调用的 QueryContext::Init 的一个无用参数 (#41716)
- GH-41725 - [Python] CMake: 如果 Parquet 本身未启用,则忽略 Parquet 加密选项 (修复 Java 集成构建) (#41776)
- GH-41735 - [CI][Archery] 更新 archery 以兼容 pygit2 1.15 API 更改 (#41739)
- GH-41738 - [C++] 修复临时向量堆栈可能尺寸不足的问题 (#41746)
- GH-41741 - [C++] 在尝试删除扩展元数据键之前检查其是否存在 (#41763)
- GH-41758 - [Python] 禁止直接构造 pa.RecordBatchReader() 以避免段错误 (#41773)
- GH-41771 - [C++] 迭代器在读取所有值后立即释放其资源 (#41824)
- GH-41780 - [C++][Flight][Benchmark] 确保等待服务器就绪 (#41793)
- GH-41784 - [Packaging][RPM] 对 -libs 包名使用 SO 版本 (#41838)
- GH-41787 - 更新 fmpp-maven-plugin 输出目录 (#41788)
- GH-41791 - [CI][Conda] 更新 azure.linux.yml 任务,将 CondaEnvironment@1 替换为 Bash@3 (#41883)
- GH-41813 - [C++] 修复 `CompareColumnsToRows` 中 avx2 gather 偏移量大于 2GB 的问题 (#42188)
- GH-41829 - [R] 将 README 中的相对 URL 更新为绝对路径,以防止 CRAN 检查失败 (#41830)
- GH-41836 - [Java] 修复当 ARROW_S3=OFF 时的未定义符号错误 (#41837)
- GH-41862 - [C++][S3] 修复关闭输出流时潜在的死锁问题 (#41876)
- GH-41884 - [Python] 修复 RecordBatchReader.cast 以支持所有类型转换为相等模式 (#42098)
- GH-41902 - [Java] 可变参数缓冲区计数不正确 (#41930)
- GH-41903 - [CI][GLib] 使用最新的 Ruby 以使用 OpenSSL 3 (#42001)
- GH-41920 - [CI][JS] 添加缺失的构建目录参数 (#41921)
- GH-41924 - [Python] 修复在 Windows 上使用 NumPy 2.0 时的测试 (#42099)
- GH-41964 - [CI][C++] 在 AppVeyor 上清除 mamba 的缓存 (#41977)
- GH-42005 - [Java][Integration][CI] 修复 ARROW_BUILD_ROOT 路径以找到 pom.xml (#42008)
- GH-42006 - [CI][Python] 在验证脚本上使用 pip install -e 而不是 setup.py build_ext --inplace 来安装 pyarrow (#42007)
- GH-42015 - [MATLAB] 在 MSVC 从 14.39.33519 更新到 14.40.33807 后,执行 `tfeather.m` 测试类会导致 MATLAB 在 `windows-2022` 上崩溃 (#42123)
- GH-42017 - [CI][Python][C++] 修复 Windows 上 wheel 的 utf8proc 检测 (#42022)
- GH-42039 - [Docs][Go] 修复损坏的链接 (#42040)
- GH-42041 - [Swift] 修复可空类型解码器问题 (#42043)
- GH-42065 - [C++] 支持 list_slice 上的 list-views (#42067)
- GH-42104 - [C++] 修复 OTel 测试失败并移除不必要的日志 (#42122)
- GH-42107 - [C++][FS][Azure] 确保设置 BlobSasBuilder::Protocol (#42108)
- GH-42116 - [C++] 在 array_take 和 array_filter 中支持 list-view 类型数组 (#42117)
- GH-42130 - [GLib] 修复使用 MSVC 构建 gir 文件的问题 (#42131)
- GH-42136 - [CI][Go][Java][JS] 明确使用基于 AMD64 的 macOS (#42175)
- GH-42139 - [C++] 修复一些潜在的未初始化变量警告 (#42207)
- GH-42140 - [C++] 避免 parquet-encoding-benchmark 中的无效访问 (#42141)
- GH-42149 - [C++] 对绑定的 ORC 使用 FetchContent (#43011)
- GH-42170 - [Python][CI] 更新 numpy 2.0.0 的预期输出 (#42172)
- GH-42197 - [CI][Packaging][Java] 确保在 macOS 上更新 "python@*" 公式 (#42202)
- GH-42198 - [C++] 修复 GetRecordBatchPayload 对设备数据的崩溃 (#42199)
- GH-42208 - [Java] 修复 flight-sql-jdbc-driver 模块中的测试 (#42217)
- GH-42213 - [Swift] 仅在 CI 上使用“--warnings-as-errors” (#42214)
- GH-42220 - [R] 在元数据清理中处理 vctrs_rcrd 扩展类型 (#42226)
- GH-42224 - [Java] 修复 TestAceroSubstraitConsumer 测试方法中的拼写错误 (#42225)
- GH-42232 - [C++] 使用未过期的 c-ares 下载 URL (#42250)
- GH-42234 - [CI][R] 在 valgrind 测试中禁用 libarrow 二进制文件的使用 (#42249)
- GH-43048 - [JAVA] 修复 IndexOutOfBoundsException 消息,正确报告索引 (#43049)
- GH-43058 - [C#] 还原 Xunit 从 2.8.0 升级到 2.8.1 的操作 (#43074)
- GH-43059 - [CI][Gandiva] 在 AlmaLinux 8 上禁用 Python Gandiva 测试 (#43093)
- GH-43062 - [Go] 使用 calloc 而不是 malloc (#43052)
- GH-43070 - [C++][Parquet] 检查有效的密文长度以防止段错误 (#43071)
- GH-43116 - [C++][Compute] 将 KeyCompare.CompareColumnsToRowsLarge 标记为大内存测试 (#43128)
- GH-43119 - [CI][Packaging] 更新已弃用的 manylinux 2014 CentOS 仓库 (#43121)
- GH-43122 - [CI][Packaging][RPM][CentOS] 为 SCL 使用 vault.centos.org (#43127)
- GH-43134 - [C++] 将绑定的 google-cloud-cpp 升级到 2.22.0 (#43136)
- GH-43158 - [Packaging] 在 AlmaLinux 8/CentOS Stream 8 上使用绑定的 nlohmann/json (#43159)
- GH-43199 - [CI][Packaging] dev/release/utils-create-release-tarball.sh 不应在 tarball 顶层目录名称中包含发布候选版本号 (#43200)
- GH-43204 - [CI][Packaging] 应用 vcpkg 补丁以修复 Thrift 版本 (#43208)
新功能和改进
- GH-29537 - [R] 支持带隐式连接的 mutate/summarize (#41350)
- GH-33484 - [C++][Compute] 实现 `Grouper::Reset` (#41352)
- GH-35804 - [CI][Packaging][Conan] 同步上游 conan (#39729)
- GH-35888 - [Java] 添加 FlightStatusCode.RESOURCE_EXHAUSTED (#41508)
- GH-37333 - [Python] 用 vendored 版本替换 pandas.util.testing.rands (#42089)
- GH-37720 - [Go][FlightSQL] 向 DoPut 结果添加预准备语句句柄 (#40311)
- GH-37728 - [Java] 添加方法以获取 ValueVector 的 Iterable (#41895)
- GH-37929 - [Python] 开始将静态设置移至 pyproject.toml (#41041)
- GH-37938 - [Swift] 添加初始 C 数据接口实现 (#41342)
- GH-38255 - [Go][C++] 实现 Flight SQL 批量注入 (#38385)
- GH-38325 - [Python] 在 PyArrow 中为设备数据实现 PyCapsule 接口 (#40717)
- GH-38325 - [Python] 扩展 Arrow PyCapsule 接口以支持 C 设备数据 (#40708)
- GH-38692 - [C#] 在标量数组上实现 ICollection<T?> (#41539)
- GH-39204 - [Format][FlightRPC][Docs] 稳定 Flight SQL (#41657)
- GH-39220 - [Python] 让 RecordBatch.filter 接受布尔表达式以及掩码数组 (#43043)
- GH-39301 - [Archery][CI][Integration] 将 nanoarrow 添加到 archery + 集成设置中 (#39302)
- GH-39344 - [C++][FS][Azure] 支持 azure cli 认证 (#41976)
- GH-39345 - [C++][FS][Azure] 添加对环境凭证的支持 (#41715)
- GH-39649 - [Java][CI] 修复或抑制虚假的 errorprone 警告阶段 2 (#39777)
- GH-39722 - [JS] 清理打包 (#39723)
- GH-39798 - [C++] 优化固定大小类型的 Take,包括嵌套的固定大小列表 (#41297)
- GH-39858 - [C++][Device] 向 CPU 指针添加复制/视图切片函数 (#41477)
- GH-39898 - [C++] 添加对 OpenTelemetry 日志记录的支持 (#39905)
- GH-39990 - [Docs][CI] 添加 sphinx-lint 用于文档检查 (#40022)
- GH-40078 - [C++] 导入/导出 ArrowDeviceArrayStream (#40807)
- GH-40339 - [Java] StringView 初始实现 (#40340)
- GH-40342 - [Python] 修复 LocalFileSystem 对 cython 2 的序列化问题 (#41459)
- GH-40342 - [C++] 将 LocalFileSystem 移至注册表 (#40356)
- GH-40361 - [C++] 使 flatbuffers 序列化更具确定性 (#40392)
- GH-40384 - [Python] 扩展 C 设备接口绑定以支持在 CUDA 设备上导入 (#40385)
- GH-40494 - [Go] 添加对 protobuf 消息的支持 (#40496)
- GH-40644 - [Python] 允许向 `rename_columns` 传递列名映射 (#40645)
- GH-40734 - [Packaging][Debian] 放弃对 Debian bullseye 的支持 (#41394)
- GH-40749 - [Python][Packaging] 构建 wheels 时剥离不必要的符号 (#42028)
- GH-40819 - [Java] 将 Spotless 添加到 Algorithm 模块 (#41825)
- GH-40820 - [Java] 将 Spotless 添加到 Adapter 模块 (#42048)
- GH-40822 - [Java] 将 Spotless 添加到 C 模块 (#42059)
- GH-40823 - [Java] 将 Spotless 添加到 Compression 模块 (#42060)
- GH-40824 - [Java] 将 Spotless 添加到 Dataset 模块 (#42062)
- GH-40825 - [Java] 将 Spotless 添加到 Flight 模块 (#42063)
- GH-40826 - [Java] 将 Spotless 添加到 Format 模块
- GH-40827 - [Java] 将 Spotless 添加到 Gandiva 模块 (#42055)
- GH-40828 - [Java] 格式化 arrow-maven-plugins 模块 (#42054)
- GH-40829 - [Java] 将 Spotless 添加到 Memory 模块 (#42056)
- GH-40830 - [Java] 将 Spotless 添加到 Performance 模块 (#42057)
- GH-40831 - [Java] 将 Spotless 添加到 Tools 模块 (#42058)
- GH-40832 - [Java] 将 Spotless 添加到 Vector 模块 (#42061)
- GH-40930 - [Java] 在 StringView 中实现一个检索引用缓冲区的函数 (#41796)
- GH-40932 - [Java] 为 StringView 实现 TransferPair 功能 (#41861)
- GH-40933 - [Java] 增强 StringView 中的 copyFrom* 功能 (#41752)
- GH-40942 - [Java] 为 StringView 实现 C 数据接口 (#41967)
- GH-40943 - [Java] 为 StringView 实现 RangeEqualsVisitor (#41636)
- GH-40944 - [Java] 为 StringView 实现 TypeEqualsVisitor (#41606)
- GH-40968 - [C++][Gandiva] 为 Like 函数添加 RE2::Options set_dot_nl(true) (#40970)
- GH-41020 - [C++] 引入可移植的编译器假设 (#41021)
- GH-41035 - [C++] 添加一个 grouper 基准测试以防止性能回归 (#41036)
- GH-41055 - [C++] 支持 flatten 以组合嵌套列表相关类型 (#41092)
- GH-41085 - [CI][Java] 在 Crossbow 任务中将 Spark 集成测试添加到 "java" 组 (#41086)
- GH-41089 - [C++] 清理与半浮点数转换相关的剩余任务 (#41084)
- GH-41095 - [C++][FS][Azure] 添加对支持层次命名空间的 CopyFile 的支持 (#41276)
- GH-41102 - [Packaging][Release] 为发布候选版本创建唯一的 git 标签 (例如 apache-arrow-{MAJOR}.{MINOR}.{PATCH}-rc{RC_NUM}) (#41131)
- GH-41105 - [Python][Docs] 更新 PyArrow 安装文档以适应 conda 包拆分 (#41135)
- GH-41114 - [C++] 添加 is_validity_defined_by_bitmap() 谓词 (#41115)
- GH-41116 - [C++] IO: 增强 CompressedInputStream 中的边界检查 (#41117)
- GH-41126 - [Python] Device 和 MemoryManager 类的基本绑定 (#41685)
- GH-41134 - [GLib] 支持使用 MSVC 构建 arrow-glib (#41599)
- GH-41159 - [Go][Parquet] 提高 Parquet BitWriter WriteVlqInt 的性能 (#41160)
- GH-41173 - [Java] 为 Maven pom.xml 文件添加 spotless 配置 (#41174)
- GH-41183 - [C++][Python] 在 list_flatten 内核函数和 pyarrow 绑定上暴露列表的递归 flatten (#41295)
- GH-41186 - [C++][Parquet][Doc] 在 parquet.rst 中标示 PARQUET:field_id (#41187)
- GH-41203 - [Python][Packaging] 确保在 wheel 构建工作流中使用已发布的 numpy 2.0 (而非 RC) 进行构建 (#42194)
- GH-41240 - [Release][Packaging] 使用 Debian bookworm 上传二进制文件 (#41241)
- GH-41243 - [Release][Packaging] 通过 "archery crossbow download-artifacts" 避免不必要的下载 (#41244)
- GH-41256 - [Format][Docs] 为 JSON 添加一个规范的扩展类型规范 (#41257)
- GH-41262 - [Java][FlightSQL] 实现无状态预准备语句 (#41237)
- GH-41287 - [Java] ListViewVector 实现 (#41285)
- GH-41298 - [Format][Docs] 为 UUID 添加一个规范的扩展类型规范 (#41299)
- GH-41301 - [C++] 提取 PrimitiveTakeExec 使用的内核循环并推广到任何固定宽度类型 (#41373)
- GH-41307 - [Java] 使用 org.apache:apache parent pom 版本 31 (#41772)
- GH-41307 - [Java] 使用 org.apache:apache parent pom 版本 31 (#41309)
- GH-41314 - [CI][Python] 在 ARM64 macOS 上添加一个作业 (#41313)
- GH-41316 - [CI][Python] 减少 macOS 上的 CI 时间 (#41378)
- GH-41323 - [R] 重做 summarize() 评估表达式的方式 (#41223)
- GH-41327 - [Ruby] 在 Arrow::Table#to_s 中显示类型名称 (#41328)
- GH-41334 - [C++][Acero] 使用基于每个节点的临时向量堆栈来减轻溢出 (#41335)
- GH-41349 - [C#] 在 .NET 7+ 上优化 DecimalUtility.GetBytes(SqlDecimal) (#42150)
- GH-41358 - [R] 支持 join 的 "na_matches" 参数 (#41372)
- GH-41361 - [C++][Parquet] 当 max_rep_level > 1 时,通过批量执行优化 DelimitRecords (#41362)
- GH-41375 - [C#] 迁移到 .NET 8.0 (#41376)
- GH-41385 - [CI][MATLAB][Packaging] 在 CI 和 crossbow 打包工作流中添加对 MATLAB `R2024a` 的支持 (#41504)
- GH-41389 - [Python] 以存储类型的方式暴露 ExtensionType 的 byte_width 和 bit_width (#41413)
- GH-41400 - [MATLAB] 将 `libmexclass` 版本提升到提交 `ca3cea6` (#41436)
- GH-41410 - [C++][FS][Azure][Docs] 将 AzureFileSystem 添加到文件系统 API 参考 (#41411)
- GH-41420 - [R] 为 16.1.0 更新 NEWS.md (#41422)
- GH-41427 - [Go] 修复无状态预准备语句 (#41428)
- GH-41430 - [Docs] 使用 sphinxcontrib-mermaid 而不是从 .mmd 生成图像 (#41455)
- GH-41435 - [CI][MATLAB] 添加作业以在 `macos-14` 上构建和测试 MATLAB 接口 (#41592)
- GH-41450 - [R][CI] rhub/container 后续操作 (#41451)
- GH-41460 - [C++] 使用 ASAN 对临时向量堆栈内存进行污染检测 (#41695)
- GH-41480 - [Python] 更新关于基于 Arrow C++ 默认启用组件的 Python 开发指南 (#41705)
- GH-41480 - [Python] 构建 PyArrow:基于 Arrow C++ 的可用性默认启用/禁用 python 组件 (#41494)
- GH-41493 - [C++][S3] 添加一个新选项,在 CreateDir 之前检查是否存在 (#41822)
- GH-41507 - [MATLAB][CI] 向 `matlab-actions/run-tests@v2` 传递 `strict: true` (#41530)
- GH-41527 - [CI][Dev] 移除对 six 的不必要依赖 (#43087)
- GH-41531 - [MATLAB][Packaging] 在 `crossbow` 作业中将 `matlab-actions/setup-matlab` 和 `matlab-actions/run-command` 从 `v1` 升级到 `v2` (#41532)
- GH-41540 - [R] 简化 arrow_eval() 逻辑和绑定环境 (#41537)
- GH-41545 - [C++][Parquet] 修复 DeltaLengthByteArrayEncoder::EstimatedDataEncodedSize (#41546)
- GH-41547 - [C++] 第三方库:将 xsimd 升级到 13.0.0 (#41548)
- GH-41558 - [C++] 改进 fixed_width_test_util.h (#41575)
- GH-41560 - [C++] ChunkResolver: 实现 ResolveMany 并添加单元测试 (#41561)
- GH-41590 - [Java] 改进 BaseRepeatedValueVector 在 isEmpty 和 isNull 操作上的函数 (#41601)
- GH-41596 - [C++] fixed_width_internal.h: 简化文档字符串并支持位大小类型 (BOOL) (#41597)
- GH-41608 - [C++][Python] 将 add_key_value 扩展到 parquet::arrow 和 PyArrow (#41633)
- GH-41611 - [Docs][CI] 为文档启用大多数 sphinx-lint 规则 (#41612)
- GH-41620 - [Docs] 文档化 merge.conf 的用法 (#41621)
- GH-41626 - [R][CI] 将 OpenSUSE 从 15.3 更新到 15.5 (#41627)
- GH-41652 - [C++][CMake][Windows] 不构建不必要的对象库 (#41658)
- GH-41653 - [MATLAB] 添加新的 `arrow.c.Array` MATLAB 类,该类包装一个 C 数据接口格式的 `ArrowArray` C 结构体 (#41655)
- GH-41654 - [MATLAB] 添加新的 `arrow.c.Schema` MATLAB 类,该类包装一个 C 数据接口格式的 `ArrowSchema` C 结构体 (#41674)
- GH-41656 - [MATLAB] 为 `arrow.array.Array` 添加 C 数据接口格式的导入/导出功能 (#41737)
- GH-41662 - [Python] 确保 Buffer 方法在处理非 CPU 数据时不会崩溃 (#41889)
- GH-41664 - [C++][Python] 通过复制到默认 CPU 设备来美化打印非 CPU 数据 (#42010)
- GH-41675 - [Packaging][MATLAB] 添加 crossbow 作业以在 macos-14 上打包 MATLAB 接口 (#41677)
- GH-41681 - [GLib] 为每个 GLib 库生成单独的版本宏 (#41721)
- GH-41691 - [Doc] 移除“逻辑类型”的概念 (#41958)
- GH-41702 - [C++][Parquet] Thrift: 生成模板方法以加速读取 thrift (#41703)
- GH-41726 - [C++][Parquet] 小改进:默认移动 EncodedStats 而不是复制 (#41727)
- GH-41730 - [Java] 向 RecordBatch 添加 variadicBufferCounts (#41732)
- GH-41748 - [Python][Parquet] 更新 write_table() 文档字符串中的 BYTE_STREAM_SPLIT 描述 (#41759)
- GH-41749 - [GLib] 允许从 Dataset 或 Scanner 获取 RecordBatchReader (#41750)
- GH-41755 - [C++][ORC] 确保设置检测到的 ORC 版本 (#41767)
- GH-41760 - [C++][Parquet] 添加文件元数据读/写基准测试 (#41761)
- GH-41770 - [CI][GLib] 显式移除临时文件 (#41807)
- GH-41783 - [C++] 将 git 相关的定义设为内部定义 (#41781)
- GH-41789 - [Java] 清理 immutables 和 checkerframework 依赖 (#41790)
- GH-41797 - [C++][S3] 为较新的 AWS SDK 版本移除 GetBucketRegion 技巧 (#41798)
- GH-41799 - [Java] 迁移到 com.gradle:develocity-maven-extension (#41800)
- GH-41803 - [MATLAB] 为 `arrow.tabular.RecordBatch` 添加 C 数据接口格式的导入/导出功能 (#41817)
- GH-41804 - [Swift] 添加 Struct (嵌套) 类型 (#43082)
- GH-41806 - [GLib][CI] 在使用 MSVC 构建 GLib 库时,为 C++ 依赖项使用 vcpkg (#41839)
- GH-41818 - [C++][Parquet] 将字典编码规范化为使用 RLE_DICTIONARY (#41819)
- GH-41834 - [R] dplyr 代码中更好的错误处理 (#41576)
- GH-41841 - [R][CI] 移除更多已废弃的 rhub 容器 (#41828)
- GH-41887 - [Go] 通过 pre-commit 运行 linter (#41888)
- GH-41899 - [C++] IPC: 对写入器代码进行小幅增强 (#41900)
- GH-41905 - [JS] 更新依赖 (#41906)
- GH-41910 - [Python] 添加对 Pyodide 的支持 (#37822)
- GH-41923 - [C++] 修复 ExecuteScalar 使用 chunked_array 推断 all_scalar 的问题 (#41925)
- GH-41929 - [Java] pom.xml 许可证格式化 (#42049)
- GH-41945 - [Swift] 添加接口 ArrowArrayHolderBuilder (#41946)
- GH-41947 - [Java] 在 JDBC 驱动程序中支持使用会话选项的目录 (#42035)
- GH-41952 - [R] 在 macOS 上默认开启 S3 和 ZSTD (#42210)
- GH-41953 - [C++] FixedShapeTensorType 的代码风格小幅增强 (#41954)
- GH-41955 - [C++] 跟进向 MapArray::FromArrays 添加 null_bitmap 的工作 (#41956)
- GH-41960 - 暴露新的 S3 选项 check_directory_existence_before_creation (#41972)
- GH-41968 - [Java] 为 BinaryView 实现 TransferPair 功能 (#41980)
- GH-41970 - [C++] 其他更改,使围绕类列表类型和列表视图类型的代码行为方式相同 (#41971)
- GH-41978 - [Python] 修复 pandas 测试以遵循下游 datetime64 单位更改 (#41979)
- GH-41983 - [Dev] 仅在创建问题时(而非编辑时)运行问题标签机器人 (#41986)
- GH-41994 - [C++] : kernel.cc: 移除 switch 上的 defaults,以便编译器可以为我们检查完整的枚举覆盖范围 (#41995)
- GH-41999 - [Swift] 添加方法用于向 arrow 数组添加数组和可变参数 (#42000)
- GH-42002 - [Java] 更新 Vector 模块的单元测试 (#42019)
- GH-42013 - [Python] 允许 Array.filter() 接受通用数组输入 (#42051)
- GH-42016 - [Python] 在 pyarrow.parquet 绑定中暴露新的 FLOAT16 逻辑类型 (#42103)
- GH-42020 - [Swift] 为 Swift Codable 添加 Arrow 解码实现 (#42023)
- GH-42021 - [Swift] 为 Swift Codable 添加 Arrow 编码器实现 (#43063)
- GH-42025 - [Java] 更新 Algorithm 模块的单元测试 (#42029)
- GH-42030 - [Java] 更新 Adapter 模块的单元测试 (#42038)
- GH-42042 - [Java] 更新 Compressions 模块的单元测试 (#42044)
- GH-42045 - [Java] 更新 Flight 模块的单元测试 (#42158)
- GH-42087 - [Swift] 重构以移除构建警告 (#42088)
- GH-42092 - [Java] 更新 Tools 模块的单元测试 (#42093)
- GH-42100 - [C++][Parquet] ParquetFilePrinter::JSONPrint 打印 FLBA 的长度 (#41981)
- GH-42101 - [Java] 在 FileRoundtrip 中为输出验证创建文件 (#42115)
- GH-42109 - [C++][CMake] 为 Valgrind 添加预设 (#42110)
- GH-42112 - [Python] Array 在非 CPU 设备上优雅失败 (#42113)
- GH-42121 - [Java] 清理 spotless 插件配置 (#43019)
- GH-42124 - [Swift] 添加按类型加载和验证构建器的方法 (#42195)
- GH-42126 - [C++] 将 TakeXXX 自由函数移入 TakeMetaFunction 并设为私有 (#42127)
- GH-42128 - [Packaging][CentOS] 将 CentOS 7 和 CentOS Stream 8 的打包作业迁移到使用 vault.centos.org (#42129)
- GH-42134 - [C++][FS][Azure] 验证 AzureOptions::{blob,dfs}_storage_scheme (#42135)
- GH-42143 - [R] 清理 R 元数据 (#41969)
- GH-42146 - [MATLAB] 添加 IPC `RecordBatchFileReader` 和 `RecordBatchFileWriter` MATLAB 类 (#42201)
- GH-42162 - [Java] 更新 Dataset 模块的单元测试 (#42163)
- GH-42164 - [Java] 更新 Gandiva 模块的单元测试 (#42166)
- GH-42165 - [Java] 更新 Memory 模块的单元测试 (#42161)
- GH-42167 - [CI] 升级 .env 中 vcpkg 的版本 (#42171)
- GH-42168 - [Python][Parquet] Pyarrow 将 decimal 存储为整数 (#42169)
- GH-42190 - [Python] 为 Numpy 1.X 添加 CI 作业 (#42189)
- GH-42193 - [Java] 更新依赖以仅保留 JUnit 5 (#42206)
- GH-42228 - [CI][Java] 在 java-jars 中抑制传输进度日志 (#42230)
- GH-42235 - [C++] list_parent_indices: 添加对列表视图类型的支持 (#42236)
- GH-42243 - [Swift] 更新 isValidBuilderType 以不需要类型实例 (#42244)
- GH-42245 - [Swift] 确保所有键类型的 map 行为相同 (#42246)
- GH-43020 - [Java] 简化 flight.properties 生成 (#43028)
- GH-43033 - [CI][Docker] 为 python-wheel-windows-test-vs2019 启用 linter (#43034)
- GH-43040 - [C++] 减少多路连接测试的递归 (#43042)
- GH-43045 - [CI][Python] 在 python substrait 集成中固定 openjdk=17 (#43051)
- GH-43060 - [C++] 在 BufferedInputStream::SetBufferSize 中使用 raw_read_bound 限制缓冲区大小 (#43064)
- GH-43076 - [C#] 升级 Xunit 并更改跳过 Python 集成测试的方式 (#43091)