Apache Arrow 17.0.0 (2024 年 7 月 16 日)
这是一个主要版本,涵盖了 2 个多月以来的开发。
下载
贡献者
此版本包含来自 92 位不同贡献者的 529 个提交。
$ git shortlog -sn apache-arrow-16.1.0..apache-arrow-17.0.0
84 dependabot[bot]
47 Sutou Kouhei
25 Hyunseok Seo
25 Joris Van den Bossche
22 Raúl Cumplido
21 Adam Reeve
21 Vibhatha Lakmal Abeykoon
20 mwish
18 Laurent Goujon
15 Felipe Oliveira Carvalho
14 abandy
13 Sarah Gilmore
12 Rossi Sun
11 Neal Richardson
10 Alenka Frim
10 Antoine Pitrou
10 Bryce Mecum
9 ZhangHuiGui
8 Jonathan Keane
6 Dewey Dunnington
6 Dominik Moritz
6 Matt Topol
5 Gang Wu
5 William Ayd
4 Curt Hagenlocher
4 Dane Pitkin
4 David Li
4 Tai Le Manh
4 h-vetinari
3 Ian Cook
3 Jacob Wujciak-Jens
3 Kevin Gurney
3 Rok Mihevc
3 Thomas A Caswell
3 Wyatt Alt
2 Ben Harkins
2 Benjamin Kietzman
2 Haocheng Liu
2 JB Onofré
2 Joe Marshall
2 Joel Lubinitsky
2 Nic Crane
2 Steve Lord
2 Thomas Newton
2 Tom Scott-Coombes
2 Weston Pace
1 Adam Curtis
1 Alan Stoate
1 AlbertXingZhang
1 Alex Shcherbakov
1 Anja Kefala
1 Austin Dickey
1 Calvin Kirs
1 Clif Houck
1 David Schlosnagle
1 David Sisson
1 DenisTarasyuk
1 Ed
1 Even Rouault
1 Finn Völkel
1 Francis
1 Gavin Murrison
1 Ivan Chesnov
1 Jaap Versteegh
1 Jacek Stania
1 Jacob Hayes
1 James Duong
1 Joshua MacDonald
1 Judah Rand
1 Kartik Verma
1 Kelvin Wu
1 Kirill Khramkov
1 Konstantin Malanchev
1 Lei (Alexandra) Wang
1 LucasG0
1 Mike Bostock
1 Noam Ross
1 Nozomi Isozaki
1 PHILO-HE
1 PJ Fanning
1 Paul Taylor
1 Stephan T. Lavavej
1 Tao He
1 Tom McTiernan
1 Wenbo Li
1 Yifeng-Sigma
1 a-reich
1 andyfan
1 feik
1 hemidark
1 keshen-msft
1 normanj-bitquill
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-16.1.0..apache-arrow-17.0.0
130 Sutou Kouhei
89 David Li
39 Curt Hagenlocher
38 Antoine Pitrou
37 Joris Van den Bossche
22 Felipe Oliveira Carvalho
22 Raúl Cumplido
20 Matt Topol
14 mwish
11 Jacob Wujciak-Jens
11 Sarah Gilmore
8 AlenkaF
6 Bryce Mecum
6 Jonathan Keane
5 Benjamin Kietzman
5 Gang Wu
4 Dane Pitkin
4 Dewey Dunnington
4 Rok Mihevc
4 Weston Pace
3 Kevin Gurney
3 Nic Crane
3 dependabot[bot]
2 Will Jones
更新日志
Apache Arrow 17.0.0 (2024-07-16 07:00:00+00:00)
Bug 修复
- GH-15053 - [C++] 添加字符串“居中”内核的选项,以控制奇数填充上的左/右对齐方式 (#41449)
- GH-30866 - [Java] 修复如果向量为空,SplitAndTransfer 会抛出 (0,0) 异常 (#41066)
- GH-34484 - [Substrait] 添加禁用增强字段的选项 (#41583)
- GH-37669 - [C++][Python] 修复使用固定大小列表存储类型强制转换为扩展类型 (#42219)
- GH-38553 - [C++] 在 ListArrayFromArray 和 MapArray 中用 MayHaveNulls 替换 null_count (#41957)
- GH-38575 - [Python] 从 PyCapsule 创建 pa.schema 时包含元数据 (#41538)
- GH-38770 - [C++][Python] 如果传递 ChunkedArray,RecordBatch.filter() 会发生段错误 (#40971)
- GH-39129 - [Python] pa.array:添加对 python 对象内部字节交换 numpy 数组的检查 (#41549)
- GH-39489 - [C++][Parquet] 从 Parquet 到 Arrow 的时间戳转换不遵循 convertedType 的兼容性指南
- GH-39645 - [Python] 修复加密 parquet 的 read_table (#39438)
- GH-40270 - [C++] 将表写入 CSV 时,使用 LargeStringArray 进行强制转换 (#40271)
- GH-40560 - [Python] RunEndEncodedArray.from_arrays:Array 参数的错误修复 (#40560) (#41093)
- GH-40750 - [C++][Python] 从键和项构造的 Map 子 Array 不应具有偏移量 (#40871)
- GH-40913 - [C++] 修复编码基准测试中“隐式定义的构造函数未初始化”的编译警告 (#41060)
- GH-40997 - [C++] 根据 NullUpdateColumnToRow_avx2 中的 are_cols_in_encoding_order 获取 null_bit_id (#40998)
- GH-41112 - [C++] 清理未使用的参数警告 (#41111)
- GH-41149 - [C++][Acero] 修复 asof join 竞争 (#41614)
- GH-41164 - [C#] 修复切片数组的连接 (#41245)
- GH-41190 - [C++] 支持单线程连接 (#41125)
- GH-41192 - [C++] 修复哈希连接基准测试在生成 utf8 的随机批次时失败 (#41195)
- GH-41198 - [C#] 修复联合数组的连接 (#41226)
- GH-41199 - [C#] 修复访问切片十进制数组的值 (#41200)
- GH-41258 - [C#][Integration] 修复具有非零偏移量的切片有效性缓冲区的比较 (#41259)
- GH-41263 - [C#][Integration] 确保在位图比较的所有分支中都考虑偏移量 (#41264)
- GH-41282 - [Dev] 如果存在,始终在合并脚本上提示下一个主要版本 (#41305)
- GH-41306 - [C++] 检查以避免在 NullBitmapBuffer 为 Null 时复制 (#41452)
- GH-41317 - [C++] 修复无效 Parquet 文件上的崩溃 (#41366)
- GH-41319 - [Python] `test_numpy_array_protocol` 测试在使用 numpy 2.0.0rc1 时失败
- GH-41321 - [C++][Parquet] 更严格的 Parquet 级别检查 (#41346)
- GH-41329 - [C++][Gandiva] 修复 gandiva 缓存大小环境变量 (#41330)
- GH-41340 - [C++][CMake][Windows] 从链接库中删除不必要的 .dll 后缀 (#41341)
- GH-41343 - [C++][CMake] 删除未使用的 ARROW_NO_DEPRECATED_API (#41345)
- GH-41356 - [Release][Docs] 更新发布后文档任务,以删除稳定版本的警告横幅 (#41377)
- GH-41367 - [C++][maybe_unused] 使用 Arrow 宏 (#41359)
- GH-41371 - [CI][Release] 在 macOS 上使用最新的 Ruby (#41379)
- GH-41390 - [CI] 在 csharp macOS 作业上使用 setup-python GitHub action (#41392)
- GH-41397 - [C#] 降级 macOS 测试运行程序以避免基础设施错误 (#41934)
- GH-41418 - [C++][Large] 用于 scalar_if_else 内核函数的 ListView 和 Map 嵌套类型 (#41419)
- GH-41426 - [R][CI] 在 gh 运行器上安装 CRAN 样式的 openssl。 (#41629)
- GH-41433 - [C++][Gandiva] 修复 ascii_utf8 函数以在 x86 和 Arm 上返回相同的结果 (#41434)
- GH-41464 - [Python] 修复 by=None 的 StructArray.sort() (#41495)
- GH-41467 - [CI][Release] 不要推送 conda-verify-rc 镜像 (#41468)
- GH-41470 - [C++] 为直接注册重用重复数据删除逻辑 (#41466)
- GH-41471 - [Java] 修复性能 uber-jar (#41473)
- GH-41475 - [Python] 使用 Python 3.13 构建 (#42034)
- GH-41478 - [C++] 清理更多冗余的移动警告 (#41487)
- GH-41491 - [Python] 删除 python <2.6 中与缓冲区相关的特殊方法 (#41492)
- GH-41502 - [Python] 修复读取带有十进制值的列索引 (#41503)
- GH-41529 - [C++][Compute] 删除 ExecScalarCaseWhen 中作为 ExecResults 的 ArrayData 的冗余逻辑 (#41380)
- GH-41534 - [Go] 修复导入 0 长度 C Array 的内存泄漏 (#41535)
- GH-41541 - [Go][Parquet] 更多针对编写器性能回归的修复 (#42003)
- GH-41541 - [Go][Parquet] 修复编写器性能回归 (#41638)
- GH-41571 - [Java] 还原 GH-41307 (#41309) (#41628)
- GH-41573 - [Java] VectorSchemaRoot 使用低效的流来复制 fieldVectors (#41574)
- GH-41581 - [C++][CMake] 正确使用 Protobuf_PROTOC_EXECUTABLE (#41582)
- GH-41587 - [Docs][Python] 删除重复内容 (#41588)
- GH-41602 - [C#] 解决构建警告 (#41645)
- GH-41617 - [C++][CMake] 修复 ARROW_USE_BOOST 检测条件 (#41622)
- GH-41630 - [Benchmarking] 修复基准测试中的源外构建 (#41631)
- GH-41648 - [Java] 关于 splitAndTransfer 的内存泄漏 (#41898)
- GH-41660 - [CI][Java] 恢复 devtoolset 相关的 GANDIVA_CXX_FLAGS (#41661)
- GH-41679 - [Release][Packaging][deb] 也在 01-preparesh 中更新包名称 (#41859)
- GH-41684 - [C++][Python] 将可选的 null_bitmap 添加到 MapArray::FromArrays (#41757)
- GH-41686 - [Java] 结构子向量的 Nullability 未在 TransferPair 中保留 (#41785)
- GH-41688 - [Dev] 在 cmake-format precommit 钩子中包含所有相关的 CMakeLists.txt 文件 (#41689)
- GH-41697 - [Go][Parquet] 在 BufferedPageWriter 关闭时释放 BufferWriter (#41698)
- GH-41699 - [Python][Parquet] 在 SortingColumn 上实现 to_dict 方法 (#41704)
- GH-41711 - [C++] macros.h:修复 MSVC 的 ARROW_FORCE_INLINE (#41712)
- GH-41717 - [Java][Vector] 修复 MessageSerializer 中 ByteBuffer 倒带问题 (#41718)
- GH-41720 - [C++][Acero] 删除 hash_join_benchmark 中调用的 QueryContext::Init 的无用参数 (#41716)
- GH-41725 - [Python] CMake:如果 Parquet 本身未启用,则忽略 Parquet 加密选项(修复 Java 集成构建) (#41776)
- GH-41735 - [CI][Archery] 更新 archery 以与 pygit2 1.15 API 更改兼容 (#41739)
- GH-41738 - [C++] 修复临时向量堆栈可能大小不足的问题 (#41746)
- GH-41741 - [C++] 在尝试删除扩展元数据密钥之前,请检查该密钥是否存在 (#41763)
- GH-41758 - [Python] 禁止直接 pa.RecordBatchReader() 构造以避免段错误 (#41773)
- GH-41771 - [C++] 迭代器在读取所有值时立即释放其资源 (#41824)
- GH-41780 - [C++][Flight][Benchmark] 确保等待服务器准备就绪 (#41793)
- GH-41784 - [Packaging][RPM] 对 -libs 包名称使用 SO 版本 (#41838)
- GH-41787 - 更新 fmpp-maven-plugin 输出目录 (#41788)
- GH-41791 - [CI][Conda] 更新 azure.linux.yml 任务,将 CondaEnvironment@1 替换为 Bash@3 (#41883)
- GH-41813 - [C++] 修复
CompareColumnsToRows
中大于 2GB 的 avx2 收集偏移量 (#42188) - GH-41829 - [R] 将 README 中的相对 URL 更新为绝对路径,以防止 CRAN 检查失败 (#41830)
- GH-41836 - [Java] 修复 ARROW_S3=OFF 时的未定义符号错误 (#41837)
- GH-41862 - [C++][S3] 修复关闭输出流时可能发生的死锁 (#41876)
- GH-41884 - [Python] 修复 RecordBatchReader.cast 以支持强制转换为所有类型的相等 schema (#42098)
- GH-41902 - [Java] Variadic Buffer Counts Incorrect (#41930)
- GH-41903 - [CI][GLib] 使用最新的 Ruby 来使用 OpenSSL 3 (#42001)
- GH-41920 - [CI][JS] 添加缺失的构建目录参数 (#41921)
- GH-41924 - [Python] 修复在 Windows 上使用 NumPy 2.0 时的测试问题 (#42099)
- GH-41964 - [CI][C++] 清除 AppVeyor 上的 mamba 缓存 (#41977)
- GH-42005 - [Java][Integration][CI] 修复 ARROW_BUILD_ROOT 路径以找到 pom.xml (#42008)
- GH-42006 - [CI][Python] 在验证脚本上使用 pip install -e 代替 setup.py build_ext –inplace 安装 pyarrow (#42007)
- GH-42015 - [MATLAB] 执行
tfeather.m
测试类会导致 MATLAB 在从 14.39.33519 更新到 14.40.33807 后的windows-2022
上崩溃 (#42123) - GH-42017 - [CI][Python][C++] 修复 Windows 上 wheel 的 utf8proc 检测问题 (#42022)
- GH-42039 - [Docs][Go] 修复损坏的链接 (#42040)
- GH-42041 - [Swift] 修复可空类型解码器问题 (#42043)
- GH-42065 - [C++] 支持 list_slice 上的 list-views (#42067)
- GH-42104 - [C++] 修复 OTel 测试失败并删除不必要的日志 (#42122)
- GH-42107 - [C++][FS][Azure] 确保设置 BlobSasBuilder::Protocol (#42108)
- GH-42116 - [C++] 在 array_take 和 array_filter 中支持 list-view 类型的数组 (#42117)
- GH-42130 - [GLib] 修复使用 MSVC 构建 gir 文件的问题 (#42131)
- GH-42136 - [CI][Go][Java][JS] 显式使用基于 AMD64 的 macOS (#42175)
- GH-42139 - [C++] 修复一些潜在的未初始化变量警告 (#42207)
- GH-42140 - [C++] 避免 parquet-encoding-benchmark 中的无效访问 (#42141)
- GH-42149 - [C++] 使用 FetchContent 打包 ORC (#43011)
- GH-42170 - [Python][CI] 更新 numpy 2.0.0 的预期输出 (#42172)
- GH-42197 - [CI][Packaging][Java] 确保更新 macOS 上的 “python@*” 公式 (#42202)
- GH-42198 - [C++] 修复设备数据的 GetRecordBatchPayload 崩溃问题 (#42199)
- GH-42208 - [Java] 修复 flight-sql-jdbc-driver 模块中的测试 (#42217)
- GH-42213 - [Swift] 仅在 CI 上使用 “–warnings-as-errors” (#42214)
- GH-42220 - [R] 处理元数据清理中的 vctrs_rcrd 扩展类型 (#42226)
- GH-42224 - [Java] 修复 TestAceroSubstraitConsumer 测试方法中的拼写错误 (#42225)
- GH-42232 - [C++] 使用非过期的 c-ares 下载 URL (#42250)
- GH-42234 - [CI][R] 在 valgrind 测试中禁用 libarrow 二进制文件 (#42249)
- GH-43048 - [JAVA] 通过正确报告索引来修复 IndexOutOfBoundsException 消息 (#43049)
- GH-43058 - [C#] 还原 Xunit 从 2.8.0 升级到 2.8.1 (#43074)
- GH-43059 - [CI][Gandiva] 在 AlmaLinux 8 上禁用 Python Gandiva 测试 (#43093)
- GH-43062 - [Go] 使用 calloc 代替 malloc (#43052)
- GH-43070 - [C++][Parquet] 检查有效的密文长度以防止段错误 (#43071)
- GH-43116 - [C++][Compute] 将 KeyCompare.CompareColumnsToRowsLarge 标记为大型内存测试 (#43128)
- GH-43119 - [CI][Packaging] 更新已弃用的 manylinux 2014 CentOS 存储库 (#43121)
- GH-43122 - [CI][Packaging][RPM][CentOS] 使用 vault.centos.org 作为 SCL (#43127)
- GH-43134 - [C++] 将捆绑的 google-cloud-cpp 升级到 2.22.0 (#43136)
- GH-43158 - [Packaging] 在 AlmaLinux 8/CentOS Stream 8 上使用捆绑的 nlohmann/json (#43159)
- GH-43199 - [CI][Packaging] dev/release/utils-create-release-tarball.sh 不应在 tarball 顶层目录的名称中包含发布候选版本号。 (#43200)
- GH-43204 - [CI][Packaging] 应用 vcpkg 补丁以修复 Thrift 版本 (#43208)
新特性和改进
- GH-29537 - [R] 支持带有隐式连接的 mutate/summarize (#41350)
- GH-33484 - [C++][Compute] 实现
Grouper::Reset
(#41352) - GH-35804 - [CI][Packaging][Conan] 同步上游 conan (#39729)
- GH-35888 - [Java] 添加 FlightStatusCode.RESOURCE_EXHAUSTED (#41508)
- GH-37333 - [Python] 将 pandas.util.testing.rands 替换为供应商版本 (#42089)
- GH-37720 - [Go][FlightSQL] 将预处理语句句柄添加到 DoPut 结果中 (#40311)
- GH-37728 - [Java] 添加用于获取 ValueVector 的 Iterable 的方法 (#41895)
- GH-37929 - [Python] 开始将静态设置移动到 pyproject.toml (#41041)
- GH-37938 - [Swift] 添加初始 C 数据接口实现 (#41342)
- GH-38255 - [Go][C++] 实现 Flight SQL 批量摄取 (#38385)
- GH-38325 - [Python] 在 PyArrow 中为 Device 数据实现 PyCapsule 接口 (#40717)
- GH-38325 - [Python] 使用 C 设备数据支持扩展 Arrow PyCapsule 接口 (#40708)
- GH-38692 - [C#] 在标量数组上实现 ICollection<T?> (#41539)
- GH-39204 - [Format][FlightRPC][Docs] 稳定 Flight SQL (#41657)
- GH-39220 - [Python] 让 RecordBatch.filter 除了掩码数组之外,还可以接受布尔表达式 (#43043)
- GH-39301 - [Archery][CI][Integration] 将 nanoarrow 添加到 archery + 集成设置中 (#39302)
- GH-39344 - [C++][FS][Azure] 支持 azure cli 身份验证 (#41976)
- GH-39345 - [C++][FS][Azure] 添加对环境凭证的支持 (#41715)
- GH-39649 - [Java][CI] 修复或抑制 spurious errorprone 警告第 2 阶段 (#39777)
- GH-39722 - [JS] 清理打包 (#39723)
- GH-39798 - [C++] 优化固定大小类型(包括嵌套的固定大小列表)的 Take (#41297)
- GH-39858 - [C++][Device] 将 Copy/View slice 函数添加到 CPU 指针 (#41477)
- GH-39898 - [C++] 添加对 OpenTelemetry 日志记录的支持 (#39905)
- GH-39990 - [Docs][CI] 添加 sphinx-lint 用于文档 linting (#40022)
- GH-40078 - [C++] 导入/导出 ArrowDeviceArrayStream (#40807)
- GH-40339 - [Java] StringView 初始实现 (#40340)
- GH-40342 - [Python] 修复 cython 2 的 LocalFileSystem 的 pickle 问题 (#41459)
- GH-40342 - [C++] 将 LocalFileSystem 移动到注册表 (#40356)
- GH-40361 - [C++] 使 flatbuffers 序列化更具确定性 (#40392)
- GH-40384 - [Python] 扩展 C 设备接口绑定以支持在 CUDA 设备上导入 (#40385)
- GH-40494 - [Go] 添加对 protobuf 消息的支持 (#40496)
- GH-40644 - [Python] 允许传递列名映射到
rename_columns
(#40645) - GH-40734 - [Packaging][Debian] 放弃对 Debian bullseye 的支持 (#41394)
- GH-40749 - [Python][Packaging] 构建 wheels 时删除不必要的符号 (#42028)
- GH-40819 - [Java] 将 Spotless 添加到 Algorithm 模块 (#41825)
- GH-40820 - [Java] 将 Spotless 添加到 Adapter 模块 (#42048)
- GH-40822 - [Java] 将 Spotless 添加到 C 模块 (#42059)
- GH-40823 - [Java] 将 Spotless 添加到 Compression 模块 (#42060)
- GH-40824 - [Java] 将 Spotless 添加到 Dataset 模块 (#42062)
- GH-40825 - [Java] 将 Spotless 添加到 Flight 模块 (#42063)
- GH-40826 - [Java] 将 Spotless 添加到 Format 模块
- GH-40827 - [Java] 将 Spotless 添加到 Gandiva 模块 (#42055)
- GH-40828 - [Java] 格式化 arrow-maven-plugins 模块 (#42054)
- GH-40829 - [Java] 将 Spotless 添加到 Memory 模块 (#42056)
- GH-40830 - [Java] 将 Spotless 添加到 Performance 模块 (#42057)
- GH-40831 - [Java] 将 Spotless 添加到 Tools 模块 (#42058)
- GH-40832 - [Java] 将 Spotless 添加到 Vector 模块 (#42061)
- GH-40930 - [Java] 实现一个函数来检索 StringView 中的引用缓冲区 (#41796)
- GH-40932 - [Java] 为 StringView 实现 TransferPair 功能 (#41861)
- GH-40933 - [Java] 增强 StringView 中的 copyFrom* 功能 (#41752)
- GH-40942 - [Java] 为 StringView 实现 C 数据接口 (#41967)
- GH-40943 - [Java] 为 StringView 实现 RangeEqualsVisitor (#41636)
- GH-40944 - [Java] 为 StringView 实现 TypeEqualsVisitor (#41606)
- GH-40968 - [C++][Gandiva] 为 Like 函数添加 RE2::Options set_dot_nl(true) (#40970)
- GH-41020 - [C++] 引入可移植的编译器假设 (#41021)
- GH-41035 - [C++] 添加一个 grouper 基准测试,以防止性能下降 (#41036)
- GH-41055 - [C++] 支持 flatten 以组合嵌套列表相关类型 (#41092)
- GH-41085 - [CI][Java] 在 Crossbow 任务的 “java” 组中添加 Spark 集成测试 (#41086)
- GH-41089 - [C++] 清理与半精度浮点数转换相关的剩余任务 (#41084)
- GH-41095 - [C++][FS][Azure] 添加对具有分层命名空间支持的 CopyFile 的支持 (#41276)
- GH-41102 - [打包][发布] 为发布候选版本创建唯一的 git 标签 (例如 apache-arrow-{MAJOR}.{MINOR}.{PATCH}-rc{RC_NUM}) (#41131)
- GH-41105 - [Python][文档] 更新 conda 包拆分后的 PyArrow 安装文档 (#41135)
- GH-41114 - [C++] 添加 is_validity_defined_by_bitmap() 谓词 (#41115)
- GH-41116 - [C++] IO: 增强 CompressedInputStream 中的边界检查 (#41117)
- GH-41126 - [Python] Device 和 MemoryManager 类的基本绑定 (#41685)
- GH-41134 - [GLib] 支持使用 MSVC 构建 arrow-glib (#41599)
- GH-41159 - [Go][Parquet] 改进 Parquet BitWriter WriteVlqInt 的性能 (#41160)
- GH-41173 - [Java] 为 Maven pom.xml 文件添加 spotless 配置 (#41174)
- GH-41183 - [C++][Python] 在 list_flatten kernel 函数和 pyarrow 绑定上公开列表的递归 flatten (#41295)
- GH-41186 - [C++][Parquet][Doc] 在 parquet.rst 中表示 PARQUET:field_id (#41187)
- GH-41203 - [Python][打包] 确保在 wheel 构建工作流程中使用已发布的 numpy 2.0(而不是 RC)进行构建 (#42194)
- GH-41240 - [发布][打包] 使用 Debian bookworm 上传二进制文件 (#41241)
- GH-41243 - [发布][打包] 避免通过 “archery crossbow download-artifacts” 进行不必要的下载 (#41244)
- GH-41256 - [Format][文档] 为 JSON 添加规范的扩展类型规范 (#41257)
- GH-41262 - [Java][FlightSQL] 实现无状态预处理语句 (#41237)
- GH-41287 - [Java] ListViewVector 实现 (#41285)
- GH-41298 - [Format][文档] 为 UUID 添加规范的扩展类型规范 (#41299)
- GH-41301 - [C++] 提取用于 PrimitiveTakeExec 的 kernel 循环,并将其推广到任何固定宽度类型 (#41373)
- GH-41307 - [Java] 使用 org.apache:apache 父 pom 版本 31 (#41772)
- GH-41307 - [Java] 使用 org.apache:apache 父 pom 版本 31 (#41309)
- GH-41314 - [CI][Python] 在 ARM64 macOS 上添加作业 (#41313)
- GH-41316 - [CI][Python] 减少 macOS 上的 CI 时间 (#41378)
- GH-41323 - [R] 重做 summarize() 评估表达式的方式 (#41223)
- GH-41327 - [Ruby] 在 Arrow::Table#to_s 中显示类型名称 (#41328)
- GH-41334 - [C++][Acero] 使用每个节点的基础临时向量堆栈来缓解溢出 (#41335)
- GH-41349 - [C#] 优化 .NET 7+ 上的 DecimalUtility.GetBytes(SqlDecimal) (#42150)
- GH-41358 - [R] 支持 join “na_matches” 参数 (#41372)
- GH-41361 - [C++][Parquet] 当 max_rep_level > 1 时,通过批量执行优化 DelimitRecords (#41362)
- GH-41375 - [C#] 迁移到 .NET 8.0 (#41376)
- GH-41385 - [CI][MATLAB][打包] 在 CI 和 crossbow 打包工作流程中添加对 MATLAB
R2024a
的支持 (#41504) - GH-41389 - [Python] 以存储类型的形式公开 ExtensionType 的 byte_width 和 bit_width (#41413)
- GH-41400 - [MATLAB] 将
libmexclass
版本提升到 commitca3cea6
(#41436) - GH-41410 - [C++][FS][Azure][文档] 将 AzureFileSystem 添加到文件系统 API 参考 (#41411)
- GH-41420 - [R] 更新 16.1.0 的 NEWS.md (#41422)
- GH-41427 - [Go] 修复无状态预处理语句 (#41428)
- GH-41430 - [文档] 使用 sphinxcontrib-mermaid 而不是从 .mmd 生成图像 (#41455)
- GH-41435 - [CI][MATLAB] 添加作业以在
macos-14
上构建和测试 MATLAB 接口 (#41592) - GH-41450 - [R][CI] rhub/container 后续 (#41451)
- GH-41460 - [C++] 使用 ASAN 来污染临时向量堆栈内存 (#41695)
- GH-41480 - [Python] 更新 Python 开发指南,说明组件默认情况下基于 Arrow C++ 启用 (#41705)
- GH-41480 - [Python] 构建 PyArrow:默认情况下基于 Arrow C++ 中的可用性启用/禁用 python 组件 (#41494)
- GH-41493 - [C++][S3] 添加一个新选项,用于在 CreateDir 之前检查是否存在 (#41822)
- GH-41507 - [MATLAB][CI] 将
strict: true
传递给matlab-actions/run-tests@v2
(#41530) - GH-41527 - [CI][Dev] 删除 six 不必要的 requirements (#43087)
- GH-41531 - [MATLAB][打包] 将
matlab-actions/setup-matlab
和matlab-actions/run-command
从v1
升级到v2
在crossbow
作业中 (#41532) - GH-41540 - [R] 简化 arrow_eval() 逻辑和绑定环境 (#41537)
- GH-41545 - [C++][Parquet] 修复 DeltaLengthByteArrayEncoder::EstimatedDataEncodedSize (#41546)
- GH-41547 - [C++] 第三方: 将 xsimd 升级到 13.0.0 (#41548)
- GH-41558 - [C++] 改进 fixed_width_test_util.h (#41575)
- GH-41560 - [C++] ChunkResolver:实现 ResolveMany 并添加单元测试 (#41561)
- GH-41590 - [Java] 改进 isEmpty 和 isNull 操作上的 BaseRepeatedValueVector 函数 (#41601)
- GH-41596 - [C++] fixed_width_internal.h:简化文档字符串并支持位大小类型 (BOOL) (#41597)
- GH-41608 - [C++][Python] 将 add_key_value 扩展到 parquet::arrow 和 PyArrow (#41633)
- GH-41611 - [文档][CI] 为文档启用大多数 sphinx-lint 规则 (#41612)
- GH-41620 - [文档] 记录 merge.conf 用法 (#41621)
- GH-41626 - [R][CI] 将 OpenSUSE 从 15.3 更新到 15.5 (#41627)
- GH-41652 - [C++][CMake][Windows] 不要构建不必要的对象库 (#41658)
- GH-41653 - [MATLAB] 添加新的
arrow.c.Array
MATLAB 类,该类封装 C 数据接口格式ArrowArray
C 结构 (#41655) - GH-41654 - [MATLAB] 添加新的
arrow.c.Schema
MATLAB 类,该类封装 C 数据接口格式ArrowSchema
C 结构 (#41674) - GH-41656 - [MATLAB] 为
arrow.array.Array
添加 C 数据接口格式导入/导出功能 (#41737) - GH-41662 - [Python] 确保 Buffer 方法不会因非 CPU 数据而崩溃 (#41889)
- GH-41664 - [C++][Python] 通过复制到默认 CPU 设备来 PrettyPrint 非 cpu 数据 (#42010)
- GH-41675 - [打包][MATLAB] 添加 crossbow 作业以在 macos-14 上打包 MATLAB 接口 (#41677)
- GH-41681 - [GLib] 为每个 GLib 库生成单独的版本宏 (#41721)
- GH-41691 - [Doc] 删除 “逻辑类型” 的概念 (#41958)
- GH-41702 - [C++][Parquet] Thrift:生成模板方法以加速读取 thrift (#41703)
- GH-41726 - [C++][Parquet] 次要:默认情况下移动 EncodedStats 而不是复制 (#41727)
- GH-41730 - [Java] 将 variadicBufferCounts 添加到 RecordBatch (#41732)
- GH-41748 - [Python][Parquet] 更新 write_table() 文档字符串中的 BYTE_STREAM_SPLIT 描述 (#41759)
- GH-41749 - [GLib] 允许从 Dataset 或 Scanner 获取 RecordBatchReader (#41750)
- GH-41755 - [C++][ORC] 确保设置检测到的 ORC 版本 (#41767)
- GH-41760 - [C++][Parquet] 添加文件元数据读/写基准测试 (#41761)
- GH-41770 - [CI][GLib] 显式删除临时文件 (#41807)
- GH-41783 - [C++] 使 git 依赖定义内部化 (#41781)
- GH-41789 - [Java] 清理 immutables 和 checkerframework 依赖项 (#41790)
- GH-41797 - [C++][S3] 删除较新 AWS SDK 版本的 GetBucketRegion hack (#41798)
- GH-41799 - [Java] 迁移到 com.gradle:develocity-maven-extension (#41800)
- GH-41803 - [MATLAB] 为
arrow.tabular.RecordBatch
添加 C 数据接口格式导入/导出功能 (#41817) - GH-41804 - [Swift] 添加 Struct (Nested) 类型 (#43082)
- GH-41806 - [GLib][CI] 使用 vcpkg 为在使用 MSVC 构建 GLib 库时使用 C++ 依赖项 (#41839)
- GH-41818 - [C++][Parquet] 规范化字典编码以使用 RLE_DICTIONARY (#41819)
- GH-41834 - [R] 改进 dplyr 代码中的错误处理 (#41576)
- GH-41841 - [R][CI] 删除更多已失效的 rhub 容器 (#41828)
- GH-41887 - [Go] 通过 pre-commit 运行 linter (#41888)
- GH-41899 - [C++] IPC:稍微增强 writer 的代码 (#41900)
- GH-41905 - [JS] 更新依赖项 (#41906)
- GH-41910 - [Python] 添加对 Pyodide 的支持 (#37822)
- GH-41923 - [C++] 修复 ExecuteScalar 推导 chunked_array 的 all_scalar (#41925)
- GH-41929 - [Java] pom.xml 许可证格式化 (#42049)
- GH-41945 - [Swift] 添加接口 ArrowArrayHolderBuilder (#41946)
- GH-41947 - [Java] 支持 JDBC 驱动程序中使用会话选项的 catalog (#42035)
- GH-41952 - [R] 默认情况下为 macOS 打开 S3 和 ZSTD (#42210)
- GH-41953 - [C++] 改进 FixedShapeTensorType 的代码风格 (#41954)
- GH-41955 - [C++] 在 MapArray::FromArrays 中添加 null_bitmap 的后续工作 (#41956)
- GH-41960 - 公开新的 S3 选项 check_directory_existence_before_creation (#41972)
- GH-41968 - [Java] 为 BinaryView 实现 TransferPair 功能 (#41980)
- GH-41970 - [C++] 各种更改,使列表类型和列表视图类型周围的代码行为方式相同 (#41971)
- GH-41978 - [Python] 修复 pandas 测试以遵循下游 datetime64 单位更改 (#41979)
- GH-41983 - [Dev] 仅在打开 issue 时(而非编辑时)运行 issue 标签机器人 (#41986)
- GH-41994 - [C++] : kernel.cc: 删除 switch 上的默认值,以便编译器可以检查我们的完整枚举覆盖率 (#41995)
- GH-41999 - [Swift] 添加用于向 arrow 数组添加数组和 vargs 的方法 (#42000)
- GH-42002 - [Java] 更新 Vector 模块的单元测试 (#42019)
- GH-42013 - [Python] 允许 Array.filter() 接受常规数组输入 (#42051)
- GH-42016 - [Python] 在 pyarrow.parquet 绑定中公开新的 FLOAT16 逻辑类型 (#42103)
- GH-42020 - [Swift] 为 Swift Codable 添加 Arrow 解码实现 (#42023)
- GH-42021 - [Swift] 为 Swift Codable 添加 Arrow 编码器实现 (#43063)
- GH-42025 - [Java] 更新 Algorithm 模块的单元测试 (#42029)
- GH-42030 - [Java] 更新 Adapter 模块的单元测试 (#42038)
- GH-42042 - [Java] 更新 Compressions 模块的单元测试 (#42044)
- GH-42045 - [Java] 更新 Flight 模块的单元测试 (#42158)
- GH-42087 - [Swift] 重构以消除构建警告 (#42088)
- GH-42092 - [Java] 更新 Tools 模块的单元测试 (#42093)
- GH-42100 - [C++][Parquet] ParquetFilePrinter::JSONPrint 打印 FLBA 的长度 (#41981)
- GH-42101 - [Java] 在 FileRoundtrip 中创建用于输出验证的文件 (#42115)
- GH-42109 - [C++][CMake] 为 Valgrind 添加预设 (#42110)
- GH-42112 - [Python] Array 在非 cpu 设备上正常失败 (#42113)
- GH-42121 - [Java] 清理 spotless 插件配置 (#43019)
- GH-42124 - [Swift] 添加用于按类型加载和验证构建器的方法 (#42195)
- GH-42126 - [C++] 将 TakeXXX 自由函数移动到 TakeMetaFunction 并将其设为私有 (#42127)
- GH-42128 - [Packaging][CentOS] 迁移 CentOS 7 和 CentOS Stream 8 打包作业以使用 vault.centos.org (#42129)
- GH-42134 - [C++][FS][Azure] 验证 AzureOptions::{blob,dfs}_storage_scheme (#42135)
- GH-42143 - [R] 清理 R 元数据 (#41969)
- GH-42146 - [MATLAB] 添加 IPC
RecordBatchFileReader
和RecordBatchFileWriter
MATLAB 类 (#42201) - GH-42162 - [Java] 更新 Dataset 模块的单元测试 (#42163)
- GH-42164 - [Java] 更新 Gandiva 模块的单元测试 (#42166)
- GH-42165 - [Java] 更新 Memory 模块的单元测试 (#42161)
- GH-42167 - [CI] 升级 .env 中的 vcpkg 版本 (#42171)
- GH-42168 - [Python][Parquet] Pyarrow 将 decimal 存储为整数 (#42169)
- GH-42190 - [Python] 为 Numpy 1.X 添加 CI 作业 (#42189)
- GH-42193 - [Java] 更新依赖项以仅维护 JUnit 5 (#42206)
- GH-42228 - [CI][Java] 抑制 java-jars 中的传输进度日志 (#42230)
- GH-42235 - [C++] list_parent_indices: 添加对列表视图类型的支持 (#42236)
- GH-42243 - [Swift] 更新 isValidBuilderType 以不需要类型实例 (#42244)
- GH-42245 - [Swift] 确保所有键类型的 map 行为相同 (#42246)
- GH-43020 - [Java] 简化 flight.properties 的生成 (#43028)
- GH-43033 - [CI][Docker] 为 python-wheel-windows-test-vs2019 启用 linter (#43034)
- GH-43040 - [C++] 减少多重连接测试的递归 (#43042)
- GH-43045 - [CI][Python] 在 python substrait 集成中固定 openjdk=17 (#43051)
- GH-43060 - [C++] 使用 raw_read_bound 限制 BufferedInputStream::SetBufferSize 中的缓冲区大小 (#43064)
- GH-43076 - [C#] 升级 Xunit 并更改跳过 Python 集成测试的方式 (#43091)