Apache Arrow 17.0.0 (2024 年 7 月 16 日)
这是一个涵盖超过 2 个月开发的主要版本。
下载
贡献者
此版本包含来自 92 位不同贡献者的 529 个提交。
$ git shortlog -sn apache-arrow-16.1.0..apache-arrow-17.0.0
84 dependabot[bot]
47 Sutou Kouhei
25 Hyunseok Seo
25 Joris Van den Bossche
22 Raúl Cumplido
21 Adam Reeve
21 Vibhatha Lakmal Abeykoon
20 mwish
18 Laurent Goujon
15 Felipe Oliveira Carvalho
14 abandy
13 Sarah Gilmore
12 Rossi Sun
11 Neal Richardson
10 Alenka Frim
10 Antoine Pitrou
10 Bryce Mecum
9 ZhangHuiGui
8 Jonathan Keane
6 Dewey Dunnington
6 Dominik Moritz
6 Matt Topol
5 Gang Wu
5 William Ayd
4 Curt Hagenlocher
4 Dane Pitkin
4 David Li
4 Tai Le Manh
4 h-vetinari
3 Ian Cook
3 Jacob Wujciak-Jens
3 Kevin Gurney
3 Rok Mihevc
3 Thomas A Caswell
3 Wyatt Alt
2 Ben Harkins
2 Benjamin Kietzman
2 Haocheng Liu
2 JB Onofré
2 Joe Marshall
2 Joel Lubinitsky
2 Nic Crane
2 Steve Lord
2 Thomas Newton
2 Tom Scott-Coombes
2 Weston Pace
1 Adam Curtis
1 Alan Stoate
1 AlbertXingZhang
1 Alex Shcherbakov
1 Anja Kefala
1 Austin Dickey
1 Calvin Kirs
1 Clif Houck
1 David Schlosnagle
1 David Sisson
1 DenisTarasyuk
1 Ed
1 Even Rouault
1 Finn Völkel
1 Francis
1 Gavin Murrison
1 Ivan Chesnov
1 Jaap Versteegh
1 Jacek Stania
1 Jacob Hayes
1 James Duong
1 Joshua MacDonald
1 Judah Rand
1 Kartik Verma
1 Kelvin Wu
1 Kirill Khramkov
1 Konstantin Malanchev
1 Lei (Alexandra) Wang
1 LucasG0
1 Mike Bostock
1 Noam Ross
1 Nozomi Isozaki
1 PHILO-HE
1 PJ Fanning
1 Paul Taylor
1 Stephan T. Lavavej
1 Tao He
1 Tom McTiernan
1 Wenbo Li
1 Yifeng-Sigma
1 a-reich
1 andyfan
1 feik
1 hemidark
1 keshen-msft
1 normanj-bitquill
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-16.1.0..apache-arrow-17.0.0
130 Sutou Kouhei
89 David Li
39 Curt Hagenlocher
38 Antoine Pitrou
37 Joris Van den Bossche
22 Felipe Oliveira Carvalho
22 Raúl Cumplido
20 Matt Topol
14 mwish
11 Jacob Wujciak-Jens
11 Sarah Gilmore
8 AlenkaF
6 Bryce Mecum
6 Jonathan Keane
5 Benjamin Kietzman
5 Gang Wu
4 Dane Pitkin
4 Dewey Dunnington
4 Rok Mihevc
4 Weston Pace
3 Kevin Gurney
3 Nic Crane
3 dependabot[bot]
2 Will Jones
变更日志
Apache Arrow 17.0.0 (2024-07-16 07:00:00+00:00)
Bug 修复
- GH-15053 - [C++] 添加字符串“center”内核选项,以控制奇数填充时的左右对齐方式 (#41449)
- GH-30866 - [Java] 修复当向量为空时 SplitAndTransfer 抛出 (0,0) 的问题 (#41066)
- GH-34484 - [Substrait] 添加禁用增强字段的选项 (#41583)
- GH-37669 - [C++][Python] 修复使用固定大小列表存储类型转换为扩展类型的问题 (#42219)
- GH-38553 - [C++] 在 ListArrayFromArray 和 MapArray 中用 MayHaveNulls 替换 null_count (#41957)
- GH-38575 - [Python] 从 PyCapsule 创建 pa.schema 时包含元数据 (#41538)
- GH-38770 - [C++][Python] 如果传递 ChunkedArray,RecordBatch.filter() 会发生段错误 (#40971)
- GH-39129 - [Python] pa.array:添加对 python 对象内部字节交换 numpy 数组的检查 (#41549)
- GH-39489 - [C++][Parquet] 从 Parquet 到 Arrow 的时间戳转换不遵循 convertedType 的兼容性指南
- GH-39645 - [Python] 修复加密 parquet 的 read_table (#39438)
- GH-40270 - [C++] 在将表写入 CSV 时使用 LargeStringArray 进行转换 (#40271)
- GH-40560 - [Python] RunEndEncodedArray.from_arrays:修复 Array 参数的错误 (#40560) (#41093)
- GH-40750 - [C++][Python] 从键和项构造的 Map 子数组不应有偏移量 (#40871)
- GH-40913 - [C++] 修复 encoding_benchmark 中“隐式定义的构造函数不初始化”的编译警告 (#41060)
- GH-40997 - [C++] 在 NullUpdateColumnToRow_avx2 中根据 are_cols_in_encoding_order 获取 null_bit_id (#40998)
- GH-41112 - [C++] 清理未使用的参数警告 (#41111)
- GH-41149 - [C++][Acero] 修复 asof join 竞争 (#41614)
- GH-41164 - [C#] 修复切片数组的串联 (#41245)
- GH-41190 - [C++] 支持单线程连接 (#41125)
- GH-41192 - [C++] 修复 hashjoin 基准测试在生成 utf8 的随机批次时失败的问题 (#41195)
- GH-41198 - [C#] 修复联合数组的串联 (#41226)
- GH-41199 - [C#] 修复访问切片十进制数组的值 (#41200)
- GH-41258 - [C#][Integration] 修复具有非零偏移量的切片有效性缓冲区的比较 (#41259)
- GH-41263 - [C#][Integration] 确保在位图比较的所有分支中都考虑偏移量 (#41264)
- GH-41282 - [Dev] 如果存在,始终在合并脚本中提示下一个主要版本 (#41305)
- GH-41306 - [C++] 检查以避免在 NullBitmapBuffer 为 Null 时进行复制 (#41452)
- GH-41317 - [C++] 修复无效 Parquet 文件导致的崩溃 (#41366)
- GH-41319 - [Python] `test_numpy_array_protocol` 测试在 numpy 2.0.0rc1 中失败
- GH-41321 - [C++][Parquet] 更严格的 Parquet 级别检查 (#41346)
- GH-41329 - [C++][Gandiva] 修复 gandiva 缓存大小环境变量 (#41330)
- GH-41340 - [C++][CMake][Windows] 从链接库中删除不必要的 .dll 后缀 (#41341)
- GH-41343 - [C++][CMake] 删除未使用的 ARROW_NO_DEPRECATED_API (#41345)
- GH-41356 - [Release][Docs] 更新发布后文档任务,以删除稳定版本的警告横幅 (#41377)
- GH-41367 - [C++][maybe_unused] 使用 Arrow 宏 (#41359)
- GH-41371 - [CI][Release] 在 macOS 上使用最新的 Ruby (#41379)
- GH-41390 - [CI] 在 csharp macOS 作业上使用 setup-python GitHub 操作 (#41392)
- GH-41397 - [C#] 降级 macOS 测试运行器以避免基础架构错误 (#41934)
- GH-41418 - [C++][Large] 用于 scalar_if_else 内核函数的 ListView 和 Map 嵌套类型 (#41419)
- GH-41426 - [R][CI] 在 gh 运行器上安装 CRAN 样式的 openssl。 (#41629)
- GH-41433 - [C++][Gandiva] 修复 ascii_utf8 函数以在 x86 和 Arm 上返回相同结果 (#41434)
- GH-41464 - [Python] 修复 by=None 的 StructArray.sort() (#41495)
- GH-41467 - [CI][Release] 不要推送 conda-verify-rc 镜像 (#41468)
- GH-41470 - [C++] 重用直接注册的去重逻辑 (#41466)
- GH-41471 - [Java] 修复性能 uber-jar (#41473)
- GH-41475 - [Python] 使用 Python 3.13 构建 (#42034)
- GH-41478 - [C++] 清理更多冗余的移动警告 (#41487)
- GH-41491 - [Python] 删除 python <2.6 中与缓冲区相关的特殊方法 (#41492)
- GH-41502 - [Python] 修复读取具有十进制值的列索引 (#41503)
- GH-41529 - [C++][Compute] 删除 ExecScalarCaseWhen 中作为 ExecResults 的 ArrayData 的冗余逻辑 (#41380)
- GH-41534 - [Go] 修复导入 0 长度 C 数组的内存泄漏问题 (#41535)
- GH-41541 - [Go][Parquet] 更多修复写入器性能回归 (#42003)
- GH-41541 - [Go][Parquet] 修复写入器性能回归 (#41638)
- GH-41571 - [Java] 回滚 GH-41307 (#41309) (#41628)
- GH-41573 - [Java] VectorSchemaRoot 使用低效的流来复制 fieldVectors (#41574)
- GH-41581 - [C++][CMake] 正确使用 Protobuf_PROTOC_EXECUTABLE (#41582)
- GH-41587 - [Docs][Python] 删除重复内容 (#41588)
- GH-41602 - [C#] 解决构建警告 (#41645)
- GH-41617 - [C++][CMake] 修复 ARROW_USE_BOOST 检测条件 (#41622)
- GH-41630 - [Benchmarking] 修复基准测试中的源外构建 (#41631)
- GH-41648 - [Java] 关于 splitAndTransfer 的内存泄漏 (#41898)
- GH-41660 - [CI][Java] 恢复 devtoolset 相关的 GANDIVA_CXX_FLAGS (#41661)
- GH-41679 - [Release][Packaging][deb] 也在 01-preparesh 中更新包名称 (#41859)
- GH-41684 - [C++][Python] 向 MapArray::FromArrays 添加可选的 null_bitmap (#41757)
- GH-41686 - [Java] TransferPair 中未保留结构子向量的空值性 (#41785)
- GH-41688 - [Dev] 在 cmake-format 预提交钩子中包含所有相关的 CMakeLists.txt 文件 (#41689)
- GH-41697 - [Go][Parquet] 在关闭 BufferedPageWriter 时释放 BufferWriter (#41698)
- GH-41699 - [Python][Parquet] 在 SortingColumn 上实现 to_dict 方法 (#41704)
- GH-41711 - [C++] macros.h:修复 MSVC 的 ARROW_FORCE_INLINE (#41712)
- GH-41717 - [Java][Vector] 修复 MessageSerializer 中 ByteBuffer 倒带的问题 (#41718)
- GH-41720 - [C++][Acero] 删除 hash_join_benchmark 中调用的 QueryContext::Init 的无用参数 (#41716)
- GH-41725 - [Python] CMake:如果未启用 Parquet 本身,则忽略 Parquet 加密选项(修复 Java 集成构建)(#41776)
- GH-41735 - [CI][Archery] 更新 archery 以兼容 pygit2 1.15 API 更改 (#41739)
- GH-41738 - [C++] 修复临时向量堆栈可能大小不足的问题 (#41746)
- GH-41741 - [C++] 在尝试删除扩展元数据之前检查它是否存在 (#41763)
- GH-41758 - [Python] 禁止直接构造 pa.RecordBatchReader() 以避免段错误 (#41773)
- GH-41771 - [C++] 当迭代器读取所有值时,它会立即释放其资源 (#41824)
- GH-41780 - [C++][Flight][Benchmark] 确保等待服务器准备就绪 (#41793)
- GH-41784 - [Packaging][RPM] 对 -libs 包名称使用 SO 版本 (#41838)
- GH-41787 - 更新 fmpp-maven-plugin 输出目录 (#41788)
- GH-41791 - [CI][Conda] 更新 azure.linux.yml 任务,将 CondaEnvironment@1 替换为 Bash@3 (#41883)
- GH-41813 - [C++] 修复
CompareColumnsToRows
中大于 2GB 的 avx2 收集偏移量 (#42188) - GH-41829 - [R] 将 README 中的相对 URL 更新为绝对路径,以防止 CRAN 检查失败 (#41830)
- GH-41836 - [Java] 修复 ARROW_S3=OFF 时的未定义符号错误 (#41837)
- GH-41862 - [C++][S3] 修复关闭输出流时可能发生的死锁 (#41876)
- GH-41884 - [Python] 修复 RecordBatchReader.cast 以支持将所有类型转换为相同的 schema (#42098)
- GH-41902 - [Java] 可变缓冲区计数不正确 (#41930)
- GH-41903 - [CI][GLib] 使用最新的 Ruby 以使用 OpenSSL 3 (#42001)
- GH-41920 - [CI][JS] 添加缺失的构建目录参数 (#41921)
- GH-41924 - [Python] 修复在 Windows 上使用 NumPy 2.0 时的测试 (#42099)
- GH-41964 - [CI][C++] 清理 AppVeyor 上的 mamba 缓存 (#41977)
- GH-42005 - [Java][集成][CI] 修复 ARROW_BUILD_ROOT 路径以找到 pom.xml (#42008)
- GH-42006 - [CI][Python] 使用 pip install -e 代替 setup.py build_ext --inplace 来在验证脚本上安装 pyarrow (#42007)
- GH-42015 - [MATLAB] 在 MSVC 从 14.39.33519 更新到 14.40.33807 后,执行
tfeather.m
测试类会导致 MATLAB 在windows-2022
上崩溃 (#42123) - GH-42017 - [CI][Python][C++] 修复 Windows 上 wheel 的 utf8proc 检测 (#42022)
- GH-42039 - [Docs][Go] 修复损坏的链接 (#42040)
- GH-42041 - [Swift] 修复可为空类型解码器问题 (#42043)
- GH-42065 - [C++] 支持 list_slice 上的列表视图 (#42067)
- GH-42104 - [C++] 修复 OTel 测试失败并删除不必要的日志 (#42122)
- GH-42107 - [C++][FS][Azure] 确保设置 BlobSasBuilder::Protocol (#42108)
- GH-42116 - [C++] 在 array_take 和 array_filter 中支持列表视图类型化数组 (#42117)
- GH-42130 - [GLib] 修复使用 MSVC 构建 gir 文件的问题 (#42131)
- GH-42136 - [CI][Go][Java][JS] 显式使用基于 AMD64 的 macOS (#42175)
- GH-42139 - [C++] 修复一些潜在的未初始化变量警告 (#42207)
- GH-42140 - [C++] 避免在 parquet-encoding-benchmark 中进行无效访问 (#42141)
- GH-42149 - [C++] 使用 FetchContent 来捆绑 ORC (#43011)
- GH-42170 - [Python][CI] 更新 numpy 2.0.0 的预期输出 (#42172)
- GH-42197 - [CI][打包][Java] 确保在 macOS 上更新“python@*”公式 (#42202)
- GH-42198 - [C++] 修复 GetRecordBatchPayload 对设备数据崩溃的问题 (#42199)
- GH-42208 - [Java] 修复 flight-sql-jdbc-driver 模块中的测试 (#42217)
- GH-42213 - [Swift] 仅在 CI 上使用“--warnings-as-errors” (#42214)
- GH-42220 - [R] 处理元数据清理中的 vctrs_rcrd 扩展类型 (#42226)
- GH-42224 - [Java] 修复 TestAceroSubstraitConsumer 测试方法中的拼写错误 (#42225)
- GH-42232 - [C++] 使用非过时的 c-ares 下载 URL (#42250)
- GH-42234 - [CI][R] 在 valgrind 测试中禁用 libarrow 二进制文件使用 (#42249)
- GH-43048 - [JAVA] 通过正确报告索引来修复 IndexOutOfBoundsException 消息 (#43049)
- GH-43058 - [C#] 将 Xunit 从 2.8.0 还原到 2.8.1 (#43074)
- GH-43059 - [CI][Gandiva] 在 AlmaLinux 8 上禁用 Python Gandiva 测试 (#43093)
- GH-43062 - [Go] 使用 calloc 而不是 malloc (#43052)
- GH-43070 - [C++][Parquet] 检查有效的密文长度以防止段错误 (#43071)
- GH-43116 - [C++][Compute] 将 KeyCompare.CompareColumnsToRowsLarge 标记为大内存测试 (#43128)
- GH-43119 - [CI][打包] 更新已弃用的 manylinux 2014 CentOS 存储库 (#43121)
- GH-43122 - [CI][打包][RPM][CentOS] 使用 vault.centos.org 获取 SCL (#43127)
- GH-43134 - [C++] 将捆绑的 google-cloud-cpp 升级到 2.22.0 (#43136)
- GH-43158 - [打包] 在 AlmaLinux 8/CentOS Stream 8 上使用捆绑的 nlohmann/json (#43159)
- GH-43199 - [CI][打包] dev/release/utils-create-release-tarball.sh 不应在 tarball 的顶层目录名称中包含候选版本号。 (#43200)
- GH-43204 - [CI][打包] 应用 vcpkg 补丁以修复 Thrift 版本 (#43208)
新特性和改进
- GH-29537 - [R] 支持使用隐式连接进行 mutate/summarize (#41350)
- GH-33484 - [C++][Compute] 实现
Grouper::Reset
(#41352) - GH-35804 - [CI][打包][Conan] 同步上游 conan (#39729)
- GH-35888 - [Java] 添加 FlightStatusCode.RESOURCE_EXHAUSTED (#41508)
- GH-37333 - [Python] 用供应商版本替换 pandas.util.testing.rands (#42089)
- GH-37720 - [Go][FlightSQL] 将预处理语句句柄添加到 DoPut 结果 (#40311)
- GH-37728 - [Java] 添加获取 ValueVector 的 Iterable 的方法 (#41895)
- GH-37929 - [Python] 开始将静态设置移动到 pyproject.toml (#41041)
- GH-37938 - [Swift] 添加初始的 C 数据接口实现 (#41342)
- GH-38255 - [Go][C++] 实现 Flight SQL 批量导入 (#38385)
- GH-38325 - [Python] 在 PyArrow 中为设备数据实现 PyCapsule 接口 (#40717)
- GH-38325 - [Python] 使用 C 设备数据支持扩展 Arrow PyCapsule 接口 (#40708)
- GH-38692 - [C#] 在标量数组上实现 ICollection<T?> (#41539)
- GH-39204 - [Format][FlightRPC][文档] 稳定 Flight SQL (#41657)
- GH-39220 - [Python] 让 RecordBatch.filter 除了掩码数组之外还接受布尔表达式 (#43043)
- GH-39301 - [Archery][CI][集成] 将 nanoarrow 添加到 archery + 集成设置 (#39302)
- GH-39344 - [C++][FS][Azure] 支持 azure cli 身份验证 (#41976)
- GH-39345 - [C++][FS][Azure] 添加对环境凭据的支持 (#41715)
- GH-39649 - [Java][CI] 修复或抑制虚假的 errorprone 警告,阶段 2 (#39777)
- GH-39722 - [JS] 清理打包 (#39723)
- GH-39798 - [C++] 优化固定大小类型(包括嵌套的固定大小列表)的 Take (#41297)
- GH-39858 - [C++][Device] 将 Copy/View 切片函数添加到 CPU 指针 (#41477)
- GH-39898 - [C++] 添加对 OpenTelemetry 日志记录的支持 (#39905)
- GH-39990 - [文档][CI] 添加 sphinx-lint 用于文档检查 (#40022)
- GH-40078 - [C++] 导入/导出 ArrowDeviceArrayStream (#40807)
- GH-40339 - [Java] StringView 初始实现 (#40340)
- GH-40342 - [Python] 修复 cython 2 的 LocalFileSystem 的 pickle (#41459)
- GH-40342 - [C++] 将 LocalFileSystem 移动到注册表 (#40356)
- GH-40361 - [C++] 使 flatbuffers 序列化更具确定性 (#40392)
- GH-40384 - [Python] 扩展 C 设备接口绑定以支持在 CUDA 设备上导入 (#40385)
- GH-40494 - [Go] 添加对 protobuf 消息的支持 (#40496)
- GH-40644 - [Python] 允许传递列名称到
rename_columns
的映射 (#40645) - GH-40734 - [打包][Debian] 放弃对 Debian bullseye 的支持 (#41394)
- GH-40749 - [Python][打包] 构建 wheels 时删除不必要的符号 (#42028)
- GH-40819 - [Java] 将 Spotless 添加到 Algorithm 模块 (#41825)
- GH-40820 - [Java] 将 Spotless 添加到 Adapter 模块 (#42048)
- GH-40822 - [Java] 将 Spotless 添加到 C 模块 (#42059)
- GH-40823 - [Java] 将 Spotless 添加到 Compression 模块 (#42060)
- GH-40824 - [Java] 将 Spotless 添加到 Dataset 模块 (#42062)
- GH-40825 - [Java] 将 Spotless 添加到 Flight 模块 (#42063)
- GH-40826 - [Java] 将 Spotless 添加到 Format 模块
- GH-40827 - [Java] 将 Spotless 添加到 Gandiva 模块 (#42055)
- GH-40828 - [Java] 格式化 arrow-maven-plugins 模块 (#42054)
- GH-40829 - [Java] 将 Spotless 添加到 Memory 模块 (#42056)
- GH-40830 - [Java] 将 Spotless 添加到 Performance 模块 (#42057)
- GH-40831 - [Java] 将 Spotless 添加到 Tools 模块 (#42058)
- GH-40832 - [Java] 将 Spotless 添加到 Vector 模块 (#42061)
- GH-40930 - [Java] 实现一个在 StringView 中检索引用缓冲区的功能 (#41796)
- GH-40932 - [Java] 实现 StringView 的 TransferPair 功能 (#41861)
- GH-40933 - [Java] 增强 StringView 中的 copyFrom* 功能 (#41752)
- GH-40942 - [Java] 为 StringView 实现 C 数据接口 (#41967)
- GH-40943 - [Java] 为 StringView 实现 RangeEqualsVisitor (#41636)
- GH-40944 - [Java] 为 StringView 实现 TypeEqualsVisitor (#41606)
- GH-40968 - [C++][Gandiva] 为 Like 函数添加 RE2::Options set_dot_nl(true) (#40970)
- GH-41020 - [C++] 引入可移植的编译器假设 (#41021)
- GH-41035 - [C++] 添加一个 grouper 基准测试,以防止性能回归 (#41036)
- GH-41055 - [C++] 支持 flatten 用于组合嵌套列表相关类型 (#41092)
- GH-41085 - [CI][Java] 将 Spark 集成测试添加到 Crossbow 任务中的“java”组 (#41086)
- GH-41089 - [C++] 清理与半浮点转换相关的剩余任务 (#41084)
- GH-41095 - [C++][FS][Azure] 添加对具有分层命名空间支持的 CopyFile 的支持 (#41276)
- GH-41102 - [打包][发布] 为发布候选版本创建唯一的git标签(例如 apache-arrow-{MAJOR}.{MINOR}.{PATCH}-rc{RC_NUM})(#41131)
- GH-41105 - [Python][文档] 更新 conda 包拆分后的 PyArrow 安装文档 (#41135)
- GH-41114 - [C++] 添加 is_validity_defined_by_bitmap() 谓词 (#41115)
- GH-41116 - [C++] IO: 增强 CompressedInputStream 中的边界检查 (#41117)
- GH-41126 - [Python] Device 和 MemoryManager 类的基本绑定 (#41685)
- GH-41134 - [GLib] 支持使用 MSVC 构建 arrow-glib (#41599)
- GH-41159 - [Go][Parquet] 提升 Parquet BitWriter WriteVlqInt 的性能 (#41160)
- GH-41173 - [Java] 为 Maven pom.xml 文件添加 spotless 配置 (#41174)
- GH-41183 - [C++][Python] 在 list_flatten 内核函数和 pyarrow 绑定上公开列表的递归展平 (#41295)
- GH-41186 - [C++][Parquet][文档] 在 parquet.rst 中标记 PARQUET:field_id (#41187)
- GH-41203 - [Python][打包] 确保在 wheel 构建工作流中使用发布的 numpy 2.0(而不是 RC)进行构建 (#42194)
- GH-41240 - [发布][打包] 使用 Debian bookworm 上传二进制文件 (#41241)
- GH-41243 - [发布][打包] 避免“archery crossbow download-artifacts”的不必要下载 (#41244)
- GH-41256 - [格式][文档] 为 JSON 添加规范的扩展类型规范 (#41257)
- GH-41262 - [Java][FlightSQL] 实现无状态预处理语句 (#41237)
- GH-41287 - [Java] ListViewVector 实现 (#41285)
- GH-41298 - [格式][文档] 为 UUID 添加规范的扩展类型规范 (#41299)
- GH-41301 - [C++] 提取用于 PrimitiveTakeExec 的内核循环,并将其推广到任何固定宽度类型 (#41373)
- GH-41307 - [Java] 使用 org.apache:apache 父 pom 版本 31 (#41772)
- GH-41307 - [Java] 使用 org.apache:apache 父 pom 版本 31 (#41309)
- GH-41314 - [CI][Python] 在 ARM64 macOS 上添加一个任务 (#41313)
- GH-41316 - [CI][Python] 减少 macOS 上的 CI 时间 (#41378)
- GH-41323 - [R] 重做 summarize() 评估表达式的方式 (#41223)
- GH-41327 - [Ruby] 在 Arrow::Table#to_s 中显示类型名称 (#41328)
- GH-41334 - [C++][Acero] 使用每个节点的基础临时向量栈来缓解溢出 (#41335)
- GH-41349 - [C#] 在 .NET 7+ 上优化 DecimalUtility.GetBytes(SqlDecimal) (#42150)
- GH-41358 - [R] 支持 join “na_matches” 参数 (#41372)
- GH-41361 - [C++][Parquet] 当 max_rep_level > 1 时,通过批量执行优化 DelimitRecords (#41362)
- GH-41375 - [C#] 迁移到 .NET 8.0 (#41376)
- GH-41385 - [CI][MATLAB][打包] 在 CI 和 crossbow 打包工作流中添加对 MATLAB
R2024a
的支持 (#41504) - GH-41389 - [Python] 根据存储类型公开 ExtensionType 的 byte_width 和 bit_width (#41413)
- GH-41400 - [MATLAB] 将
libmexclass
版本更新到提交ca3cea6
(#41436) - GH-41410 - [C++][FS][Azure][文档] 将 AzureFileSystem 添加到文件系统 API 参考 (#41411)
- GH-41420 - [R] 更新 16.1.0 的 NEWS.md (#41422)
- GH-41427 - [Go] 修复无状态预处理语句 (#41428)
- GH-41430 - [文档] 使用 sphinxcontrib-mermaid 而不是从 .mmd 生成图像 (#41455)
- GH-41435 - [CI][MATLAB] 添加在
macos-14
上构建和测试 MATLAB 接口的任务 (#41592) - GH-41450 - [R][CI] rhub/container 后续 (#41451)
- GH-41460 - [C++] 使用 ASAN 来污染临时向量栈内存 (#41695)
- GH-41480 - [Python] 更新 Python 开发指南,说明组件默认基于 Arrow C++ 启用 (#41705)
- GH-41480 - [Python] 构建 PyArrow:默认情况下基于 Arrow C++ 中的可用性启用/禁用 python 组件 (#41494)
- GH-41493 - [C++][S3] 添加一个新选项,用于在 CreateDir 之前检查存在性 (#41822)
- GH-41507 - [MATLAB][CI] 将
strict: true
传递给matlab-actions/run-tests@v2
(#41530) - GH-41527 - [CI][Dev] 删除对 six 的不必要的要求 (#43087)
- GH-41531 - [MATLAB][打包] 将
matlab-actions/setup-matlab
和matlab-actions/run-command
从v1
升级到v2
,在crossbow
任务中 (#41532) - GH-41540 - [R] 简化 arrow_eval() 逻辑和绑定环境 (#41537)
- GH-41545 - [C++][Parquet] 修复 DeltaLengthByteArrayEncoder::EstimatedDataEncodedSize (#41546)
- GH-41547 - [C++] 第三方:将 xsimd 升级到 13.0.0 (#41548)
- GH-41558 - [C++] 改进 fixed_width_test_util.h (#41575)
- GH-41560 - [C++] ChunkResolver:实现 ResolveMany 并添加单元测试 (#41561)
- GH-41590 - [Java] 改进 BaseRepeatedValueVector 在 isEmpty 和 isNull 操作上的函数 (#41601)
- GH-41596 - [C++] fixed_width_internal.h:简化文档字符串并支持位大小的类型 (BOOL) (#41597)
- GH-41608 - [C++][Python] 将 add_key_value 扩展到 parquet::arrow 和 PyArrow (#41633)
- GH-41611 - [文档][CI] 为文档启用大多数 sphinx-lint 规则 (#41612)
- GH-41620 - [文档] 记录 merge.conf 的用法 (#41621)
- GH-41626 - [R][CI] 将 OpenSUSE 从 15.3 更新到 15.5 (#41627)
- GH-41652 - [C++][CMake][Windows] 不要构建不必要的对象库 (#41658)
- GH-41653 - [MATLAB] 添加新的
arrow.c.Array
MATLAB 类,该类封装了一个 C 数据接口格式的ArrowArray
C 结构 (#41655) - GH-41654 - [MATLAB] 添加新的
arrow.c.Schema
MATLAB 类,该类封装了一个 C 数据接口格式的ArrowSchema
C 结构 (#41674) - GH-41656 - [MATLAB] 为
arrow.array.Array
添加 C 数据接口格式导入/导出功能 (#41737) - GH-41662 - [Python] 确保 Buffer 方法不会因非 CPU 数据而崩溃 (#41889)
- GH-41664 - [C++][Python] 通过复制到默认的 CPU 设备来 PrettyPrint 非 CPU 数据 (#42010)
- GH-41675 - [打包][MATLAB] 添加 crossbow 任务,以便在 macos-14 上打包 MATLAB 接口 (#41677)
- GH-41681 - [GLib] 为每个 GLib 库生成单独的版本宏 (#41721)
- GH-41691 - [文档] 删除“逻辑类型”的概念 (#41958)
- GH-41702 - [C++][Parquet] Thrift:生成模板方法以加速读取 thrift (#41703)
- GH-41726 - [C++][Parquet] 次要:默认移动 EncodedStats 而不是复制 (#41727)
- GH-41730 - [Java] 向 RecordBatch 添加 variadicBufferCounts (#41732)
- GH-41748 - [Python][Parquet] 更新 write_table() 文档字符串中的 BYTE_STREAM_SPLIT 描述 (#41759)
- GH-41749 - [GLib] 允许从数据集或扫描器获取 RecordBatchReader (#41750)
- GH-41755 - [C++][ORC] 确保设置检测到的 ORC 版本 (#41767)
- GH-41760 - [C++][Parquet] 添加文件元数据读取/写入基准测试 (#41761)
- GH-41770 - [CI][GLib] 显式删除临时文件 (#41807)
- GH-41783 - [C++] 使依赖于 git 的定义成为内部定义 (#41781)
- GH-41789 - [Java] 清理不可变和 checkerframework 依赖项 (#41790)
- GH-41797 - [C++][S3] 为较新的 AWS SDK 版本删除 GetBucketRegion 技巧 (#41798)
- GH-41799 - [Java] 迁移到 com.gradle:develocity-maven-extension (#41800)
- GH-41803 - [MATLAB] 为
arrow.tabular.RecordBatch
添加 C 数据接口格式导入/导出功能 (#41817) - GH-41804 - [Swift] 添加 Struct(嵌套)类型 (#43082)
- GH-41806 - [GLib][CI] 在使用 MSVC 构建 GLib 库时,使用 vcpkg 作为 C++ 依赖项 (#41839)
- GH-41818 - [C++][Parquet] 规范化字典编码以使用 RLE_DICTIONARY (#41819)
- GH-41834 - [R] 改进 dplyr 代码中的错误处理 (#41576)
- GH-41841 - [R][CI] 删除更多已失效的 rhub 容器 (#41828)
- GH-41887 - [Go] 通过 pre-commit 运行 linter (#41888)
- GH-41899 - [C++] IPC:次要增强编写器的代码 (#41900)
- GH-41905 - [JS] 更新依赖项 (#41906)
- GH-41910 - [Python] 添加对 Pyodide 的支持 (#37822)
- GH-41923 - [C++] 修复 ExecuteScalar 推断带有 ChunkedArray 的 all_scalar (#41925)
- GH-41929 - [Java] pom.xml 许可证格式化 (#42049)
- GH-41945 - [Swift] 添加接口 ArrowArrayHolderBuilder (#41946)
- GH-41947 - [Java] 支持带会话选项的 JDBC 驱动程序中的目录 (#42035)
- GH-41952 - [R] 默认情况下为 macOS 启用 S3 和 ZSTD (#42210)
- GH-41953 - [C++] 次要增强 FixedShapeTensorType 的代码风格 (#41954)
- GH-41955 - [C++] 在 MapArray::FromArrays 中添加 null_bitmap 的后续操作 (#41956)
- GH-41960 - 公开新的 S3 选项 check_directory_existence_before_creation (#41972)
- GH-41968 - [Java] 为 BinaryView 实现 TransferPair 功能 (#41980)
- GH-41970 - [C++] 对列表类型和列表视图类型周围的代码进行各种更改,使它们的行为方式相同 (#41971)
- GH-41978 - [Python] 修复 pandas 测试以遵循下游 datetime64 单位更改 (#41979)
- GH-41983 - [Dev] 仅在打开问题时(而不是编辑时)运行问题标签机器人 (#41986)
- GH-41994 - [C++] : kernel.cc: 删除 switch 中的默认值,以便编译器可以为我们检查完整的枚举覆盖率 (#41995)
- GH-41999 - [Swift] 添加用于向 arrow 数组添加数组和 vargs 的方法 (#42000)
- GH-42002 - [Java] 更新 Vector 模块的单元测试 (#42019)
- GH-42013 - [Python] 允许 Array.filter() 接受通用数组输入 (#42051)
- GH-42016 - [Python] 在 pyarrow.parquet 绑定中公开新的 FLOAT16 逻辑类型 (#42103)
- GH-42020 - [Swift] 为 Swift Codable 添加 Arrow 解码实现 (#42023)
- GH-42021 - [Swift] 为 Swift Codable 添加 Arrow 编码器实现 (#43063)
- GH-42025 - [Java] 更新算法模块的单元测试 (#42029)
- GH-42030 - [Java] 更新适配器模块的单元测试 (#42038)
- GH-42042 - [Java] 更新压缩模块的单元测试 (#42044)
- GH-42045 - [Java] 更新 Flight 模块的单元测试 (#42158)
- GH-42087 - [Swift] 重构以消除构建警告 (#42088)
- GH-42092 - [Java] 更新工具模块的单元测试 (#42093)
- GH-42100 - [C++][Parquet] ParquetFilePrinter::JSONPrint 打印 FLBA 的长度 (#41981)
- GH-42101 - [Java] 在 FileRoundtrip 中创建用于输出验证的文件 (#42115)
- GH-42109 - [C++][CMake] 添加 Valgrind 的预设 (#42110)
- GH-42112 - [Python] Array 在非 CPU 设备上优雅地失败 (#42113)
- GH-42121 - [Java] 清理 spotless 插件配置 (#43019)
- GH-42124 - [Swift] 添加按类型加载和验证构建器的方法 (#42195)
- GH-42126 - [C++] 将 TakeXXX 自由函数移动到 TakeMetaFunction 并将其设为私有 (#42127)
- GH-42128 - [Packaging][CentOS] 迁移 CentOS 7 和 CentOS Stream 8 打包作业以使用 vault.centos.org (#42129)
- GH-42134 - [C++][FS][Azure] 验证 AzureOptions::{blob,dfs}_storage_scheme (#42135)
- GH-42143 - [R] 清理 R 元数据 (#41969)
- GH-42146 - [MATLAB] 添加 IPC
RecordBatchFileReader
和RecordBatchFileWriter
MATLAB 类 (#42201) - GH-42162 - [Java] 更新数据集模块的单元测试 (#42163)
- GH-42164 - [Java] 更新 Gandiva 模块的单元测试 (#42166)
- GH-42165 - [Java] 更新内存模块的单元测试 (#42161)
- GH-42167 - [CI] 升级 .env 中的 vcpkg 版本 (#42171)
- GH-42168 - [Python][Parquet] Pyarrow 将小数存储为整数 (#42169)
- GH-42190 - [Python] 为 Numpy 1.X 添加 CI 作业 (#42189)
- GH-42193 - [Java] 更新依赖以仅保持 JUnit 5 (#42206)
- GH-42228 - [CI][Java] 禁止 java-jars 中的传输进度日志 (#42230)
- GH-42235 - [C++] list_parent_indices:添加对列表视图类型的支持 (#42236)
- GH-42243 - [Swift] 更新 isValidBuilderType 以不需要类型实例 (#42244)
- GH-42245 - [Swift] 确保所有键类型的 map 行为相同 (#42246)
- GH-43020 - [Java] 简化 flight.properties 的生成 (#43028)
- GH-43033 - [CI][Docker] 为 python-wheel-windows-test-vs2019 启用 linter (#43034)
- GH-43040 - [C++] 减少多连接测试的递归 (#43042)
- GH-43045 - [CI][Python] 在 python substrait 集成中固定 openjdk=17 (#43051)
- GH-43060 - [C++] 使用 raw_read_bound 限制 BufferedInputStream::SetBufferSize 中的缓冲区大小 (#43064)
- GH-43076 - [C#] 升级 Xunit 并更改如何跳过 Python 集成测试 (#43091)