Apache Arrow 16.0.0 (2024 年 4 月 20 日)
这是一个主要版本,涵盖了超过 1 个月的开发工作。
下载
贡献者
此版本包含来自 119 位不同贡献者的 587 个提交。
$ git shortlog -sn apache-arrow-15.0.2..apache-arrow-16.0.0
79 dependabot[bot]
70 Sutou Kouhei
41 Antoine Pitrou
31 Joris Van den Bossche
28 Raúl Cumplido
24 Alenka Frim
19 mwish
14 Felipe Oliveira Carvalho
13 Jacob Wujciak-Jens
12 Dewey Dunnington
11 Dane Pitkin
10 Bryce Mecum
10 Matt Topol
9 Jonathan Keane
9 ZhangHuiGui
8 Vibhatha Lakmal Abeykoon
7 Rossi Sun
6 Adam Reeve
6 David Li
6 Hyunseok Seo
6 James Henderson
6 Thomas Newton
6 david dali susanibar arce
5 Dominik Moritz
5 Laurent Goujon
5 Weston Pace
4 Curt Hagenlocher
4 Divyansh200102
4 Gang Wu
4 Ian Cook
4 James Duong
4 abandy
3 Benjamin Kietzman
3 Jin Shang
3 Joel Lubinitsky
3 Judah Rand
3 Nic Crane
3 Rok Mihevc
3 Rossi(Ruoxi) Sun
3 Vyas Ramasubramani
3 Xiansen Chen
2 Anja Kefala
2 Gabriel Tomitsuka
2 Josh Soref
2 LucasG0
2 Marcus D. Hanwell
2 Michał Górny
2 Neal Richardson
2 Paul
2 Sten Larsson
2 Zhen Wang
2 emkornfield
2 wayne
1 0x0000ffff
1 Adam Curtis
1 Alex Shcherbakov
1 Alexander Blazhkov
1 Ali Khalili
1 Andrew Grosser
1 Andrew Lamb
1 Austin Dickey
1 Chun Yang
1 Clay Johnson
1 Clif Houck
1 David Greiss
1 Donald Tolley
1 Elliot Morrison-Reed
1 Etienne Bacher
1 Florian Bernard
1 Florian Jetter
1 Fokko Driesprong
1 Francis
1 Hadley Wickham
1 Hattonuri
1 Hussein Awala
1 JB Onofré
1 Jeffrey Vo
1 Jeremy Aguilon
1 Jinpeng
1 Joe Marshall
1 Jânio
1 Kemal
1 Kevin Gurney
1 Kevin Mingtarja
1 Lev Tolmachev
1 Liang-Chi Hsieh
1 Lubo Slivka
1 Lyndon Shi
1 MagicBoost
1 Matthew McNew
1 Miguel Pragier
1 Miles
1 Paul Nienaber
1 Peter Newcomb
1 Sandro
1 Simon Perkins
1 Siyang Tang
1 Tom Jarosz
1 Uwe L. Korn
1 Will Jones
1 Yan Zhou
1 Yue
1 arunppsg
1 av8or1
1 carehabit
1 dsisnero
1 ella-chao
1 h-vetinari
1 keshen-msft
1 lriggs
1 messense
1 normanj-bitquill
1 qmmk
1 sgilmore10
1 sullis
1 tobim
1 y.yoshida5
1 ywgrit
1 野鹿
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-15.0.2..apache-arrow-16.0.0
176 Sutou Kouhei
97 Antoine Pitrou
58 Joris Van den Bossche
50 David Li
32 Matt Topol
27 Curt Hagenlocher
20 Jacob Wujciak-Jens
17 Raúl Cumplido
16 Felipe Oliveira Carvalho
14 AlenkaF
13 mwish
9 Benjamin Kietzman
8 Dewey Dunnington
6 Nic Crane
5 Bryce Mecum
5 Jonathan Keane
3 Weston Pace
3 dependabot[bot]
2 Kevin Gurney
1 Rok Mihevc
更新日志
Apache Arrow 16.0.0 (2024-04-20 07:00:00)
错误修复
- GH-20379 - [Java] Dataset 释放字节时未能更新保留 (#40101)
- GH-35081 - [Python] 在
to_pandas
中使用公共 API 构造 pandas.DataFrame (#40897) - GH-35369 - [文档] 在 ref:
IPC format <format-ipc>
后添加缺失的空格 (#38276) - GH-35718 - [Go][Parquet] 修复仅包含 null 的编码导致的 panic (#39497)
- GH-36026 - [C++][ORC] 捕获所有 ORC 异常以避免崩溃 (#40697)
- GH-36026 - [Python] 修复 python wheel windows 测试中 ORC 测试的段错误 (#40609)
- GH-37164 - [Python] 在
ConvertPyError
中将 Python 堆栈跟踪附加到错误 (#39380) - GH-37841 - [Java] 字典解码未使用 ArrowReader 中的压缩工厂 (#38371)
- GH-37989 - [Python] 修复从 Python 字典列表创建 Arrow 数组时的引用泄漏 (#40412)
- GH-38768 - [Python] 反向对超出起始位置的数组进行空切片现在是空结果 (#40682)
- GH-38768 - [Python] 反向对超出起始位置的数组进行切片现在包含第一个元素。 (#39240)
- GH-38794 - [C++][S3] 处理目录的常规 content-type (#40147)
- GH-38821 - [C++] 加强对 S3, GCS 中重复斜杠的处理 (#40371)
- GH-38828 - [R] 确保可以将流写入套接字连接 (#38897)
- GH-38833 - [C++] 避免 hash_mean 溢出 (#39349)
- GH-38923 - [GLib] 修复拼写错误 (#38924)
- GH-38962 - [C++] 修复拼写错误 (array) (#38963)
- GH-39291 - [文档] 从文档页面移除“显示源代码”链接 (#40167)
- GH-39309 - [Go][Parquet] 处理 DeltaBinaryPacked 中的 nil bitWriter (#39347)
- GH-39310 - [CI][Java][文档] 因新的 module-info-compiler Maven 插件导致失败
- GH-39416 - [GLib][文档] 修复 README 内容中的损坏链接 (#39896)
- GH-39424 - [CI][R] test-r-rhub-debian-gcc-devel-lto-latest 因无法安装 Arrow 而失败
- GH-39440 - [Python] 将 pyarrow.dataset.ParquetFileFormat.make_write_options 作为类方法调用会导致段错误 (#40976)
- GH-39444 - [Python] 修复加密测试中的 parquet 导入问题 (#40505)
- GH-39444 - [C++][Parquet] 修复 Modular Encryption 中的崩溃问题 (#39623)
- GH-39456 - [Go][Parquet] Arrow DATE64 类型被强制转换为 Parquet DATE 逻辑类型 (#39460)
- GH-39466 - [Go][Parquet] 对齐 Arrow 和 Parquet 时间戳的 Instant/Local 语义 (#39467)
- GH-39519 - [Swift] 修复使用 reader 时的 null 计数 (#39520)
- GH-39523 - [R] 在开发版本上不要覆盖显式设置的 NOT_CRAN=false (#39524)
- GH-39558 - [Java] 为 SqlInfoBuilder 添加 SQL_ALL_TABLES_ARE_SELECTABLE, SQL_NULL_ORDERING 和 SQL_MAX_COLUMNS_IN_TABLE 支持 (#39561)
- GH-39579 - [Python] 修复 _ensure_partitioning 时引发 ValueError 的问题 (#39593)
- GH-39683 - [发布] 在 TEST_BINARY=1 时使用临时目录 (#39684)
- GH-39706 - [Archery] 修复
benchmark diff
子命令 (#39733) - GH-39738 - [R] 支持针对 Arrow 最近三个发行版本进行构建 (#39739)
- GH-39765 - [C++][Dataset] 修复 dataset-scanner-benchmark 中的失败问题 (#39794)
- GH-39769 - [C++][设备] 修复 DeviceArray 导入嵌套类型和字符串类型的问题 (#39770)
- GH-39782 - [C++] 在 ExportDeviceArray 中使用正确的 (非 CPU) 缓冲区地址 (#39783)
- GH-39788 - [Python] 验证 Table.to_batches 中的 max_chunksize (#39796)
- GH-39841 - [GLib] 再次添加对 GLib 2.56 的支持 (#39842)
- GH-39857 - [C++] 改进“chunker 不同步”条件的错误消息 (#39892)
- GH-39870 - [Go] 在 TotalBytesWritten 中包含缓冲的页面 (#40105)
- GH-39874 - [CI][C++][Windows] 使用预安装的 OpenSSL (#39882)
- GH-39883 - [CI][R][Windows] 在 Git bash 中使用 ci/scripts/install_minio.sh (#39929)
- GH-39909 - [Java][CI] 更新 Testing 子模块中 Float16 测试文件引用的参考 (#39911)
- GH-39921 - [Go][Parquet] ColumnWriter 在 Flush 后未重置 TotalCompressedBytes (#39922)
- GH-39925 - [Go][Parquet] 修复 maybeReplaceValidity 函数中的重新切片问题 (#39926)
- GH-39935 - [GLib][文档] 使用 GI-DocGen 代替 GTK-Doc (#40427)
- GH-39955 - [C++] 使用 make -j1 安装捆绑的 bzip2 (#39956)
- GH-39965 - [C++] DatasetWriter 在启用
max_rows_per_file
时避免创建零大小的批次 (#39995) - GH-39973 - [C++][CI] 为 ASAN 和 Valgrind 禁用调试内存池 (#39975)
- GH-39992 - [CI][文档][Java] ubuntu-docs 在 .env 中使用 Maven 版本 (#39993)
- GH-39996 - [Archery] 修复从 fork 的 main 分支上的 PR 构建 Crossbow 的问题 (#40002)
- GH-39996 - [Archery] 修复从 fork 的 main 分支上的 PR 构建 Crossbow 的问题 (#39997)
- GH-40038 - [Java] 通过 C Data Interface 导出变长布局的非空偏移缓冲区 (#40043)
- GH-40039 - [Java][FlightRPC] 通过移除不必要的内存拷贝来提升性能 (#40042)
- GH-40040 - [C++][Gandiva] 将 Gandiva 的对象代码缓存默认缓存大小设置为 5000 (#40041)
- GH-40052 - [C++][FS][Azure] 修复分层命名空间账户上 CreateDir 和 DeleteDir 的尾部斜杠问题 (#40054)
- GH-40085 - [C++][FS][Azure] 在 AzureFileSystem::Impl::MovePaths() 中验证容器 (#40086)
- GH-40089 - [Go] 用于接收大型记录集的并发 Recordset (#40090)
- GH-40097 - [Go][FlightRPC] 启用禁用 TLS (#40098)
- GH-40126 - [C++] 具有不同精度和小数位的 Decimal 类型在调用算术函数时 resolve type 绑定失败 (#40223)
- GH-40145 - [C++][文档] 更正控制台 emitter 链接 (#40146)
- GH-40153 - [C++][Python] 修复 32 位系统上的 test_gdb 失败问题 (#40293)
- GH-40153 - [Python] 使
Tensor.__getbuffer__
在 32 位平台上工作 (#40294) - GH-40153 - [Python] 避免在 Array.to_numpy() 中使用 np.take (#40295)
- GH-40153 - [Python][C++] 修复 32 位 Python 构建中的大文件处理问题 (#40176)
- GH-40153 - [Python] 更新 32 位平台的尺寸假设 (#40165)
- GH-40153 - [Python] 修复 32 位平台上的 foreign_buffer 溢出错误 (#40158)
- GH-40171 - [Python] 将 Type_FIXED_SIZE_LIST 添加到 _NESTED_TYPES 集合 (#40172)
- GH-40181 - [C++] 支持 glog 0.7 构建 (#40230)
- GH-40183 - [C++] 修复通过 AddAlias 添加别名后 cast 函数绑定失败的问题 (#40200)
- GH-40199 - [R] dbplyr 2.5.0 向前兼容性 (#40197)
- GH-40207 - [C++] TakeCC: 只连接一次并委托给 TakeAA 而不是 TakeCA (#40206)
- GH-40227 - [R] 确保
create_package_with_all_dependencies
中的可执行文件 (#40232) - GH-40233 - [C++] 修复 asof_join_benchmark 运行时因缺少参数而中止的问题 (#40234)
- GH-40249 - [Java] 修复 ArrowDatabaseMetadata 中的 NPE (#40988)
- GH-40266 - [Python] 将 ListView 标记为嵌套类型 (#40265)
- GH-40268 - [Archery] 提升 pygit2 版本,适应 API 变更 (#40269)
- GH-40276 - [C++] 修复 decimal_benchmark 中一个简单的缓冲区溢出问题 (#40277)
- GH-40279 - [C++] 减少 S3Client 初始化时间 (#40299)
- GH-40306 - [C++] 修复 vector_hash_benchmark 中生成 StringType 测试数据时错误的 total_bytes (#40307)
- GH-40308 - [C++][Gandiva] 添加对 compute 模块 decimal 提升规则的支持 (#40434)
- GH-40316 - [Python] 仅在使用时分配 ScalarMemoTable (#40565)
- GH-40327 - [C++][Parquet] 在 key_management_test.cc 中添加缺失的 config.h include (#40330)
- GH-40331 - [C++][CMake] 为 arrow_util 添加缺失的 glog::glog 依赖 (#40332)
- GH-40334 - [C++][Gandiva] 为 encrypt_utils_test.cc 添加缺失的 OpenSSL 依赖 (#40338)
- GH-40366 - [C++] 从 Buffer::mutable_span_as 移除 const 限定符 (#40367)
- GH-40375 - [Python] 在 Windows 上进行发布验证时编译 Cython 文件出错
- GH-40395 - [C++] 避免简化调用不纯函数的表达式 (#40396)
- GH-40398 - [C++] 如果启用 opentelemetry 或 ORC,暴露 protobuf 依赖 (#40399)
- GH-40422 - [C++][FlightRPC] 添加缺失的 expiration_time 参数 (#40425)
- GH-40431 - [C++] 将 key_hash/key_map/light_array 相关文件移至 internal,以防止用户使用 (#40484)
- GH-40432 - [C++] 为 arrow_static 添加缺失的 Threads::Threads 依赖 (#40433)
- GH-40439 - [Python] 修复 python/benchmarks/parquet.py 中的 flake8 失败问题 (#40440)
- GH-40443 - [Python] 抑制 python/examples/minimal_build/Dockerfile.* 的警告 (#40444)
- GH-40445 - [C++] 修复 Windows 上的静态构建问题 (#40446)
- GH-40500 - [C++] 确保使用捆绑的 FlatBuffers (#40519)
- GH-40535 - [文档][R] 设置 RETICULATE_PYTHON_ENV 以便找到 pyarrow (#40571)
- GH-40558 - [C++][CI] 修复 TSAN 和 ASAN/UBSAN 崩溃问题 (#40559)
- GH-40562 - [C++] 修复 FileSystem 合并错误 (#40564)
- GH-40566 - [C++] 修复对 Python 3.12 的支持 (#40322)
- GH-40568 - [Java] Dataset 中关于 TestAllTypes 的测试失败 (#40662)
- GH-40591 - [R] 为 pkgdown 网站上的导航栏添加额外的 CSS (#40610)
- GH-40602 - [C++] 将 mold linker 标志移至变量 (#40603)
- GH-40615 - [打包][deb] 将 libprotobuf-dev 依赖从 libarrow-flight-dev 移至 libarrow-dev (#40617)
- GH-40616 - [文档][GLib] 确保覆盖占位符首页 (#40618)
- GH-40619 - [Java] JDBC Adapter 构建问题 (#40656)
- GH-40623 - [Python][文档] 添加 autosummary 的 workaround (#40739)
- GH-40634 - [C#] ArrowStreamReader 不应为 null (#40765)
- GH-40642 - [Python] Bug: 反向对超出起始位置的数组进行空切片应为空
- GH-40652 - [C++] 根据 dest offset 在 CopyBitmap benchmark 中扩大 dest 缓冲区 (#40769)
- GH-40668 - [Ruby][CI] timezone 要求 GLib 2.58 或更高版本 (#40669)
- GH-40672 - [Go][Parquet] 为 min_max 添加适当的构建标签 (#40676)
- GH-40674 - [GLib] 不要假设 gint64 和 int64_t 使用相同的类型 (#40736)
- GH-40693 - [Go] 修复 GetOneForMarshal 时 Decimal 类型的精度损失 (#40694)
- GH-40700 - [Go][CI] test-debian-12-go-1.21 因 `go: updates to go.mod needed` 而失败
- GH-40702 - [R] 在 duckdb 测试中避免使用未文档化的 dbplyr 内部实现 (#40710)
- GH-40703 - [CI][打包] Homebrew 无法在 GHA runners 上安装 Python 3.12 (#40704)
- GH-40706 - [CI][Python] 如果在 sdist-test 作业中定义了 ARROW_PYTHON_VENV,则激活它 (#40707)
- GH-40716 - [Java][集成] 修复验证脚本中的 test_package_java (#40724)
- GH-40718 - [JS] 修复 js 日期向量中的 set visitor (#40725)
- GH-40719 - [Go] 使
arrow.Null
非 null,以便arrow.TypeEqual
与new(arrow.NullType)
正常工作 (#40802) - GH-40727 - [C++][Gandiva] ‘ilike’ 函数无法工作 (#40728)
- GH-40751 - [C++] 修复使用 substrait 构建时 protobuf 包名设置的问题 (#40753)
- GH-40773 - [Java] 为 StructWriters 添加
DENSEUNION
情况,解决 #40773 (#40809) - GH-40775 - [性能测试][Java] 修复 conbench 超时问题 (#40786)
- GH-40788 - [C#] 在 MapArray 中重写 Accept (#40789)
- GH-40790 - [C#] 在获取 StructArray 字段时考虑 offset 和 length (#40805)
- GH-40792 - [C#] 修复对已切片数组的再次切片问题 (#40793)
- GH-40847 - [Go] 更新 readme (#40877)
- GH-40851 - [JS] 修复 nullcount 并使从 typed array 创建的向量不可为空 (#40852)
- GH-40855 - [C++][ORC] 修复 ORC 2.0.0 或更高版本中与
std::filesystem
相关的链接错误 (#41023) - GH-40858 - [R] 从 codegen.R 移除悬空逗号 (#40859)
- GH-40863 - [C++] 修复模块库的 TSAN 链接错误 (#40864)
- GH-40870 - [C#] 更新 CompareValidityBuffer(),使其在未指定最终位不相同时也能通过 (#40873)
- GH-40878 - [JAVA] 修复 flight-sql-jdbc-driver 的 shading 问题 (#40879)
- GH-40891 - [JS] 将 Date 存储为 TimestampMillisecond (#40892)
- GH-40893 - [Java][FlightRPC] 在 FlightSQL JDBC Driver 中支持 IntervalMonthDayNanoVector (#40894)
- GH-40896 - [Java] 移除对 Eclipse, logback 的运行时依赖 (#40904)
- GH-40898 - [C#] 不从 C Data Interface 数组导入长度为零的缓冲区 (#41054)
- GH-40900 - [Go] 修复 Mallocator 的异常行为 (#40902)
- GH-40907 - [Java][FlightSQL] 在 JDBC 驱动中 Shade slf4j-api (#40908)
- GH-40952 - [Java][FlightSQL] 清理 flight-sql-jdbc-driver 依赖 (#40953)
- GH-40954 - [CI] 修复 Github Actions 上使用过时 docker-compose 命令的问题 (#40949)
- GH-40961 - [GLib] 抑制 macOS 上 Vala 示例的警告 (#40962)
- GH-40974 - [CI][Python] 因 pytest_cython 导致的 Python 构建 CI 失败 (#40975)
- GH-40991 - [R] 优先使用 r-universe,添加启动消息 (#41019)
- GH-40999 - [Java] 修复在可空 struct 中尝试 splitAndTransfer DUV 时发生的 AIOOBE (#41000)
- GH-41004 - [C++][FS][Azure] 不使用 Valgrind 运行 TestGetFileInfoGenerator() (#41163)
- GH-41005 - [CI] HDFS 和 skyhook 测试需要使用 docker compose,因为它们需要多个容器 (#41027)
- GH-41007 - [CI][Archery] 在 archery docker 上使用 docker cli 时,正确地从 docker compose 中插值环境变量 (#41026)
- GH-41015 - [JS][性能测试] 允许 JS 性能测试更具可移植性地运行 (#41031)
- GH-41016 - [C++] 修复 BooleanArray.true_count() 中的 null 计数检查 (#41070)
- GH-41024 - [C++] IO: 修复在 gcc 7.5.0 中的编译问题 (#41025)
- GH-41032 - [C++][Parquet] boolean arrow 解码中的错误修复和更多测试 (#41037)
- GH-41039 - [Python] ListView pandas 测试应使用 np.nan 而不是 None (#41040)
- GH-41044 - [C++] formatting.h: 确保在格式化时间戳时为 ‘Z’ 分配空间 (#41045)
- GH-41061 - [C++] 使用 clang < 12 时忽略 ARROW_USE_MOLD/ARROW_USE_LLD (#41062)
- GH-41088 - [CI][Crossbow] 修复 GitHub Actions 工作流程语法错误 (#41091)
- GH-41119 - [Archery][打包][CI] 在 archery 的 Windows Docker 上避免使用 --progress 标志 (#41120)
- GH-41121 - [C++] 修复:left anti join 过滤空行。 (#41122)
- GH-41124 - [CI][C++] 不要将 CMake 3.29.1 与 vcpkg 一起使用 (#41151)
- GH-41127 - [CI] 使用 GitHub Actions 而不是 Azure Pipelines 进行 docker 测试 (#41153)
- GH-41145 - [R][CI] test-r-dev-duckdb 安装 duckdb 失败 (#41152)
- GH-41147 - [CI][C++] 在 Ubuntu 24.04 上使用更新的 LLVM (#41150)
- GH-41154 - [C++] 修复 string-to-float16 转换中的 Valgrind 错误 (#41155)
- GH-41167 - [CI][发布][GLib][Conda] 将 gobject-introspection 钉在 1.78.1 版本 (#41181)
- GH-41169 - [CI][发布] 在 Windows 上显式指定 --build-config (#41178)
- GH-41176 - [C++] 停止在 config.h.cmake 中定义 ARROW_TEST_MEMCHECK (#41177)
- GH-41201 - [C++] 修复集成测试中的错误。显式将 std::string 转换为 bool,避免编译器将 char* 解释为 bool (#41202)
新特性与改进
- GH-18014 - [C++] Azure Blob Storage 文件系统实现
- GH-20127 - [Python][CI] 从 hdfs 和 hypothesis setup 中移除旧的 hdfs 测试 (#40363)
- GH-20127 - [Python] 移除已弃用的 pyarrow.filesystem 旧实现 (#39825)
- GH-20213 - [C++] 实现 halffloat 类型的互相转换 (#40067)
- GH-20339 - [C++] 为 swiss join 添加残余过滤器支持 (#39487)
- GH-23221 - [C++] 添加对使用 Emscripten 构建的支持 (#37821)
- GH-24826 - [Java] 添加 DUV.setOffset 方法 (#40985)
- GH-24834 - [C#] 支持写入压缩的 IPC 数据 (#39871)
- GH-30915 - [C++][Python] 为
RecordBatch
添加缺失的方法 (#39506) - GH-31545 - [GLib] 启用 clang-format (#40451)
- GH-31735 - [文档][发布] 将发布验证指南移至开发者文档 (#39960)
- GH-33499 - [Python][CI] 在 Windows wheels 中支持 ORC
- GH-34235 - [Python] 更正 join_asof 测试的测试标记 (#40666)
- GH-34235 - [Python] 添加
join_asof
绑定 (#34234) - GH-34865 - [C++][Java][Flight RPC] 添加会话管理消息 (#34817)
- GH-35875 - [R] 更新 Readme (#40148)
- GH-35941 - [开发][MATLAB] 为 pre-commit 添加 clang-format 配置 (#40588)
- GH-36656 - [开发] 在合并脚本中验证问题是否已分配里程碑 (#40771)
- GH-37286 - [Java] 开始添加 nullability/nullness 注解 (#37723)
- GH-37328 - [Python] 添加一个函数以在 Windows 上下载和提取时区数据库 (#38179)
- GH-37381 - [Python][CI][打包] 在 Windows Appveyor CI 和 pyarrow 的 Windows wheels 中启用 ORC
- GH-37484 - [Python] 添加 FixedSizeTensorScalar 类 (#37533)
- GH-37931 - [Python][CI][开发][Python] 发布和合并脚本错误 (#37819)” (#40150)
- GH-38010 - [Python] 通过 Arrow PyCapsule Protocol 构造 pyarrow.Field 和 ChunkedArray (#40818)
- GH-38309 - [C++] 将文件系统构建为单独的模块 (#39067)
- GH-38560 - [C++][Parquet] 使用 xsimd 重写 BYTE_STREAM_SPLIT SSE 优化 (#40335)
- GH-38573 - [Java][FlightRPC] 在 JDBC 驱动中尝试所有位置 (#40104)
- GH-38659 - [CI][MATLAB][打包] 将 MATLAB
packaging
task 添加到 crossbowtasks.yml
(#38660) - GH-38663 - [C++] 使用
AWS_ENDPOINT_URL_S3
添加对 S3 服务特定端点的支持 (#39160) - GH-38703 - [C++][FS][Azure] 实现 DeleteFile() (#39840)
- GH-38704 - [C++] 通过 Azure DataLake Storage Gen 2 API 实现 Azure FileSystem 的 Move() (#39904)
- GH-38717 - [C++] 为 ArrowArrayStream 添加 ImportChunkedArray 和 ExportChunkedArray (#39455)
- GH-38916 - [R] 简化 dataset 和 table 的打印输出 (#38917)
- GH-38988 - [Go] 从 DictionaryBuilder 暴露字典大小 (#39521)
- GH-38998 - [Java] 将 memory-core 和 memory-unsafe 构建为 JPMS 模块 (#39011)
- GH-39001 - [Java] 模块化剩余模块 (#39221)
- GH-39057 - [CI][C++][Go] 不在 fork 上运行使用自托管 GitHub Actions Runner 的作业 (#39903)
- GH-39069 - [C++][FS][Azure] 使用通用的文件系统测试 (#40567)
- GH-39147 - [R] 添加 Bootstrap.r (#39148)
- GH-39231 - [C++][计算] 为固定大小二进制添加 binary_slice kernel (#39245)
- GH-39233 - [计算] 添加一些 duration kernel (#39358)
- GH-39270 - [C++] 避免为每个 buffer view/copy 创建内存管理器实例 (#39271)
- GH-39277 - [Python] 修复 DataType 类上缺失的 byte_width 属性 (#39592)
- GH-39330 - [Java][CI] 修复或抑制虚假的 errorprone 警告 (#39529)
- GH-39336 - [C++][Parquet] 次要:parquet::FileMetaData 的风格改进 (#39337)
- GH-39352 - [文件系统][Azure] 在构建中启用 azure (#39971)
- GH-39377 - [C++] IO: 在 CompressedInputStream 中复用同一个缓冲区 (#39807)
- GH-39385 - [C++] 为 rename 使用更宽松的返回码 (#39481)
- GH-39398 - [C++][Parquet] 在 ColumnReader ReadLevels 中使用 std::count (#39397)
- GH-39427 - [GLib] 更新脚本和文档 (#39428)
- GH-39463 - [C++] 支持从 large string, (large) binary 到 dictionary 的 cast kernel (#40017)
- GH-39532 - [Python] 与 NumPy 2.0 的兼容性
- GH-39549 - [C++] 在外部项目中使用 -jN 传递给 make (#39550)
- GH-39552 - [Go] 添加选项,在使用 go 库创建 csv 字符串时使用 replacer (#39576)
- GH-39555 - [打包][Python] 启用 pyarrow 对 numpy 2.0 的构建 (#39557)
- GH-39560 - [C++][Parquet] 添加 BYTE_STREAM_SPLIT 的集成测试 (#39570)
- GH-39574 - [Go] 在 Flight RPC 中启用 PollFlightInfo (#39575)
- GH-39621 - [CI][打包] 更新 vcpkg 到 2023.11.20 版本 (#39622)
- GH-39651 - [Python] Binary/StringView 类的基本 pyarrow 绑定 (#39652)
- GH-39654 - [Java] 升级到 Netty 4.1.105.Final (#39655)
- GH-39663 - [C++] 确保顶级性能测试提供有用的指标 (#40091)
- GH-39666 - [C++] 确保 CSV 和 JSON 性能测试提供 bytes/s 或 items/s 指标 (#39764)
- GH-39667 - [C++] 确保 dataset 性能测试提供 bytes/s 或 items/s 指标 (#39766)
- GH-39669 - [C++][Gandiva] 确保 Gandiva 性能测试提供 bytes/s 或 items/s 指标 (#40435)
- GH-39680 - [Java] 在 Java 模块中启用半精度浮点支持 (#39681)
- GH-39697 - [R] 源码构建应检查是否离线 (#39699)
- GH-39702 - [GLib] 在 GArrowTimestampDataType 中添加对时区的支持 (#39717)
- GH-39704 - [C++][Parquet] levels 解码性能测试 (#39705)
- GH-39707 - [Java] 为 Maven/Java 构建启用本地构建缓存 (#39708)
- GH-39718 - [C++][FS][Azure] 移除 StatusFromErrorResponse,因为它不是必需的 (#39719)
- GH-39720 - [Swift] 将 reader 切换为使用 arrow field 而非 proto 来构建数组 (#39721)
- GH-39734 - [Java] 将 org.codehaus.mojo:exec-maven-plugin 从 1.6.0 提升到 3.1.1 (#39696)
- GH-39747 - [C++][Parquet] 使 BYTE_STREAM_SPLIT 例程与类型无关 (#39748)
- GH-39752 - [Java] 移除 Utf8 使用的静态导入 (#40683)
- GH-39761 - [文档] Go 文档链接引用了 2018 年的过时文档 (#39750)
- GH-39771 - [C++][设备] 通用的 CopyBatchTo/CopyArrayTo 内存类型 (#39772)
- GH-39774 - [Go] 添加对 PreparedStatement 句柄的公共访问 (#39775)
- GH-39779 - [Python] 在 PyArrow 中暴露 force_virtual_addressing (#39819)
- GH-39780 - [Python][Parquet] 支持 FileMetaData 和 ParquetSchema 的哈希 (#39781)
- GH-39812 - [Python] 添加 ListView 和 LargeListView 的绑定 (#39813)
- GH-39815 - [C++] 文档化并微优化 ChunkResolver::Resolve() (#39817)
- GH-39823 - [C++] 允许构建 cpp/src/arrow/*/*.cc 而无需等待捆绑库 (#39824)
- GH-39837 - [Go][Flight] 允许在中间件中克隆现有 cookies (#39838)
- GH-39843 - [C++][Parquet] Parquet 二进制长度溢出异常应包含二进制长度 (#39844)
- GH-39845 - [C++][Parquet] 小改进:避免在 Decoder::SetData 中创建新的 Reader 对象 (#39847)
- GH-39848 - [Python][Packaging] 使用 numpy RC 而非 nightly 版本构建 pyarrow wheels (#41097)
- GH-39852 - [Python] 支持从 Python 对象创建 Binary/StringView 数组 (#39853)
- GH-39855 - [Python] pa.array() 支持 ListView (#40160)
- GH-39859 - [R] 从允许列表中移除 macOS (#39861)
- GH-39863 - [C++] 第三方库:将 google benchmark 升级到 1.8.3 (#39878)
- GH-39864 - [C++] DataType::ToString 支持可选地显示元数据 (#39888)
- GH-39872 - [Packaging][Ubuntu] 添加对 Ubuntu 24.04 Noble Numbat 的支持 (#39887)
- GH-39885 - [CI][MATLAB] 将 matlab-actions/setup-matlab 和 matlab-actions/run-tests 从 v1 升级到 v2 (#39886)
- GH-39900 - [Java][CI] 上传 Maven 和 Memory Netty Buffer Patch 到 Apache Nightly 仓库 (#39901)
- GH-39910 - [Go] 添加函数从 ActionCreatePreparedStatementResult 加载预处理语句 (#39913)
- GH-39928 - [C++][Gandiva] 接受 LLVM 18 (#39934)
- GH-39930 - [C++] 在 arrow.pc 中对系统 RE2 使用 Requires 而非 Libs (#39932)
- GH-39946 - [Java] 将 com.puppycrawl.tools:checkstyle 从 8.19 升级到 8.29 (#39694)
- GH-39958 - [Python][CI] 移除 pytest 的上限限制 (#40487)
- GH-39962 - [C++] 小型 CSV 读取器重构 (#39963)
- GH-39968 - [Python][FS][Azure]
AzureFileSystem
的最小 Python 绑定 (#40021) - GH-39978 - [C++][Parquet] 扩展 BYTE_STREAM_SPLIT 以支持 FIXED_LEN_BYTE_ARRAY, INT32 和 INT64 (#40094)
- GH-39979 - [Python] 用于导出/导入 C 设备接口的低级绑定 (#39980)
- GH-39984 - [Python] 添加 ChunkedArray 与 C 之间的导入/导出 (#39985)
- GH-39987 - [R] 实现在 windows 上使用 rtools libarrow 的可能性 (#39986)
- GH-40011 - [CI] 将 Fedora 从 38 更新到 39 (#40012)
- GH-40023 - [Python] 使用 Cast() 而非 CastTo (#40116)
- GH-40026 - [C++][FS][Azure] 添加对读取用户定义元数据的支持 (#40671)
- GH-40028 - [C++][FS][Azure] 向 FileSystemFromUri() 添加 AzureFileSystem 支持 (#40325)
- GH-40029 - [Packaging][Ubuntu] 取消对 Ubuntu 23.10 Mantic Minotaur 的支持 (#40030)
- GH-40037 - [C++][FS][Azure] 使对目录的读写尝试快速失败 (#40119)
- GH-40055 - [Java][Docs] 简化 Filter 和 Expression 在 Dataset Substrait 中的使用 (#40056)
- GH-40059 - [C++][Python] RecordBatch 到 Arrow Tensor 的基本转换 (#40064)
- GH-40060 - [C++][Python] RecordBatch 到 Arrow Tensor 的基本转换 - 添加对不同数据类型的支持 (#40359)
- GH-40061 - [C++][Python] RecordBatch 到 Arrow Tensor 的基本转换 - 添加将 NULL 转换为 NaN 的选项 (#40803)
- GH-40066 - [Python] 在
__arrow_c_stream__()
中支持requested_schema
(#40070) - GH-40074 - [C++][FS][Azure] 实现
DeleteFile()
用于平面命名空间存储账户 (#40075) - GH-40077 - [CI] 使用 GitHub 托管的 M1 macOS runner (#40437)
- GH-40079 - [CI][Packaging] 在更多测试和构建中启用 Azure (#40080)
- GH-40082 - [CI][C++] 在 ARM64 macOS 上添加一个作业 (#40456)
- GH-40092 - [Python] 支持 Binary/StringView 转换为 numpy/pandas (#40093)
- GH-40095 - [C++][Parquet] 移除 BYTE_STREAM_SPLIT 编码的 AVX512 变体 (#40127)
- GH-40113 - [Go][Parquet] 新的 RegisterCodec 函数 (#40114)
- GH-40133 - [C++][Parquet][Tools] 打印 FIXED_LEN_BYTE_ARRAY 长度 (#40132)
- GH-40142 - [Python] 允许将 FileInfo 实例传递给 dataset init (#40143)
- GH-40151 - [C++] 使 S3 叙述性测试更灵活 (#40144)
- GH-40152 - [C++] 移除对 BatchesFromTable 的冗余调用 (#40173)
- GH-40155 - [Go][FlightRPC][FlightSQL] 实现会话管理 (#40284)
- GH-40159 - [Python][CI] 在 Crossbow 上添加 32 位 Debian 构建 (#40164)
- GH-40190 - [R][Docs] 使用构建系统更改更新 NEWS.md (#40191)
- GH-40205 - [Python] ListView Arrow 到 pandas 转换 (#40482)
- GH-40209 - [C++][CMake] 对 RapidJSON 使用 “RapidJSON” CMake 目标 (#40210)
- GH-40212 - [R][CI] 添加一个使用 gcc 14 的 C++ 构建 (#40244)
- GH-40221 - [C++][CMake] 使用 arrow/util/config.h.cmake 而非 add_definitions() (#40222)
- GH-40224 - [C++] 修复:改进 dataset writer 中的背压处理 (#40722)
- GH-40228 - [C++][CMake] 改进关于为何需要在 arrow-s3fs-test 中初始化 AWS C++ SDK 的描述 (#40229)
- GH-40236 - [Python][CI] 禁用在 Cython 回溯中生成 C 行 (#40225)
- GH-40261 - [Go] 不要导出具有未暴露返回类型的数组函数 (#40272)
- GH-40273 - [Python] 在 pa.array(..) 中支持构造 Run-End Encoded 数组 (#40341)
- GH-40274 - [C++] 添加对系统 glog 0.7 的支持 (#40275)
- GH-40280 - [C++] 在值特定类型上而非整个类上特化 ResolvedChunk::Value (#40281)
- GH-40291 - [Python] 在 pyarrow.record_batch() 函数中接受 dict (#40292)
- GH-40318 - [C++][Docs] 添加数组工厂的文档 (#40373)
- GH-40323 - [R][CI] 使用 rocker/r-ver 而非 library/r-base (#40321)
- GH-40328 - [C++][Parquet] 允许在 CryptoFactory 被销毁后使用 FileDecryptionProperties (#40329)
- GH-40333 - [Docs] 改进 ARROW_USER_SIMD_LEVEL 环境变量文档 (#40374)
- GH-40345 - [FlightRPC][C++][Java][Go] 添加 URI scheme 以重用连接 (#40084)
- GH-40357 - [C++] 添加 ToTensor 转换的基准测试 (#40358)
- GH-40370 - [C++] 为非 MSVC 构建定义 ARROW_FORCE_INLINE (#40372)
- GH-40376 - [Python] 更新以适应 NumPy 2.0 中 PyArray_Descr->elsize 的 ABI 更改 (#40418)
- GH-40377 - [Python][CI] 修复集成测试中 nightly dask 的安装 (#40378)
- GH-40379 - [Python] 修复 binary(0) 的 byte_width + 修复 hypothesis 测试 (#40381)
- GH-40394 - [C++] 添加对 mold 的支持 (#40397)
- GH-40400 - [C++] 添加对 LLD 的支持 (#40927)
- GH-40402 - [GLib] 添加缺失的计算函数选项类 (#40403)
- GH-40405 - [C++] 在对平面命名空间账户尝试 Move 时生成更好的错误消息 (#40406)
- GH-40428 - [Python][CI] 修复使用 pandas nightly 的数据集分区过滤测试 (#40429)
- GH-40438 - [GLib] 添加 GArrowTimestampParser (#40457)
- GH-40441 - [GLib][Docs] 使用 Sphinx 为 Apache Arrow GLib 首页生成文档 (#40442)
- GH-40448 - [CI][Dev] 运行 pre-commit (#40449)
- GH-40454 - [CI][Debian] 将 Debian 从 11 更新到 12 (#40455)
- GH-40495 - [GLib] 使用 G_DECLARE_DERIVABLE_TYPE() (#40497)
- GH-40498 - [GLib] 移除 arrow-glib/gobject-type.h (#40499)
- GH-40507 - [C++][ORC] 将 ORC 升级到 2.0.0 (#40508)
- GH-40515 - [Java] 将 org.apache.maven 依赖项从 3.3.9 升级到 3.8.7 (#40514)
- GH-40522 - [Dev][Go] 添加 Go 的 Dependabot 配置 (#40523)
- GH-40536 - [CI] :将剩余作业迁移出自托管的 mac runner (#40537)
- GH-40540 - [CI][C++] 不安装 FlatBuffers (#40541)
- GH-40542 - [Dev][CI] 对所有文件运行 pre-commit (#40543)
- GH-40544 - [Dev] 将 cmake-format 配置添加到 pre-commit (#40545)
- GH-40549 - [Java] 撤销将 /java 中 org.apache.maven.plugins:maven-shade-plugin 从 3.2.4 升级到 3.5.2 的更改 (#40462)” (#41006)
- GH-40551 - [Release][Docs] 改进补丁发布流程的文档 (#40552)
- GH-40553 - [C#] 避免每个请求实例化 logger (#40554)
- GH-40573 - [GLib][Ruby][CSV] 添加对自定义时间戳解析器的支持 (#40590)
- GH-40575 - [Docs][Python] 将 JsonFileFormat 添加到文档 (#40585)
- GH-40577 - [C++] 确保 pkg-config 标志包含 -ldl 用于静态构建 (#40578)
- GH-40586 - [Dev][C++][Python][R] 对 clang-format 使用 pre-commit (#40587)
- GH-40607 - [C++] 将
Function::is_impure()
重命名为is_pure()
(#40608) - GH-40621 - [C++] 在 arrow/io/compressed_test.cc 中添加缺失的 util/config.h (#40625)
- GH-40630 - [Go][Parquet] 实现在不关闭文件的情况下写入 Parquet 脚注 (#40654)
- GH-40659 - [Python][C++] 支持将 pyarrow.RunEndEncodedArray 转换为 numpy/pandas (#40661)
- GH-40680 - [Java] 在 CI 中测试 JDK 22 (#41038)
- GH-40684 - [Java][Docs] 使用 IntelliJ 调试 JNI 模块 (#40685)
- GH-40689 - [Docs] 将 nanoarrow 添加到实现状态页面 (#41052)
- GH-40690 - [C#][FlightRPC] 添加 do_exchange csharp 实现 (#40691)
- GH-40695 - [C++] 扩展 Substrait 类型支持 (#40696)
- GH-40698 - [C++] 创建 Device 注册表用于在 C 设备数据导入中将 DeviceType 映射到 MemoryManager (#40699)
- GH-40720 - [Python] 简化并改进 Table.to_pandas 中列名创建的性能 (#40721)
- GH-40731 - [C++][Parquet] 加密代码的小改进 (#40732)
- GH-40733 - [Go] 要求 Go 1.21 或更高版本 (#40848)
- GH-40745 - [Java][FlightRPC] 支持配置背压阈值 (#41051)
- GH-40767 - [C++][Parquet] 简化 PageWriter 和 ColumnWriter 的创建 (#40768)
- GH-40783 - [C++] 重新排序 MemoryPoolStats 更新中的加载和存储 (#40647)
- GH-40784 - [JS] 使用 bigIntToNumber (#40785)
- GH-40791 - [Dev][CI] 使用官方 hadolint 配置 (#40794)
- GH-40796 - [Java] 在
ListVector.setNull
中设置lastSet
以避免 ListVectors 中大量 null 的 O(n²) 性能问题 (#40810) - GH-40799 - [Doc][Format] 实现状态页面应列出规范扩展类型 (#41053)
- GH-40801 - [Docs] 澄清 Arrow C 设备数据接口中的设备标识符文档 (#41101)
- GH-40806 - [C++] 撤销 PR #40857 中的更改 (#40980)
- GH-40806 - [C++] 在 GetRuntimeInfo 中正确报告 asimd/neon (#40857)
- GH-40814 - [C++] 第三方库:将 zstd 升级到 1.5.6 (#40837)
- GH-40833 - [Docs][Release] 在文档中明确指出,验证二进制文件不是投票的必要条件 (#40834)
- GH-40841 - [Docs][C++][Python] 添加 RecordBatch::Tensor 转换的初始文档 (#40842)
- GH-40843 - [Java] 清理 protobuf-maven-plugin 使用 (#40844)
- GH-40866 - [C++][Python] RecordBatch 到 Arrow Tensor 的基本转换 - 添加对行主序的支持 (#40867)
- GH-40872 - [C++][Parquet] 编码:优化 PlainBooleanDecoder 的 DecodeArrow/Decode(bitmap) (#40876)
- GH-40882 - [C++] 在 CUDA/Skyhook 代码中抑制 shorten-64-to-32 警告 (#40883)
- GH-40888 - [Go][FlightRPC] 在 FlightSQL driver 中支持从 array.Duration 转换 (#40889)
- GH-40983 - [C++] 修复未使用的函数构建错误 (#40984)
- GH-40994 - [C++][Parquet] RleBooleanDecoder 支持带有 null 的 DecodeArrow (#40995)
- GH-41034 - [C++][FS][Azure] 针对通用文件系统测试,调整 DeleteDir/DeleteDirContents/GetFileInfoSelector 在 Azure 上的行为 (#41068)
- GH-41043 - [CI][Python] 检查 Cython 2 的 test_make_write_options_error 中的消息 (#41059)
- GH-41047 - [C#] 解决从 StringArray 读取时的性能问题 (#41048)
- GH-41098 - [Python] 在 Array.array 中为 numpy 2.0+ 兼容性添加 copy 关键字 (#41071)
- GH-41100 - [Python][Packaging] PyArrow wheel 构建失败,因为禁用了 vcpkg 安装 liblzma
- GH-41227 - [CI][Release][GLib][Conda] 取消固定 gobject-introspection (#41228)
- PARQUET-2423 - [C++][Parquet] 避免在 RecordReader 的 SkipRecords 中分配 buffer 对象 (#39818)