Apache Arrow 16.0.0 (2024年4月20日)
这是一个涵盖超过 1 个月开发的重大版本。
下载
贡献者
此版本包含来自 119 位不同贡献者的 587 次提交。
$ git shortlog -sn apache-arrow-15.0.2..apache-arrow-16.0.0
79 dependabot[bot]
70 Sutou Kouhei
41 Antoine Pitrou
31 Joris Van den Bossche
28 Raúl Cumplido
24 Alenka Frim
19 mwish
14 Felipe Oliveira Carvalho
13 Jacob Wujciak-Jens
12 Dewey Dunnington
11 Dane Pitkin
10 Bryce Mecum
10 Matt Topol
9 Jonathan Keane
9 ZhangHuiGui
8 Vibhatha Lakmal Abeykoon
7 Rossi Sun
6 Adam Reeve
6 David Li
6 Hyunseok Seo
6 James Henderson
6 Thomas Newton
6 david dali susanibar arce
5 Dominik Moritz
5 Laurent Goujon
5 Weston Pace
4 Curt Hagenlocher
4 Divyansh200102
4 Gang Wu
4 Ian Cook
4 James Duong
4 abandy
3 Benjamin Kietzman
3 Jin Shang
3 Joel Lubinitsky
3 Judah Rand
3 Nic Crane
3 Rok Mihevc
3 Rossi(Ruoxi) Sun
3 Vyas Ramasubramani
3 Xiansen Chen
2 Anja Kefala
2 Gabriel Tomitsuka
2 Josh Soref
2 LucasG0
2 Marcus D. Hanwell
2 Michał Górny
2 Neal Richardson
2 Paul
2 Sten Larsson
2 Zhen Wang
2 emkornfield
2 wayne
1 0x0000ffff
1 Adam Curtis
1 Alex Shcherbakov
1 Alexander Blazhkov
1 Ali Khalili
1 Andrew Grosser
1 Andrew Lamb
1 Austin Dickey
1 Chun Yang
1 Clay Johnson
1 Clif Houck
1 David Greiss
1 Donald Tolley
1 Elliot Morrison-Reed
1 Etienne Bacher
1 Florian Bernard
1 Florian Jetter
1 Fokko Driesprong
1 Francis
1 Hadley Wickham
1 Hattonuri
1 Hussein Awala
1 JB Onofré
1 Jeffrey Vo
1 Jeremy Aguilon
1 Jinpeng
1 Joe Marshall
1 Jânio
1 Kemal
1 Kevin Gurney
1 Kevin Mingtarja
1 Lev Tolmachev
1 Liang-Chi Hsieh
1 Lubo Slivka
1 Lyndon Shi
1 MagicBoost
1 Matthew McNew
1 Miguel Pragier
1 Miles
1 Paul Nienaber
1 Peter Newcomb
1 Sandro
1 Simon Perkins
1 Siyang Tang
1 Tom Jarosz
1 Uwe L. Korn
1 Will Jones
1 Yan Zhou
1 Yue
1 arunppsg
1 av8or1
1 carehabit
1 dsisnero
1 ella-chao
1 h-vetinari
1 keshen-msft
1 lriggs
1 messense
1 normanj-bitquill
1 qmmk
1 sgilmore10
1 sullis
1 tobim
1 y.yoshida5
1 ywgrit
1 野鹿
补丁提交者
以下 Apache 提交者将贡献的补丁合并到代码库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-15.0.2..apache-arrow-16.0.0
176 Sutou Kouhei
97 Antoine Pitrou
58 Joris Van den Bossche
50 David Li
32 Matt Topol
27 Curt Hagenlocher
20 Jacob Wujciak-Jens
17 Raúl Cumplido
16 Felipe Oliveira Carvalho
14 AlenkaF
13 mwish
9 Benjamin Kietzman
8 Dewey Dunnington
6 Nic Crane
5 Bryce Mecum
5 Jonathan Keane
3 Weston Pace
3 dependabot[bot]
2 Kevin Gurney
1 Rok Mihevc
更新日志
Apache Arrow 16.0.0 (2024-04-20 07:00:00)
错误修复
- GH-20379 - [Java] 释放字节时 Dataset 未能更新保留 (#40101)
- GH-35081 - [Python] 在 `to_pandas` 中使用公共 API 构建 pandas.DataFrame (#40897)
- GH-35369 - [文档] 在 ref: `IPC 格式 <format-ipc>` 后添加缺少的空格 (#38276)
- GH-35718 - [Go][Parquet] 修复仅空值编码 panic 的问题 (#39497)
- GH-36026 - [C++][ORC] 捕获所有 ORC 异常以避免崩溃 (#40697)
- GH-36026 - [Python] 修复 python wheel windows 测试中的 ORC 测试段错误 (#40609)
- GH-37164 - [Python] 将 Python 堆栈跟踪附加到 `ConvertPyError` 中的错误 (#39380)
- GH-37841 - [Java] 字典解码未使用 ArrowReader 中的压缩工厂 (#38371)
- GH-37989 - [Python] 解决从 Python 字典列表创建 Arrow 数组时的引用泄漏问题 (#40412)
- GH-38768 - [Python] 向后切片数组到起始位置之前现在为空 (#40682)
- GH-38768 - [Python] 向后切片数组到起始位置之前现在包含第一项。 (#39240)
- GH-38794 - [C++][S3] 处理目录的常规内容类型 (#40147)
- GH-38821 - [C++] 加强对 S3、GCS 中重复斜杠的处理 (#40371)
- GH-38828 - [R] 确保可以将流写入套接字连接 (#38897)
- GH-38833 - [C++] 避免 hash_mean 溢出 (#39349)
- GH-38923 - [GLib] 修复拼写错误 (#38924)
- GH-38962 - [C++] 修复拼写错误 (array) (#38963)
- GH-39291 - [文档] 从文档页面中删除“显示源代码”链接 (#40167)
- GH-39309 - [Go][Parquet] 为 DeltaBinaryPacked 处理 nil bitWriter (#39347)
- GH-39310 - [CI][Java][文档] 新的 module-info-compiler Maven 插件导致失败
- GH-39416 - [GLib][文档] 修复 README 内容中的损坏链接 (#39896)
- GH-39424 - [CI][R] test-r-rhub-debian-gcc-devel-lto-latest 无法安装 Arrow 导致失败
- GH-39440 - [Python] 将 pyarrow.dataset.ParquetFileFormat.make_write_options 作为类方法调用会导致段错误 (#40976)
- GH-39444 - [Python] 修复加密测试中的 parquet 导入问题 (#40505)
- GH-39444 - [C++][Parquet] 修复模块化加密中的崩溃问题 (#39623)
- GH-39456 - [Go][Parquet] Arrow DATE64 类型强制转换为 Parquet DATE 逻辑类型 (#39460)
- GH-39466 - [Go][Parquet] 对齐 Arrow 和 Parquet 时间戳 Instant/Local 语义 (#39467)
- GH-39519 - [Swift] 修复使用读取器时的空计数问题 (#39520)
- GH-39523 - [R] 在开发版本上不要覆盖显式设置的 NOT_CRAN=false (#39524)
- GH-39558 - [Java] 为 SqlInfoBuilder 添加 SQL_ALL_TABLES_ARE_SELECTABLE、SQL_NULL_ORDERING 和 SQL_MAX_COLUMNS_IN_TABLE 支持 (#39561)
- GH-39579 - [Python] 修复在 _ensure_partitioning 上引发 ValueError 的问题 (#39593)
- GH-39683 - [Release] 将临时方向与 TEST_BINARY=1 一起使用 (#39684)
- GH-39706 - [Archery] 修复 `benchmark diff` 子命令 (#39733)
- GH-39738 - [R] 支持针对 Arrow 的最后三个发行版本进行构建 (#39739)
- GH-39765 - [C++][Dataset] 修复 dataset-scanner-benchmark 中的故障 (#39794)
- GH-39769 - [C++][Device] 修复为 DeviceArray 导入嵌套和字符串类型的问题 (#39770)
- GH-39782 - [C++] 在 ExportDeviceArray 中使用正确的(非 CPU)缓冲区地址 (#39783)
- GH-39788 - [Python] 在 Table.to_batches 中验证 max_chunksize (#39796)
- GH-39841 - [GLib] 再次添加对 GLib 2.56 的支持 (#39842)
- GH-39857 - [C++] 改进“chunker out of sync”条件的错误消息 (#39892)
- GH-39870 - [Go] 将缓冲页面包含在 TotalBytesWritten 中 (#40105)
- GH-39874 - [CI][C++][Windows] 使用预安装的 OpenSSL (#39882)
- GH-39883 - [CI][R][Windows] 将 ci/scripts/install_minio.sh 与 Git bash 一起使用 (#39929)
- GH-39909 - [Java][CI] 更新对测试子模块上 Float16 测试文件引用的引用 (#39911)
- GH-39921 - [Go][Parquet] ColumnWriter 在 Flush 后未重置 TotalCompressedBytes (#39922)
- GH-39925 - [Go][Parquet] 修复 maybeReplaceValidity 函数中的重新切片问题 (#39926)
- GH-39935 - [GLib][Docs] 使用 GI-DocGen 代替 GTK-Doc (#40427)
- GH-39955 - [C++] 使用 make -j1 安装捆绑的 bzip2 (#39956)
- GH-39965 - [C++] DatasetWriter 在启用 `max_rows_per_file` 时避免创建大小为零的批次 (#39995)
- GH-39973 - [C++][CI] 为 ASAN 和 Valgrind 禁用调试内存池 (#39975)
- GH-39992 - [CI][Docs][Java] ubuntu-docs 使用 .env 中的 Maven 版本 (#39993)
- GH-39996 - [Archery] 修复来自 fork 的主分支的 PR 上的 Crossbow 构建 (#40002)
- GH-39996 - [Archery] 修复来自 fork 的主分支的 PR 上的 Crossbow 构建 (#39997)
- GH-40038 - [Java] 通过 C 数据接口导出可变大小布局的非空偏移缓冲区 (#40043)
- GH-40039 - [Java][FlightRPC] 通过删除不必要的内存副本提高性能 (#40042)
- GH-40040 - [C++][Gandiva] 将 Gandiva 的默认缓存大小设置为 5000 用于目标代码缓存 (#40041)
- GH-40052 - [C++][FS][Azure] 修复分层命名空间帐户上的 CreateDir 和 DeleteDir 尾部斜杠问题 (#40054)
- GH-40085 - [C++][FS][Azure] 在 AzureFileSystem::Impl::MovePaths() 中验证容器 (#40086)
- GH-40089 - [Go] 用于接收巨大记录集的并发记录集 (#40090)
- GH-40097 - [Go][FlightRPC] 允许禁用 TLS (#40098)
- GH-40126 - [C++] 在调用算术函数时,具有不同精度和比例的十进制类型在解析类型时绑定失败 (#40223)
- GH-40145 - [C++][Docs] 更正控制台发射器链接 (#40146)
- GH-40153 - [C++][Python] 修复 32 位上的 test_gdb 故障 (#40293)
- GH-40153 - [Python] 使 `Tensor.__getbuffer__` 在 32 位平台上工作 (#40294)
- GH-40153 - [Python] 避免在 Array.to_numpy() 中使用 np.take (#40295)
- GH-40153 - [Python][C++] 修复 32 位 Python 构建上的大文件处理问题 (#40176)
- GH-40153 - [Python] 更新 32 位平台的大小假设 (#40165)
- GH-40153 - [Python] 修复 32 位平台上 foreign_buffer 中的 OverflowError (#40158)
- GH-40171 - [Python] 将 Type_FIXED_SIZE_LIST 添加到 _NESTED_TYPES 集合 (#40172)
- GH-40181 - [C++] 支持 glog 0.7 构建 (#40230)
- GH-40183 - [C++] 修复通过 AddAlias 添加别名后强制转换函数绑定失败的问题 (#40200)
- GH-40199 - [R] dbplyr 2.5.0 向前兼容性 (#40197)
- GH-40207 - [C++] TakeCC:只连接一次并委托给 TakeAA 而不是 TakeCA (#40206)
- GH-40227 - [R] 确保
create_package_with_all_dependencies
中的可执行文件 (#40232) - GH-40233 - [C++] 修复 asof_join_benchmark 运行时因缺少参数而中止的问题 (#40234)
- GH-40249 - [Java] 修复 ArrowDatabaseMetadata 中的空指针异常 (#40988)
- GH-40266 - [Python] 将 ListView 标记为嵌套类型 (#40265)
- GH-40268 - [Archery] 提升 pygit2 版本,适应 API 变化 (#40269)
- GH-40276 - [C++] 修复 decimal_benchmark 中的简单缓冲区溢出情况 (#40277)
- GH-40279 - [C++] 减少 S3Client 初始化时间 (#40299)
- GH-40306 - [C++] 修复 vector_hash_benchmark 中生成 StringType 测试数据时 total_bytes 错误的问题 (#40307)
- GH-40308 - [C++][Gandiva] 添加对计算模块小数提升规则的支持 (#40434)
- GH-40316 - [Python] 仅在使用时分配 ScalarMemoTable (#40565)
- GH-40327 - [C++][Parquet] 在 key_management_test.cc 中添加缺少的 config.h 包含 (#40330)
- GH-40331 - [C++][CMake] 将缺少的 glog::glog 依赖项添加到 arrow_util (#40332)
- GH-40334 - [C++][Gandiva] 将缺少的 OpenSSL 依赖项添加到 encrypt_utils_test.cc (#40338)
- GH-40366 - [C++] 从 Buffer::mutable_span_as 中删除 const 限定符 (#40367)
- GH-40375 - [Python] 在发布验证期间在 Windows 上编译 Cython 文件时出错
- GH-40395 - [C++] 避免简化调用不纯函数的表达式 (#40396)
- GH-40398 - [C++] 如果启用了 opentelemetry 或 ORC,则公开 protobuf 依赖项 (#40399)
- GH-40422 - [C++][FlightRPC] 添加缺少的 expiration_time 参数 (#40425)
- GH-40431 - [C++] 将 key_hash/key_map/light_array 相关文件移动到 internal 以防止用户使用 (#40484)
- GH-40432 - [C++] 将缺少的 Threads::Threads 依赖项添加到 arrow_static (#40433)
- GH-40439 - [Python] 修复 python/benchmarks/parquet.py 中的 flake8 错误 (#40440)
- GH-40443 - [Python] 禁止 python/examples/minimal_build/Dockerfile.* 警告 (#40444)
- GH-40445 - [C++] 修复 Windows 上的静态构建 (#40446)
- GH-40500 - [C++] 确保使用捆绑的 FlatBuffers (#40519)
- GH-40535 - [文档][R] 设置 RETICULATE_PYTHON_ENV 以查找 pyarrow (#40571)
- GH-40558 - [C++][CI] 修复 TSAN 和 ASAN/UBSAN 崩溃 (#40559)
- GH-40562 - [C++] 修复 FileSystem 合并错误 (#40564)
- GH-40566 - [C++] 修复 3.12 Python 支持 (#40322)
- GH-40568 - [Java] 关于 TestAllTypes 的 Dataset 测试失败 (#40662)
- GH-40591 - [R] 为 pkgdown 网站上的导航栏添加额外的 CSS (#40610)
- GH-40602 - [C++] 将 mold 链接器标志移动到变量 (#40603)
- GH-40615 - [打包][deb] 将 libprotobuf-dev 依赖项从 libarrow-flight-dev 移动到 libarrow-dev (#40617)
- GH-40616 - [文档][GLib] 确保覆盖占位符首页 (#40618)
- GH-40619 - [Java] JDBC 适配器构建问题 (#40656)
- GH-40623 - [Python][文档] 为 autosummary 添加解决方法 (#40739)
- GH-40634 - [C#] ArrowStreamReader 不应为空 (#40765)
- GH-40642 - [Python] 错误:向后切片数组超过起始位置应为空
- GH-40652 - [C++] 根据 `CopyBitmap` 基准测试的目标偏移量扩大目标缓冲区 (#40769)
- GH-40668 - [Ruby][CI] 时区需要 GLib 2.58 或更高版本 (#40669)
- GH-40672 - [Go][Parquet] 为 min_max 添加适当的构建标签 (#40676)
- GH-40674 - [GLib] 不要假设 gint64 和 int64_t 使用相同的类型 (#40736)
- GH-40693 - [Go] 修复 GetOneForMarshal 上的 Decimal 类型精度损失问题 (#40694)
- GH-40700 - [Go][CI] test-debian-12-go-1.21 因 `go: updates to go.mod needed` 而失败
- GH-40702 - [R] 避免在 duckdb 测试中使用未记录的 dbplyr 内部构件 (#40710)
- GH-40703 - [CI][打包] Homebrew 无法在 GHA 运行器上安装 Python 3.12 (#40704)
- GH-40706 - [CI][Python] 如果在 sdist-test 作业中定义了 ARROW_PYTHON_VENV,则激活它 (#40707)
- GH-40716 - [Java][集成] 修复验证脚本中的 test_package_java (#40724)
- GH-40718 - [JS] 修复 js 日期向量中的 set visitor (#40725)
- GH-40719 - [Go] 使 `arrow.Null` 非空,以便 `arrow.TypeEqual` 可以与 `new(arrow.NullType)` 正常工作 (#40802)
- GH-40727 - [C++][Gandiva] 'ilike' 函数不起作用 (#40728)
- GH-40751 - [C++] 为使用 substrait 的构建修复 protobuf 包名称设置 (#40753)
- GH-40773 - [Java] 将 `DENSEUNION` 情况添加到 StructWriters,解决了 #40773 (#40809)
- GH-40775 - [基准测试][Java] 修复 conbench 超时 (#40786)
- GH-40788 - [C#] 在 MapArray 中覆盖 Accept (#40789)
- GH-40790 - [C#] 在获取 StructArray 的字段时考虑偏移量和长度 (#40805)
- GH-40792 - [C#] 修复切片先前切片的数组的问题 (#40793)
- GH-40847 - [Go] 更新自述文件 (#40877)
- GH-40851 - [JS] 修复 nullcount 并使从类型化数组创建的向量不可为空 (#40852)
- GH-40855 - [C++][ORC] 修复 ORC 2.0.0 或更高版本中与 `std::filesystem` 相关的链接错误 (#41023)
- GH-40858 - [R] 从 codegen.R 中删除悬空逗号 (#40859)
- GH-40863 - [C++] 修复模块库的 TSAN 链接错误 (#40864)
- GH-40870 - [C#] 更新 CompareValidityBuffer() 以在未指定的最终位不相同的情况下通过 (#40873)
- GH-40878 - [JAVA] 修复 flight-sql-jdbc-driver 着色问题 (#40879)
- GH-40891 - [JS] 将日期存储为 TimestampMillisecond (#40892)
- GH-40893 - [Java][FlightRPC] 在 FlightSQL JDBC 驱动程序中支持 IntervalMonthDayNanoVector (#40894)
- GH-40896 - [Java] 删除对 Eclipse、logback 的运行时依赖项 (#40904)
- GH-40898 - [C#] 不要从 C 数据接口数组导入长度为零的缓冲区 (#41054)
- GH-40900 - [Go] 修复内存分配器异常 (#40902)
- GH-40907 - [Java][FlightSQL] 在 JDBC 驱动程序中对 slf4j-api 进行着色 (#40908)
- GH-40952 - [Java][FlightSQL] 清理 flight-sql-jdbc-driver 依赖项 (#40953)
- GH-40954 - [CI] 修复在 Github Actions 上使用过时的 docker-compose 命令的问题 (#40949)
- GH-40961 - [GLib] 禁止 macOS 上 Vala 示例的警告 (#40962)
- GH-40974 - [CI][Python] 由于 pytest_cython 导致 Python 构建上的 CI 失败 (#40975)
- GH-40991 - [R] 首选 r-universe,添加启动消息 (#41019)
- GH-40999 - [Java] 修复尝试在可为空的结构中拆分和传输 DUV 时出现的 AIOOBE (#41000)
- GH-41004 - [C++][FS][Azure] 不要使用 Valgrind 运行 TestGetFileInfoGenerator() (#41163)
- GH-41005 - [CI] HDFS 和 skyhook 测试需要使用 docker compose,因为它们需要多个容器 (#41027)
- GH-41007 - [CI][Archery] 在 archery docker 上使用 docker cli 时,正确插入 docker compose 中的环境变量 (#41026)
- GH-41015 - [JS][基准测试] 允许 JS 基准测试更可移植地运行 (#41031)
- GH-41016 - [C++] 修复 BooleanArray.true_count() 中的空计数检查 (#41070)
- GH-41024 - [C++] IO:修复 gcc 7.5.0 中的编译问题 (#41025)
- GH-41032 - [C++][Parquet] 布尔 arrow 解码中的错误修复和更多测试 (#41037)
- GH-41039 - [Python] ListView pandas 测试应使用 np.nan 而不是 None (#41040)
- GH-41044 - [C++] formatting.h:确保在格式化时间戳时为“Z”分配空间 (#41045)
- GH-41061 - [C++] 使用 clang < 12 时忽略 ARROW_USE_MOLD/ARROW_USE_LLD (#41062)
- GH-41088 - [CI][Crossbow] 修复 GitHub Actions 工作流语法错误 (#41091)
- GH-41119 - [Archery][打包][CI] 避免在 archery 上的 Windows 上的 Docker 上使用 --progress 标志 (#41120)
- GH-41121 - [C++] 修复:左反连接过滤空行。 (#41122)
- GH-41124 - [CI][C++] 不要将 CMake 3.29.1 与 vcpkg 一起使用 (#41151)
- GH-41127 - [CI] 将 docker-tests 使用 GitHub Actions 而不是 Azure Pipelines (#41153)
- GH-41145 - [R][CI] test-r-dev-duckdb 安装 duckdb 失败 (#41152)
- GH-41147 - [CI][C++] 在 Ubuntu 24.04 上使用更新的 LLVM (#41150)
- GH-41154 - [C++] 修复字符串到 float16 转换中的 Valgrind 错误 (#41155)
- GH-41167 - [CI][发布][GLib][Conda] 将 gobject-introspection 固定到 1.78.1 (#41181)
- GH-41169 - [CI][发布] 在 Windows 上显式指定 --build-config (#41178)
- GH-41176 - [C++] 停止在 config.h.cmake 中定义 ARROW_TEST_MEMCHECK (#41177)
- GH-41201 - [C++] 修复集成测试中的错误。显式转换 std::string 以避免编译器将 char* 解释为 bool (#41202)
新功能和改进
- GH-18014 - [C++] Azure Blob 存储的文件系统实现
- GH-20127 - [Python][CI] 从 hdfs 和 hypothesis 设置中移除遗留的 hdfs 测试 (#40363)
- GH-20127 - [Python] 移除已弃用的 pyarrow.filesystem 遗留实现 (#39825)
- GH-20213 - [C++] 实现与半精度浮点数之间的转换 (#40067)
- GH-20339 - [C++] 为瑞士连接添加剩余过滤器支持 (#39487)
- GH-23221 - [C++] 添加对使用 Emscripten 构建的支持 (#37821)
- GH-24826 - [Java] 添加 DUV.setOffset 方法 (#40985)
- GH-24834 - [C#] 支持写入压缩的 IPC 数据 (#39871)
- GH-30915 - [C++][Python] 为 `RecordBatch` 添加缺少的方法 (#39506)
- GH-31545 - [GLib] 启用 clang-format (#40451)
- GH-31735 - [文档][发布] 将发布验证指南移至开发者文档 (#39960)
- GH-33499 - [Python][CI] 在 Windows 安装包中支持 ORC
- GH-34235 - [Python] 为 join_asof 测试更正测试标记 (#40666)
- GH-34235 - [Python] 添加 `join_asof` 绑定 (#34234)
- GH-34865 - [C++][Java][Flight RPC] 添加会话管理消息 (#34817)
- GH-35875 - [R] 更新自述文件 (#40148)
- GH-35941 - [开发][MATLAB] 将 clang-format 配置添加到 pre-commit (#40588)
- GH-36656 - [开发] 在合并脚本中验证问题是否已分配里程碑 (#40771)
- GH-37286 - [Java] 开始添加可空性/空值注释 (#37723)
- GH-37328 - [Python] 添加在 Windows 上下载和解压缩时区数据库的函数 (#38179)
- GH-37381 - [Python][CI][打包] 在 Windows Appveyor CI 和 pyarrow 的 Windows 安装包上启用 ORC
- GH-37484 - [Python] 添加 FixedSizeTensorScalar 类 (#37533)
- GH-37931 - [Python][CI][开发][Python] 发布和合并脚本错误 (#37819)” (#40150)
- GH-38010 - [Python] 通过 Arrow PyCapsule 协议构造 pyarrow.Field 和 ChunkedArray (#40818)
- GH-38309 - [C++] 将文件系统构建为单独的模块 (#39067)
- GH-38560 - [C++][Parquet] 使用 xsimd 重写 BYTE_STREAM_SPLIT SSE 优化 (#40335)
- GH-38573 - [Java][FlightRPC] 尝试 JDBC 驱动程序中的所有位置 (#40104)
- GH-38659 - [CI][MATLAB][打包] 将 MATLAB `packaging` 任务添加到 crossbow `tasks.yml` (#38660)
- GH-38663 - [C++] 使用 `AWS_ENDPOINT_URL_S3` 为 S3 添加对特定于服务的端点的支持 (#39160)
- GH-38703 - [C++][FS][Azure] 实现 DeleteFile() (#39840)
- GH-38704 - [C++] 通过 Azure DataLake Storage Gen 2 API 实现 Azure FileSystem Move() (#39904)
- GH-38717 - [C++] 向 ArrowArrayStream 添加 ImportChunkedArray 和 ExportChunkedArray (#39455)
- GH-38916 - [R] 简化数据集和表格打印输出 (#38917)
- GH-38988 - [Go] 从 DictionaryBuilder 中公开字典大小 (#39521)
- GH-38998 - [Java] 将 memory-core 和 memory-unsafe 构建为 JPMS 模块 (#39011)
- GH-39001 - [Java] 模块化剩余模块 (#39221)
- GH-39057 - [CI][C++][Go] 不要在 fork 上运行使用自托管 GitHub Actions Runner 的作业 (#39903)
- GH-39069 - [C++][FS][Azure] 使用通用文件系统测试 (#40567)
- GH-39147 - [R] 添加 Bootstrap.r (#39148)
- GH-39231 - [C++][Compute] 为固定大小的二进制添加 binary_slice 内核 (#39245)
- GH-39233 - [Compute] 添加一些 duration 内核 (#39358)
- GH-39270 - [C++] 避免为每个缓冲区视图/副本创建内存管理器实例 (#39271)
- GH-39277 - [Python] 修复 DataType 类缺少 byte_width 属性的问题 (#39592)
- GH-39330 - [Java][CI] 修复或抑制虚假的 errorprone 警告 (#39529)
- GH-39336 - [C++][Parquet] 次要:parquet::FileMetaData 的样式增强 (#39337)
- GH-39352 - [FS][Azure] 在构建中启用 azure (#39971)
- GH-39377 - [C++] IO:在 CompressedInputStream 中重用相同的缓冲区 (#39807)
- GH-39385 - [C++] 为重命名使用更宽松的返回码 (#39481)
- GH-39398 - [C++][Parquet] 在 ColumnReader ReadLevels 中使用 std::count (#39397)
- GH-39427 - [GLib] 更新脚本和文档 (#39428)
- GH-39463 - [C++] 支持从大字符串、(大)二进制到字典的转换内核 (#40017)
- GH-39532 - [Python] 与 NumPy 2.0 兼容
- GH-39549 - [C++] 在外部项目中将 -jN 传递给 make (#39550)
- GH-39552 - [Go] 包含在使用 Go 库创建 csv 字符串时使用替换符的选项 (#39576)
- GH-39555 - [打包][Python] 启用针对 numpy 2.0 构建 pyarrow (#39557)
- GH-39560 - [C++][Parquet] 为 BYTE_STREAM_SPLIT 添加集成测试 (#39570)
- GH-39574 - [Go] 在 Flight RPC 中启用 PollFlightInfo (#39575)
- GH-39621 - [CI][打包] 将 vcpkg 更新到 2023.11.20 版本 (#39622)
- GH-39651 - [Python] Binary/StringView 类的基本 pyarrow 绑定 (#39652)
- GH-39654 - [Java] 升级到 Netty 4.1.105.Final (#39655)
- GH-39663 - [C++] 确保顶级基准测试提供信息丰富的指标 (#40091)
- GH-39666 - [C++] 确保 CSV 和 JSON 基准测试提供字节/秒或项目/秒指标 (#39764)
- GH-39667 - [C++] 确保数据集基准测试提供字节/秒或项目/秒指标 (#39766)
- GH-39669 - [C++][Gandiva] 确保 Gandiva 基准测试提供字节/秒或项目/秒指标 (#40435)
- GH-39680 - [Java] 在 Java 模块上启用半精度浮点数支持 (#39681)
- GH-39697 - [R] 源代码构建应检查是否离线 (#39699)
- GH-39702 - [GLib] 在 GArrowTimestampDataType 中添加对时区的支持 (#39717)
- GH-39704 - [C++][Parquet] 基准测试级别解码 (#39705)
- GH-39707 - [Java] 为 Maven/Java 构建启用本地构建缓存 (#39708)
- GH-39718 - [C++][FS][Azure] 删除 StatusFromErrorResponse,因为它不再需要 (#39719)
- GH-39720 - [Swift] 切换读取器以使用 arrow 字段而不是 proto 来构建数组 (#39721)
- GH-39734 - [Java] 将 org.codehaus.mojo:exec-maven-plugin 从 1.6.0 升级到 3.1.1 (#39696)
- GH-39747 - [C++][Parquet] 使 BYTE_STREAM_SPLIT 例程与类型无关 (#39748)
- GH-39752 - [Java] 删除 Utf8 使用的静态导入 (#40683)
- GH-39761 - [文档] Go 文档的链接引用了 2018 年的过时文档 (#39750)
- GH-39771 - [C++][设备] 通用 CopyBatchTo/CopyArrayTo 内存类型 (#39772)
- GH-39774 - [Go] 添加对 PreparedStatement 句柄的公共访问 (#39775)
- GH-39779 - [Python] 在 PyArrow 中公开 force_virtual_addressing (#39819)
- GH-39780 - [Python][Parquet] 支持 FileMetaData 和 ParquetSchema 的哈希 (#39781)
- GH-39812 - [Python] 为 ListView 和 LargeListView 添加绑定 (#39813)
- GH-39815 - [C++] 记录并微优化 ChunkResolver::Resolve() (#39817)
- GH-39823 - [C++] 允许构建 cpp/src/arrow/*/.cc 而无需等待捆绑库 (#39824)
- GH-39837 - [Go][Flight] 允许在中间件中克隆现有 cookie (#39838)
- GH-39843 - [C++][Parquet] Parquet 二进制长度溢出异常应包含二进制的长度 (#39844)
- GH-39845 - [C++][Parquet] 次要:避免在 Decoder::SetData 中创建新的 Reader 对象 (#39847)
- GH-39848 - [Python][打包] 使用 numpy RC 而不是 nightly 构建 pyarrow 安装包 (#41097)
- GH-39852 - [Python] 支持从 python 对象创建 Binary/StringView 数组 (#39853)
- GH-39855 - [Python] pa.array() 的 ListView 支持 (#40160)
- GH-39859 - [R] 从允许列表中删除 macOS (#39861)
- GH-39863 - [C++] 第三方:将 google benchmark 升级到 1.8.3 (#39878)
- GH-39864 - [C++] DataType::ToString 支持可选地显示元数据 (#39888)
- GH-39872 - [打包][Ubuntu] 添加对 Ubuntu 24.04 Noble Numbat 的支持 (#39887)
- GH-39885 - [CI][MATLAB] 将 matlab-actions/setup-matlab 和 matlab-actions/run-tests 从 v1 升级到 v2 (#39886)
- GH-39900 - [Java][CI] 将 Maven 和内存 Netty 缓冲区补丁上传到 Apache Nightly 仓库 (#39901)
- GH-39910 - [Go] 添加函数从 ActionCreatePreparedStatementResult 加载预处理语句 (#39913)
- GH-39928 - [C++][Gandiva] 接受 LLVM 18 (#39934)
- GH-39930 - [C++] 在 arrow.pc 中,对系统 RE2 使用 Requires 而不是 Libs (#39932)
- GH-39946 - [Java] 将 com.puppycrawl.tools:checkstyle 从 8.19 升级到 8.29 (#39694)
- GH-39958 - [Python][CI] 移除 pytest 的上限版本限制 (#40487)
- GH-39962 - [C++] 小型 CSV 读取器重构 (#39963)
- GH-39968 - [Python][FS][Azure] `AzureFileSystem` 的最小 Python 绑定 (#40021)
- GH-39978 - [C++][Parquet] 扩展 BYTE_STREAM_SPLIT 以支持 FIXED_LEN_BYTE_ARRAY、INT32 和 INT64 (#40094)
- GH-39979 - [Python] 用于导出/导入 C 设备接口的底层绑定 (#39980)
- GH-39984 - [Python] 添加 ChunkedArray 与 C 之间的导入/导出功能 (#39985)
- GH-39987 - [R] 使在 Windows 上使用 rtools libarrow 成为可能 (#39986)
- GH-40011 - [CI] 将 Fedora 从 38 更新到 39 (#40012)
- GH-40023 - [Python] 使用 Cast() 代替 CastTo (#40116)
- GH-40026 - [C++][FS][Azure] 添加对读取用户定义元数据的支持 (#40671)
- GH-40028 - [C++][FS][Azure] 将 AzureFileSystem 支持添加到 FileSystemFromUri() (#40325)
- GH-40029 - [Packaging][Ubuntu] 放弃对 Ubuntu 23.10 Mantic Minotaur 的支持 (#40030)
- GH-40037 - [C++][FS][Azure] 使针对目录的读取和写入尝试快速失败 (#40119)
- GH-40055 - [Java][Docs] 简化在 Dataset Substrait 中使用 Filter 和 Expression 的方法 (#40056)
- GH-40059 - [C++][Python] 将 RecordBatch 基本转换为 Arrow Tensor (#40064)
- GH-40060 - [C++][Python] 将 RecordBatch 基本转换为 Arrow Tensor - 添加对不同数据类型的支持 (#40359)
- GH-40061 - [C++][Python] 将 RecordBatch 基本转换为 Arrow Tensor - 添加将 NULL 转换为 NaN 的选项 (#40803)
- GH-40066 - [Python] 在 `__arrow_c_stream__()` 中支持 `requested_schema` (#40070)
- GH-40074 - [C++][FS][Azure] 为平面命名空间存储帐户实现 `DeleteFile()` (#40075)
- GH-40077 - [CI] 使用 GitHub 托管的 M1 macOS 运行器 (#40437)
- GH-40079 - [CI][Packaging] 在更多测试和构建中启用 Azure (#40080)
- GH-40082 - [CI][C++] 在 ARM64 macOS 上添加一个作业 (#40456)
- GH-40092 - [Python] 支持 Binary/StringView 转换为 numpy/pandas (#40093)
- GH-40095 - [C++][Parquet] 删除 BYTE_STREAM_SPLIT 编码的 AVX512 变体 (#40127)
- GH-40113 - [Go][Parquet] 新的 RegisterCodec 函数 (#40114)
- GH-40133 - [C++][Parquet][Tools] 打印 FIXED_LEN_BYTE_ARRAY 长度 (#40132)
- GH-40142 - [Python] 允许将 FileInfo 实例传递给 dataset init (#40143)
- GH-40151 - [C++] 使 S3 模拟测试更灵活 (#40144)
- GH-40152 - [C++] 删除对 BatchesFromTable 的冗余调用 (#40173)
- GH-40155 - [Go][FlightRPC][FlightSQL] 实现会话管理 (#40284)
- GH-40159 - [Python][CI] 在 Crossbow 上添加 32 位 Debian 构建 (#40164)
- GH-40190 - [R][Docs] 使用构建系统更改更新 NEWS.md (#40191)
- GH-40205 - [Python] ListView arrow-to-pandas 转换 (#40482)
- GH-40209 - [C++][CMake] 为 RapidJSON 使用“RapidJSON” CMake 目标 (#40210)
- GH-40212 - [R][CI] 添加使用 gcc 14 构建的 C++ (#40244)
- GH-40221 - [C++][CMake] 使用 arrow/util/config.h.cmake 代替 add_definitions() (#40222)
- GH-40224 - [C++] 修复:改进数据集写入器中的背压处理 (#40722)
- GH-40228 - [C++][CMake] 改进对为何需要在 arrow-s3fs-test 中初始化 AWS C++ SDK 的描述 (#40229)
- GH-40236 - [Python][CI] 禁用在 Cython 追溯中生成 C 代码行 (#40225)
- GH-40261 - [Go] 不要导出具有未公开返回类型的数组函数 (#40272)
- GH-40273 - [Python] 在 pa.array(..) 中支持构造 Run-End Encoded 数组 (#40341)
- GH-40274 - [C++] 添加对系统 glog 0.7 的支持 (#40275)
- GH-40280 - [C++] 将 ResolvedChunk::Value 专用于特定于值的类型,而不是整个类 (#40281)
- GH-40291 - [Python] 在 pyarrow.record_batch() 函数中接受 dict (#40292)
- GH-40318 - [C++][Docs] 添加数组工厂的文档 (#40373)
- GH-40323 - [R][CI] 使用 rocker/r-ver 代替 library/r-base (#40321)
- GH-40328 - [C++][Parquet] 允许在 CryptoFactory 销毁后使用 FileDecryptionProperties (#40329)
- GH-40333 - [Docs] 改进 ARROW_USER_SIMD_LEVEL 的环境变量文档 (#40374)
- GH-40345 - [FlightRPC][C++][Java][Go] 添加 URI 方案以重用连接 (#40084)
- GH-40357 - [C++] 为 ToTensor 转换添加基准测试 (#40358)
- GH-40370 - [C++] 为非 MSVC 构建定义 ARROW_FORCE_INLINE (#40372)
- GH-40376 - [Python] 更新 PyArray_Descr->elsize 中的 NumPy 2.0 ABI 更改 (#40418)
- GH-40377 - [Python][CI] 修复集成测试中 nightly dask 的安装 (#40378)
- GH-40379 - [Python] 修复 binary(0) 的 byte_width + 修复 hypothesis 测试 (#40381)
- GH-40394 - [C++] 添加对 mold 的支持 (#40397)
- GH-40400 - [C++] 添加对 LLD 的支持 (#40927)
- GH-40402 - [GLib] 添加缺少的计算函数选项类 (#40403)
- GH-40405 - [C++] 在尝试对平面命名空间帐户进行移动时,生成更好的错误消息 (#40406)
- GH-40428 - [Python][CI] 使用 pandas nightly 修复数据集分区过滤器测试 (#40429)
- GH-40438 - [GLib] 添加 GArrowTimestampParser (#40457)
- GH-40441 - [GLib][Docs] 将 Sphinx 用于 Apache Arrow GLib 首页 (#40442)
- GH-40448 - [CI][Dev] 运行 pre-commit (#40449)
- GH-40454 - [CI][Debian] 将 Debian 从 11 更新到 12 (#40455)
- GH-40495 - [GLib] 使用 G_DECLARE_DERIVABLE_TYPE() (#40497)
- GH-40498 - [GLib] 删除 arrow-glib/gobject-type.h (#40499)
- GH-40507 - [C++][ORC] 将 ORC 升级到 2.0.0 (#40508)
- GH-40515 - [Java] 将 org.apache.maven 依赖项从 3.3.9 升级到 3.8.7 (#40514)
- GH-40522 - [Dev][Go] 为 Go 添加 Dependabot 配置 (#40523)
- GH-40536 - [CI]:将剩余的作业从自托管 mac 运行器迁移出去。 (#40537)
- GH-40540 - [CI][C++] 不要安装 FlatBuffers (#40541)
- GH-40542 - [Dev][CI] 对所有文件运行 pre-commit (#40543)
- GH-40544 - [Dev] 将 cmake-format 配置添加到 pre-commit (#40545)
- GH-40549 - [Java] 在 /java 中还原 org.apache.maven.plugins:maven-shade-plugin 从 3.2.4 到 3.5.2 的升级 (#41006)
- GH-40551 - [Release][Docs] 改进补丁发布流程的文档 (#40552)
- GH-40553 - [C#] 避免每次请求都实例化记录器 (#40554)
- GH-40573 - [GLib][Ruby][CSV] 添加对自定义时间戳解析器的支持 (#40590)
- GH-40575 - [Docs][Python] 将 JsonFileFormat 添加到文档中 (#40585)
- GH-40577 - [C++] 确保 pkg-config 标志包含静态构建的 -ldl (#40578)
- GH-40586 - [Dev][C++][Python][R] 将 pre-commit 用于 clang-format (#40587)
- GH-40607 - [C++] 将 `Function::is_impure()` 重命名为 `is_pure()` (#40608)
- GH-40621 - [C++] 在 arrow/io/compressed_test.cc 中添加缺少的 util/config.h (#40625)
- GH-40630 - [Go][Parquet] 允许在不关闭文件的情况下写入 Parquet 页脚 (#40654)
- GH-40659 - [Python][C++] 支持将 pyarrow.RunEndEncodedArray 转换为 numpy/pandas (#40661)
- GH-40680 - [Java] 在 CI 中测试 JDK 22 (#41038)
- GH-40684 - [Java][文档] 使用 IntelliJ 调试 JNI 模块 (#40685)
- GH-40689 - [文档] 将 nanoarrow 添加到实现状态页面 (#41052)
- GH-40690 - [C#][FlightRPC] 添加 do_exchange csharp 实现 (#40691)
- GH-40695 - [C++] 扩展 Substrait 类型支持 (#40696)
- GH-40698 - [C++] 为设备创建注册表,以便在 C 设备数据导入中将 DeviceType 映射到 MemoryManager (#40699)
- GH-40720 - [Python] 简化并提高 Table.to_pandas 中列名创建的性能 (#40721)
- GH-40731 - [C++][Parquet] 加密代码的微小增强 (#40732)
- GH-40733 - [Go] 要求 Go 1.21 或更高版本 (#40848)
- GH-40745 - [Java][FlightRPC] 支持配置背压阈值 (#41051)
- GH-40767 - [C++][Parquet] 简化 PageWriter 和 ColumnWriter 的创建 (#40768)
- GH-40783 - [C++] 在 MemoryPoolStats 更新中重新排序加载和存储 (#40647)
- GH-40784 - [JS] 使用 bigIntToNumber (#40785)
- GH-40791 - [开发][CI] 使用官方 hadolint 配置 (#40794)
- GH-40796 - [Java] 在 `ListVector.setNull` 中设置 `lastSet` 以避免在具有大量空值的 ListVectors 中出现 O(n²) (#40810)
- GH-40799 - [文档][格式] 实现状态页面应列出规范扩展类型 (#41053)
- GH-40801 - [文档] 阐明 Arrow C 设备数据接口中的设备标识符文档 (#41101)
- GH-40806 - [C++] 恢复 PR #40857 中的更改 (#40980)
- GH-40806 - [C++] 在 GetRuntimeInfo 中正确报告 asimd/neon (#40857)
- GH-40814 - [C++] 第三方库:将 zstd 升级到 1.5.6 (#40837)
- GH-40833 - [文档][发布] 在文档中明确说明验证二进制文件不是投票的必要条件 (#40834)
- GH-40841 - [文档][C++][Python] 为 RecordBatch::Tensor 转换添加初始文档 (#40842)
- GH-40843 - [Java] 清理 protobuf-maven-plugin 的使用 (#40844)
- GH-40866 - [C++][Python] RecordBatch 到 Arrow Tensor 的基本转换 - 添加对行优先的支持 (#40867)
- GH-40872 - [C++][Parquet] 编码:针对 PlainBooleanDecoder 优化 DecodeArrow/Decode(bitmap) (#40876)
- GH-40882 - [C++] 在 CUDA/Skyhook 代码中抑制 shorten-64-to-32 警告 (#40883)
- GH-40888 - [Go][FlightRPC] 在 FlightSQL 驱动程序中支持从 array.Duration 转换 (#40889)
- GH-40983 - [C++] 修复未使用的函数构建错误 (#40984)
- GH-40994 - [C++][Parquet] RleBooleanDecoder 支持带有空值的 DecodeArrow (#40995)
- GH-41034 - [C++][FS][Azure] 针对通用文件系统测试调整 DeleteDir/DeleteDirContents/GetFileInfoSelector 对 Azure 的行为 (#41068)
- GH-41043 - [CI][Python] 检查 Cython 2 的 test_make_write_options_error 中的消息 (#41059)
- GH-41047 - [C#] 解决从 StringArray 读取的性能问题 (#41048)
- GH-41098 - [Python] 在 Array.__array__ 中添加 copy 关键字以兼容 numpy 2.0+ (#41071)
- GH-41100 - [Python][打包] 由于禁用了 liblzma 的 vcpkg 安装,PyArrow wheel 构建失败
- GH-41227 - [CI][发布][GLib][Conda] 解除 gobject-introspection 的版本锁定 (#41228)
- PARQUET-2423 - [C++][Parquet] 避免在 RecordReader 的 SkipRecords 中分配缓冲区对象 (#39818)