Apache Arrow 15.0.0 (2024年1月21日)
这是一个重要的版本,涵盖了超过 1 个月时间的开发。
下载
贡献者
此版本包含来自 101 位不同贡献者的 536 个提交。
$ git shortlog -sn apache-arrow-14.0.2..apache-arrow-15.0.0
67 dependabot[bot]
42 Sutou Kouhei
31 Raúl Cumplido
27 Josh Soref
20 Antoine Pitrou
19 Felipe Oliveira Carvalho
19 mwish
18 Dewey Dunnington
17 James Duong
16 Curt Hagenlocher
16 Dominik Moritz
16 Joris Van den Bossche
15 Jacob Wujciak-Jens
14 Hyunseok Seo
12 Alenka Frim
10 Yue
10 sgilmore10
9 Matt Topol
8 Dane Pitkin
8 Diego Fernández Giraldo
8 Thomas Newton
6 Bryce Mecum
5 Jin Shang
5 Jonathan Keane
5 Kevin Gurney
4 Benjamin Kietzman
4 Gang Wu
3 Ben Harkins
3 Ivan Chesnov
3 Judah Rand
3 Lei Hou
3 Rossi(Ruoxi) Sun
3 Tim Schaub
3 abandy
2 Alfonso Subiotto Marqués
2 David Li
2 Divyansh200102
2 Eero Lihavainen
2 Francis
2 Gavin Murrison
2 JB Onofré
2 Jeremy Aguilon
2 John
2 Junming Chen
2 Laurent Goujon
2 Nic Crane
2 Peter Andreas Entschev
2 Rok Mihevc
2 Stas Stepanov
2 Tsutomu Katsube
2 Vibhatha Lakmal Abeykoon
1 Abram Fleishman
1 Anja Kefala
1 Atheel Massalha
1 Benjamin Schmidt
1 Bob Plotts
1 Bryan Cutler
1 Carl Jackson
1 ChinYikMing
1 Chris Larsen
1 Christian Holm Christensen
1 Dan Homola
1 Dan Stone
1 Danyaal Khan
1 Diogo Teles Sant'Anna
1 Dongjoon Hyun
1 Fatemah Panahi
1 Fernando Mayer
1 Fokko Driesprong
1 Hattonuri
1 Hendrik Makait
1 Jiaxing Liang
1 Jinpeng
1 John Garland
1 Kyle Barron
1 LucasG0
1 Maximilian Muecke
1 Miguel Pragier
1 Miles
1 Neal Richardson
1 Nick Hughes
1 Paul Spangler
1 Phillip LeBlanc
1 Pierre Moulon
1 Quang Hoang
1 Ravjot Brar
1 Tammy DiPrima
1 Will Jones
1 William Ayd
1 Yifeng-Sigma
1 david dali susanibar arce
1 davidhcoe
1 frazar
1 jiawei liang
1 loicalleyne
1 orgadish
1 panbingkun
1 prmoore77
1 shibei
1 zhipeng
1 谢天
补丁提交者
以下 Apache 提交者合并了贡献的补丁到存储库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-14.0.2..apache-arrow-15.0.0
154 Sutou Kouhei
56 David Li
50 Antoine Pitrou
35 Joris Van den Bossche
30 Jacob Wujciak-Jens
24 Raúl Cumplido
22 Matt Topol
19 Curt Hagenlocher
18 Kevin Gurney
16 Benjamin Kietzman
16 Felipe Oliveira Carvalho
14 mwish
13 Dewey Dunnington
12 AlenkaF
7 Nic Crane
3 Weston Pace
2 Gang Wu
2 Jonathan Keane
1 Josh Soref
1 Rok Mihevc
1 Will Jones
1 dependabot[bot]
变更日志
Apache Arrow 15.0.0 (2024-01-21 08:00:00)
Bug 修复
- GH-15192 - [C++] 恢复 union 类型的
case_when
测试 (#39308) - GH-32570 - [C++] 修复了当追加具有相同 id 的连续尾行时,
ExecBatchBuilder
可能会超出缓冲区边界的问题 (#39234) - GH-32662 - [C#] 使文件和内存实现中的字典正常工作并支持集成测试 (#39146)
- GH-33475 - [Java] 在 JDBC 驱动程序中为预处理语句添加参数绑定 (#38404)
- GH-34532 - [Java][FlightSQL] 更改 JDBC 以处理多端点 (#38521)
- GH-34610 - [Java] 修复加载/传输 NullVector 时的 valueCount 和字段名称 (#38973)
- GH-34890 - [C++][Python] 为 dictionary_encode(dictionary) 添加一个 no-op 内核 (#38349)
- GH-35497 - [C++] 使用最新标记版本的 flatbuffers (#38192)
- GH-36588 - [C#] 支持空白列名并启用更多集成测试 (#39167)
- GH-36594 - [C++] 不要使用 MSVC_VERSION 来确定 -fms-compatibility-version (#36595)
- GH-36912 - [Java] 如果 JDBC 驱动程序看到一个空根,则停止使用根 (#38590)
- GH-37055 - [C++] 优化 Dictionary ChunkedArrays 的哈希内核 (#38394)
- GH-37657 - [JS] 使用 ts-node 运行 bin 脚本 (#38500)
- GH-37726 - [Swift][FlightSQL] 更新行为以类似于现有实现 (#37764)
- GH-37751 - [C++][Gandiva] 避免在 gandiva 中多次注册导出的函数 (#37752)
- GH-37796 - [C++][Acero] 修复 as-of-join 节点中由游离输入引起的竞争条件 (#37839)
- GH-37884 - [Swift] 允许读取未对齐的 FlatBuffers 缓冲区 (#38635)
- GH-37969 - [C++][Parquet] 为 ParquetFileWriter 添加更多已关闭文件检查 (#38390)
- GH-38096 - [Java] 带有元数据的 FlightStream 在关闭时可能导致错误 (#38110)
- GH-38198 - [Go] 修复 AuthenticateBasicToken 在代理后面的可靠性问题 (#38199)
- GH-38210 - [C++][FlightRPC] 添加缺少的 app_metadata 参数 (#38231)
- GH-38216 - [R] open_dataset(format = “json”) 未记录 (#38258)
- GH-38242 - [Java] 修复 DenseUnionVector#getBufferSizeFor 的不正确的内部结构记账 (#38305)
- GH-38254 - [Java] 向 char/binary 向量添加可重用的缓冲区 getter (#38266)
- GH-38268 - [Java] 禁用不稳定的 TestFlightSqlStreams (#38319)
- GH-38281 - [Go] 确保导入的 CData 数组在释放时被释放 (#38314)
- GH-38297 - [C#] 修复 .NET 4.7.2 的构建 (#38299)
- GH-38304 - [C++][Parquet] 修复 arrow-dataset-file-parquet-encryption-test 中的 Valgrind 内存泄漏 (#38306)
- GH-38307 - [CI] 删除 gemfury_clean.rb (#38308)
- GH-38318 - [Java][FlightRPC] 启用泄漏的测试 (#38719)
- GH-38323 - [CI][Python] 在 test-conda-python 上使用系统 gdb (#38324)
- GH-38363 - [Release][CI] 在 RC 分支上省略 main/maintenance 分支的测试 (#38365)
- GH-38366 - [Java] 修复 Murmur 哈希在小于 4 字节的缓冲区上的问题 (#38368)
- GH-38378 - [C++][Parquet] 不要使用 OpenSSL 1.1 显式初始化 OpenSSL (#38379)
- GH-38382 - [R] 在退出时显式清理
arrow_duck_connection()
(#38495) - GH-38387 - [Java] 修复 TestAllTypes 的 JDK8 编译问题 (#38388)
- GH-38395 - [Go] 修复 decimal256 字符串函数中的舍入误差 (#38426)
- GH-38399 - [Go][Parquet] DeltaBitPack 解码器在 SetData 后重置 usedFirst (#38413)
- GH-38401 - [C++] 为 Skyhook 重新生成 flatbuffers C++ (#38405)
- GH-38436 - [R] 测试读取具有非 UTF-8 编码的 CSV 时出现段错误
- GH-38439 - [Java][CI] 为所有 Java CI linux 作业使用 Eclipse Temurin (#38440)
-
GH-38447 - [CI][Release] 不要使用 “ {exit,continue}” (#38486) - GH-38458 - [Go] 向 BinaryLike 接口添加 ValueLen (#39242)
- GH-38470 - [CI][Integration] 安装 jpype 并构建 JNI c-data 以运行集成测试 (#39502)
- GH-38477 - [Go] 修复 decimal 128 舍入问题 (#38478)
- GH-38479 - [C++] 避免将空指针传递给 LZ4 帧解压缩器 (#39125)
- GH-38503 - [Go][Parquet] 使 arrow column writer 内部化 (#38727)
- GH-38503 - [Go][Parquet] 使用 ArrowColumnWriter 的样式改进 (#38581)
- GH-38516 - [Go][Parquet] 在附加新的行组时增加写入的行数 (#38517)
- GH-38535 - [Python] 修复 S3FileSystem 等于 None 时的段错误 (#39276)
- GH-38554 - [Release][Website] post-03-website.sh 不引用 current.date (#38555)
- GH-38556 - [C++] 为 i386 添加缺少的显式 size_t 强制转换 (#38557)
- GH-38594 - [Docs][C++][Gandiva] 记录如何注册 Gandiva 外部函数 (#38763)
- GH-38599 - [Docs] 更新 Headers (#38696)
- GH-38614 - [Java] 向更多 writer 添加 VarBinary 和 VarCharWriter 帮助方法 (#38631)
- GH-38624 - [C++] 修复:为 gtest 函数添加 TestingEqualOptions (#38642)
- GH-38630 - [MATLAB]
arrow.array.BooleanArray
的toMATLAB
方法不考虑切片偏移量 (#38636) - GH-38653 - [Packaging][Java][Python][Ruby] 将最低 macOS 版本提高到 10.15 catalina,以允许在 C++17 中使用新的 API (#38677)
- GH-38683 - [Python][Docs] 更新 Time32Type 和 Time64Type 的文档字符串 (#39059)
- GH-38684 - [Integration] 尝试加强 C 数据接口测试 (#38846)
- GH-38697 - [C++][Gandiva] 使用 arrow io util 替换 gandiva 中的 std::filesystem::path (#38698)
- GH-38709 - [C++] 防止在 macOS 上定义 PREALLOCATE 预处理器 (#38760)
- GH-38711 - [CI] 回滚 aws-cli 以获取预览文档 (#38723)
- GH-38725 - [Java] Lz4CompressionCodec.java 中的解压缩未设置 writer 索引 (#38840)
- GH-38728 - [Go] ipc: 将 lz4 解压缩缓冲区放回 sync.Pool (#38729)
- GH-38737 - [Java] 修复 JDBC SqlInfo 值的缓存 (#38739)
- GH-38738 - [C++] 检查可变缓冲区计数是否在范围内 (#38740)
- GH-38745 - [Integration] 修复巨大的集成测试 (#38746)
- GH-38762 - [R] CI 配置中的 R 和 RTools 版本不再是最新的
- GH-38764 - [Java] 澄清关于
--add-opens=java.base/java.nio=ALL-UNNAMED
的警告 (#38765) - GH-38782 - [C++][FS][Azure] 对于 CreateDir(“/container”, true) 不做任何处理 (#38783)
- GH-38795 - [Go] 修复 Timestamp 的 GetToTimeFunc 中的竞争 (#38797)
- GH-38811 - [R] 在 macos 上实际使用获取的 cmake (#39453)
- GH-38816 - [C#] 修复 StructArray 上的 IArrowRecord 实现 (#38827)
- GH-38823 - 修复 TestArrowReaderAdHoc.ReadFloat16Files 以使用新的未压缩文件 (#38825)
- GH-38832 - [Java] 避免在
ci/scripts/java_build.sh
中构建两次 (#38829) - GH-38844 - [C++] S3FileSystem 导出 s3 sdk 配置 “use_virtual_addressing” 到 arrow::fs::S3Options (#38858)
- GH-38851 - 网站:贡献链接无法工作
- GH-38879 - [C++][Gandiva] 修复 Gandiva to_date 函数对 suppress errors 参数的验证 (#38987)
- GH-38883 - [文档] 修复结构示例以展示如何隐藏子条目 (#38898)
- GH-38906 - [R] 改进 Windows CI 配置 (#38927)
- GH-38921 - [CI] 修复拼写 (#38922)
- GH-38925 - [CI] 修复拼写 (#38926)
- GH-38928 - [R] 修复拼写 (#38929)
- GH-38930 - [Java] 修复拼写 (#38931)
- GH-38932 - [GO] 修复拼写 (#38933)
- GH-38938 - [FlightRPC] 修复拼写 (#38939)
- GH-38940 - [Ruby] 修复拼写 (#38941)
- GH-38942 - [C#] 修复拼写 (#38943)
- GH-38944 - [Python] 修复拼写 (#38945)
- GH-38946 - [MATLAB] 修复拼写 (#38947)
- GH-38948 - [Swift] 修复拼写 (#38949)
- GH-38950 - [文档] 修复拼写 (#38951)
- GH-38952 - [格式] 修复拼写 (#38953)
- GH-38954 - [Dev] 修复拼写 (#38955)
- GH-38956 - [Gandiva] 修复拼写 (#38957)
- GH-38960 - [C++] 修复拼写 (acero) (#38961)
- GH-38964 - [C++] 修复拼写 (compute) (#38965)
- GH-38966 - [C++] 修复拼写 (util) (#38967)
- GH-38968 - [C++] 修复拼写 (dataset) (#38969)
- GH-38971 - [C++] 修复拼写 (filesystem) (#38972)
- GH-38975 - [Dev] 修复拼写 (#38976)
- GH-38977 - [C++] 修复拼写 (#38978)
- GH-38979 - [C++] 修复拼写 (#38980)
- GH-38981 - [R][Release] 不要在兼容版本发布时更新 version.json (#38982)
- GH-39014 - [Java] 在 Mac 系统上添加默认 truststore 以及 KeychainStore (#39235)
- GH-39031 - [文档] 从 contrib css 中删除拼写错误的规则 (#39032)
- GH-39045 - [C++][Acero] union 节点输出批次应该无序 (#39046)
- GH-39113 - [集成][Flight][Java] 修复启动 Java 服务器时偶尔出现的故障 (#39115)
- GH-39116 - [Go] 修复 CI Staticcheck (#39117)
- GH-39126 - [C++][CI] 修复 Valgrind 失败 (#39127)
- GH-39130 - [CI][GLib][Windows] 使用旧 Ruby 作为加载错误的解决方法 (#39168)
- GH-39136 - [C++] 删除启用 -DARROW_HDFS=ON 时不必要的系统 Protobuf 依赖 (#39137)
- GH-39138 - [R] 修复隐式转换警告 (#39250)
- GH-39156 - [C++][Compute] 修复负持续时间除法 (#39158)
- GH-39163 - [C++] 在 StreamDecoder::Consume(data) 中添加缺失的数据复制 (#39164)
- GH-39185 - [C++] 删除公用头文件中带有
-Wconversion -Wno-sign-conversion
的编译器警告 (#39186) - GH-39191 - [R] 当
string_replace
中pattern
传递值向量时抛出错误 (#39219) - GH-39238 - [Go] PATCH 防止将空记录附加到空结果集 (#39239)
- GH-39288 - [Java][FlightSQL] 将 Apache Avatica 更新到 1.24.0 版本 (#39325)
- GH-39306 - [C++][Benchmarking] 删除硬编码的最小时间 (#39307)
- GH-39327 - [Java] 为新的自定义 maven 插件项目定义 assemble 描述符 (#39331)
- GH-39333 - [C++] 不要在 lambda 中使用 “if constexpr” (#39334)
- GH-39359 - [CI][C++] 删除 MinGW MINGW32 C++ 作业 (#39376)
- GH-39384 - [C++] 为 Azure SDK 的 identity.hpp 禁用 -Werror=attributes (#39448)
- GH-39387 - [C++] 修复编译警告 (#39389)
- GH-39421 - [CI][Ruby] 在 test-ruby 和 test-c-glib 每夜构建作业中更新为使用 Ubuntu 22.04 (#39422)
- GH-39423 - [CI][JS] TypeScript:多个 CI 作业的 yarn 构建编译失败
- GH-39425 - [CI] 修复导入以匹配新的 substrait 仓库结构 (#39426)
- GH-39433 - [Ruby] 添加对 Table.load(format: json) 选项的支持 (#39464)
- GH-39437 - [CI][Python] 更新 pandas 夜间构建 CI 上失败的 pandas 测试 (#39498)
- GH-39468 - [Java] 修复文档的站点构建 (#39471)
- GH-39469 - [CI][JS] 在 arm64 上的 JS 构建上强制使用 node 20 以修复构建问题 (#39499)
- GH-39488 - [Ruby] 添加对 Ractor 中 ChunkedArray 的支持 (#39490)
- GH-39517 - [C++] 禁用 jemalloc 外部项目的并行性 (#39522)
- GH-39562 - [C++][Parquet] 修复 test_parquet_dataset_lazy_filtering 中的崩溃 (#39632)
- GH-39564 - [CI][Java] 在 Java BOM 上设置正确的版本 (#39580)
- GH-39584 - [R] 优雅地回退到 source (#39587)
- GH-39588 - [CI][Go] 添加 CGO_ENABLED=1 到 cdata_integration 构建,以修复使用 conda 的 macOS 构建 (#39589)
- GH-39598 - [C#] 修复验证脚本 (#39605)
- GH-39604 - [JS] 暂时不要使用可调整大小的缓冲区 (#39607)
- GH-39628 - [C++] 当使用 CMake >= 3.28 时,禁用所有基于 `make` 的 externalProjects 的并行性
新特性和改进
- GH-14936 - [Java] 从 arrow-vector 中删除 netty 依赖 (#38493)
- GH-28994 - [C++][JSON] 将最大行数更改为无限制 (int_32) (#38582)
- GH-30117 - [C++][Python] 当定义了时区时,在时间戳打印字符串的末尾添加 “Z” (#39272)
- GH-30717 - [C#] 向 Arrow 类添加 ToString() 方法 (#36566)
- GH-31303 - [Python] 删除遗留的基于 python 的 ParquetDataset 自定义实现 (#39112)
- GH-31579 - [C#]:删除不受支持的 .NET 版本并更新 C# README (#39165)
- GH-33500 - [Python] 添加
Table.to/from_struct_array
(#38520) - GH-33984 - [C++][Python] Arrow Arrays 的 DLPack 实现(生产者) (#38472)
- GH-34316 - [Python] FixedSizeListArray.from_arrays 支持 mask 参数 (#39396)
- GH-34569 - [C++] Run-End Encoded 数组的差异比较 (#35003)
- GH-34636 - [C#] 在使用 ArrayPool 时减少分配 (#39166)
- GH-35260 - [C++][Python][R] 允许用户通过环境变量调整 S3 日志级别 (#38267)
- GH-35331 - [Python] 公开 Parquet 排序元数据 (#37665)
- GH-35344 - [C++][Format] LIST_VIEW 和 LARGE_LIST_VIEW 数组格式的实现 (#35345)
- GH-35560 - [C++] 在测试中使用 Cast() 代替 CastTo() 处理 Scalar (#39044)
- GH-36036 - [C++][Python][Parquet] 实现 Float16 逻辑类型 (#36073)
- GH-36044 - [Python][文档] 将 ParquetFileFragment 添加到 API 参考文档中 (#38277)
- GH-36099 - [C++] 将 Utf8View 和 BinaryView 添加到 c ABI (#38443)
- GH-36441 - [Python] 使
CacheOptions
可从 Python 配置 (#36627) - GH-36760 - [Go] 添加 Avro OCF 读取器 (#37115)
- GH-36815 - [C#]:在 Windows 下启用 net472 测试 (#36818)
- GH-36898 - [CI] Hashpin 敏感的 GitHub Actions (#37676)
- GH-37002 - [C++][Parquet] 添加从 RowGroupReader 获取 RecordReader 的 API (#37003)
- GH-37061 - [文档][格式] 澄清 FSQL 中 GetSchema 的语义 (#38549)
- GH-37199 - [C++] 公开 Buffer 和 ArraySpan 的 span 转换器 (#38027)
- GH-37242 - [Python][Parquet] Parquet 支持写入和验证 Page CRC (#38360)
- GH-37312 - [Python][Docs] 更新 Python 文档字符串以反映新的 parquet 编码选项 (#38070)
- GH-37359 - [C#] 将 ToList() 添加到 Decimal128Array 和 Decimal256Array (#37383)
- GH-37378 - [C++] 为 DictionaryArray 添加字典压缩功能 (#37418)
- GH-37429 - [C++] 添加 arrow::ipc::StreamDecoder::Reset() (#37970)
- GH-37511 - [C++] 为 Azure 文件系统实现文件读取 (#38269)
- GH-37582 - [Go][Parquet] 实现 Float16 逻辑类型 (#37599)
- GH-37592 - [MATLAB] 将
NumRows
属性添加到arrow.tabular.RecordBatch
(#38215) - GH-37710 - [C++][Integration] 添加 C++ Utf8View 实现 (#37792)
- GH-37753 - [C++][Gandiva] 添加外部函数注册支持 (#38116)
- GH-37812 - [MATLAB] 添加
arrow.type.ListType
MATLAB 类 (#38189) - GH-37815 - [MATLAB] 添加
arrow.array.ListArray
MATLAB 类 (#38357) - GH-37848 - [C++][Gandiva] 将 LLVM JIT 引擎从 MCJIT 迁移到 ORC v2/LLJIT (#39098)
- GH-37857 - [Python][Dataset] 将文件大小公开给 python 数据集 (#37868)
- GH-37889 - [Java][Doc] 改进 JDBC 驱动程序文档 (#38469)
- GH-37895 - [C++] 功能:支持连接 recordbatches (#37896)
- GH-37910 - [Java][Integration] 实现 C 数据接口集成测试 (#38248)
- GH-37943 - [Java] 添加包含所有支持类型的 parquet 文件 (#38249)
- GH-37979 - [C++] 添加对指定自定义数组开头和结尾分隔符的支持到
arrow::PrettyPrintDelimiters
(#38187) - GH-38022 - [Java][FlightRPC] 在 FlightInfo 和 FlightEndpoint 上公开 app_metadata (#38331)
- GH-38024 - [Java][FlightRPC] 通过 JDBC ResultSet 公开 appMetadata (#38781)
- GH-38033 - [R] 允许
code()
返回包名称前缀 (#38144) - GH-38042 - [C++][Benchmark] 添加非流 Codec 压缩/解压缩 (#38067)
- GH-38117 - [C++][Parquet] 将 DictEncoder dtor 检查更改为警告日志 (#38118)
- GH-38131 - [Swift][CI] 添加 linting 并修复 linting 错误 (#38133)
- GH-38153 - [C#] 公开 ArrayDataConcatenator.Concatenate (#38154)
- GH-38164 - [MATLAB] 将
arrow.array.Array
和arrow.array.ChunkedArray
上的Length
属性重命名为NumElements
(#38190) - GH-38166 - [MATLAB] 改进表格对象显示 (#38482)
- GH-38246 - [JAVA] 为复杂类型向量添加新的 getTransferPair() 函数,该函数接受 Field 类型 (#38261)
- GH-38264 - [Java][Packaging] 添加 BOM 文件 (#38336)
- GH-38271 - [C++][Parquet] 支持读取具有多个 gzip 成员的 parquet 文件 (#38272)
- GH-38300 - [Dev][Docs] 更新 dev/README.md 以适应当前的 merge_arrow_pr.py (#38301)
- GH-38310 - [MATLAB] 创建用于测试 MATLAB 接口的测试指南文档 (#38459)
- GH-38316 - [C#] 实现间隔类型 (#39043)
- GH-38326 - [C++][Parquet] 检查解压后的页面大小是否与页面标头中的大小相同 (#38327)
- GH-38330 - [C++][Azure] 使用属性作为输入流元数据 (#38524)
- GH-38333 - [C++][FS][Azure] 实现文件写入 (#38780)
- GH-38335 - [C++] 为 Azure 文件系统中的单个文件实现
GetFileInfo
(#38505) - GH-38339 - [C++][CMake] 为系统 GoogleTest 使用传递依赖 (#38340)
- GH-38341 - [Python] 删除 pandas 内部 DatetimeTZBlock 的用法 (#38321)
- GH-38346 - [C++][Parquet] 使用新的加密文件进行页面索引加密测试 (#38347)
- GH-38348 - [C#] 使 PrimitiveArray
支持 IReadOnlyList<T?> (#38680) - GH-38351 - [C#] 向 Decimal128Array 添加 SqlDecimal 支持 (#38481)
- GH-38354 - [MATLAB] 为
arrow.array.ListArray
实现fromMATLAB
方法 (#38561) - GH-38361 - 为
arrow.array.ListArray.fromArrays
添加offsets
和values
的验证逻辑 (#38531) - GH-38376 - [R]:将
dimnames
方法添加到Dataset
类 (#38377) - GH-38381 - [C++][Acero] 创建排序合并节点 (#38380)
- GH-38398 - [MATLAB] 改进数组显示 (#38400)
- GH-38402 - [CI][Integration] 为集成测试提供包装脚本 (#38403)
- GH-38415 - [MATLAB] 将索引 “slice” 方法添加到 C++ Array Proxy 类 (#38674)
- GH-38417 - [MATLAB] 实现一个
TableTypeValidator
类,该类验证 MATLABcell
数组仅包含共享相同模式的table
(#38551) - GH-38418 - [MATLAB] 添加将
arrow.tabular.Table
的一行提取为字符串的方法 (#38463) - GH-38419 - [MATLAB] 实现一个
ClassTypeValidator
类,该类验证 MATLABcell
数组仅包含相同类类型的值 (#38530) - GH-38420 - [MATLAB] 实现一个
DatetimeValidator
类,该类验证 MATLABcell
数组仅包含已分区或未分区的datetime
(#38533) - GH-38424 - [CI][C++] 使用 Fedora 38 而不是 35 (#38425)
- GH-38452 - [C++][Benchmark] 为 LZ4/Snappy 压缩添加基准测试 (#38453)
- GH-38457 - [C++] 支持 DictionaryArray 的 LogicalNullCount (#38681)
- GH-38460 - [Java][FlightRPC] 为 Flight SQL JDBC 驱动程序添加 mTLS 支持 (#38461)
- GH-38462 - [Go][Parquet] 处理布尔 RLE 编码/解码 (#38367)
- GH-38483 - [C#] 添加对更多十进制转换的支持 (#38508)
- GH-38506 - [Go][Parquet] 将 NumRows 和 RowGroupNumRows 添加到 pqarrow.FileWriter (#38507)
- GH-38511 - [Java] 为 StructVector 和 MapVector 添加 getTransferPair(Field, BufferAllocator, CallBack) (#38512)
- GH-38528 - [Python][Compute] 描述 strptime 格式语义 (#38665)
- GH-38537 - [Java] 升级到 netty 4.1.100.Final (#38538)
- GH-38541 - [MATLAB] 为 arrow 表格对象显示添加剩余的测试 (#38564)
- GH-38542 - [C++][Parquet] 更快的标量 BYTE_STREAM_SPLIT (#38529)
- GH-38562 - [Packaging] 添加对 Ubuntu 23.10 的支持 (#38563)
- GH-38576 - [Java] 更改 JDBC 驱动程序以在获取流时选择性地保留 cookies 和身份验证令牌 (#38580)
- GH-38578 - [Java][FlightSQL] 从 flight-sql 库中删除 joda 的使用 (#38579)
- GH-38589 - [C++][Gandiva] 支持注册外部 C 函数 (#38632)
- GH-38597 - [C++] 为 Azure 文件系统实现 GetFileInfo(selector) (#39009)
- GH-38602 - [R] 为 summarise 添加缺失的
prod
(#38601) - GH-38627 - [Java][FlightRPC] 处理 null 参数值 (#38628)
- GH-38648 - [Java] 重新生成 Flatbuffers (#38650)
- GH-38652 - [MATLAB] 添加关于将 MATLAB 持续时间转换为
arrow.array.Time32Array
和arrow.array.Time64Array
时的时间精度保留的测试 (#38661) - GH-38662 - [Java] 添加比较器 (#38669)
- GH-38699 - [C++][FS][Azure] 实现
CreateDir()
(#38708) - GH-38700 - [C++][FS][Azure] 实现
DeleteDir()
(#38793) - GH-38701 - [C++][FS][Azure] 实现
DeleteDirContents()
(#38888) - GH-38702 - [C++] : 实现 AzureFileSystem::DeleteRootDirContents (#39151)
- GH-38705 - [C++][FS][Azure] 实现 CopyFile() (#39058)
- GH-38712 - [Python] 删除 _reconstruct_block 中的死代码 (#38714)
- GH-38718 - [Go][Format][Integration] 将 StringView/BinaryView 添加到 Go 实现 (#35769)
- GH-38732 - [Java][FlightRPC] 在 JDBC 中添加对数组参数绑定的支持 (#38733)
- GH-38751 - [C++][Go][Parquet] 添加用于在 parquet-testing 中读取 Float16 文件的测试 (#38753)
- GH-38757 - [C#] 为结构数组和记录批处理实现通用接口 (#38759)
- GH-38758 - [C++][FS][Azure] 将 AzurePath 重命名为 AzureLocation (#38773)
- GH-38772 - [C++] 即使存储帐户不支持 HNS,也实现目录语义 (#39361)
- GH-38798 - [Integration] 在 Rust 上启用 C 数据接口集成测试 (#38799)
- GH-38814 - [C++][Parquet] 更新 parquet.thrift 以与 2.10.0 同步 (#38815)
- GH-38824 - [Go] 启用 GC 检查 (#38826)
- GH-38836 - [Go] 为 ArrayData 添加 Size() (#38839)
- GH-38852 - [C++] 在数据集测试中,将 “#ifdef ARROW_WITH_GZIP” 替换为 ARROW_WITH_ZLIB (#38853)
- GH-38857 - [Python] 修复 cython 2 的追加模式 (#39027)
- GH-38857 - [Python] 为 pyarrow.OsFile 添加追加模式 (#38820)
- GH-38860 - [C++][Parquet] 使用长度优化布隆过滤器读取 (#38863)
- GH-38870 - [Documentation] 将 List View 和 Large List View 添加到 status.rst (#38871)
- GH-38874 - [C++][Parquet] minor:使 parquet TypedComparator 操作成为 const 方法 (#38875)
- GH-38884 - [C++] DatasetWriter 在分配写入失败时释放 rows_in_flight_throttle (#38885)
- GH-38887 - [C++][Parquet] 将 EstimatedBufferedValueBytes 从 TypedColumnWriter 移动到 ColumnWriter (#39055)
- GH-38907 - [C++] 停止安装内部 bpacking_simd* 头文件 (#38908)
- GH-38909 - [Packaging] 停止支持 Ubuntu 23.04 (#38910)
- GH-38918 - [Go] 避免在某些地方分配 schema.Fields (#38919)
- GH-38920 - [C++][Gandiva] 重构函数持有者以返回 arrow Result (#38873)
- GH-38958 - [C++][Parquet] 修复拼写错误 (#38959)
- GH-38990 - [Java] 升级到 flatc 版本 23.5.26 (#38991)
- GH-38996 - [Java] 更新 JPMS 模块的依赖项和插件 (#38994)
- GH-39006 - [Python] 从 libarrow_python.so 中提取 libparquet 要求到新的 libarrow_python_parquet_encryption.so (#39316)
- GH-39013 - [Go][Integration] 支持 StringView 的 cABI 导入/导出 (#39019)
- GH-39020 - [CI][Release][JS] 使用 Node.js 18 而不是 16 (#39021)
- GH-39028 - [Python][CI] 通过临时跳过 test_categorize_info 来修复 dask 集成构建 (#39029)
- GH-39037 - [Java] 删除 Flight SQL 中的 (Contrib/Experimental) 提及 (#39040)
- GH-39049 - [C++] 在测试中使用 Cast() 而不是 CastTo() 处理 Dictionary Scalar (#39362)
- GH-39050 - [C++] 在测试中使用 Cast() 而不是 CastTo() 处理 Timestamp Scalar (#39060)
- GH-39051 - [C++] 在测试中使用 Cast() 而不是 CastTo() 处理 List Scalar (#39353)
- GH-39064 - [C++][Parquet] 支持结构字段的嵌套路径的行组过滤 (#39065)
- GH-39088 - [Dev][Java] 为 Java 添加 Dependabot 配置 (#39089)
- GH-39096 - [Python] 在
.nbytes
中释放 GIL (#39097) - GH-39119 - [C++] 重构 Azure FS 测试和文件系统类实例化 (#39207)
- GH-39122 - [C++][Parquet] 优化 FLBA 记录读取器 (#39124)
- GH-39134 - 创建模块信息编译器插件 (#39135)
- GH-39159 - [C++]:尝试使 Buffer::device_type_ 成为非可选的 (#39150)
- GH-39170 - [Java] 改进解释 TestTls 可能失败的原因的错误消息 (#39171)
- GH-39189 - [Java] 将 com.h2database:h2 从 1.4.196 升级到 /java 中的 2.2.224 (#39188)
- GH-39196 - [Python][Docs] 在 Python 文档的“扩展 pyarrow”部分记录 Arrow PyCapsule 协议 (#39199)
- GH-39208 - [C++][Parquet] 删除已弃用的 AppendRowGroup(int64_t num_rows) (#39209)
- GH-39210 - [C++][Parquet] 避免 WriteRecordBatch 产生零大小的 RowGroup (#39211)
- GH-39217 - [Python] 用于实现 Arrow PyCapsule 协议的对象的 RecordBatchReader.from_stream 构造函数 (#39218)
- GH-39223 - [C#] 支持剩余标量类型上的 IReadOnlyList<T?> (#39224)
- GH-39225 - [GLib] 使用 Cast() 而不是 CastTo (#39228)
- GH-39232 - [C++] 支持 binary 到 fixed_size_binary 的转换 (#39236)
- GH-39243 - [R][CI] 删除 r-arrow conda nightlies (#39244)
- GH-39246 - [CI][GLib][Ruby] 使用 Ubuntu 22.04 而不是 20.04 (#39247)
- GH-39262 - [C++][Azure][FS] 添加默认凭据身份验证配置 (#39263)
- GH-39265 - [Java] 使其能够与 netty 最新版本 4.1.104 良好运行 (#39266)
- GH-39268 - [C++] 不要使用 CMake 3.28+ 安装捆绑的 Azure SDK for C++ (#39269)
- GH-39292 - [C++][FS]:删除 AzureBackend 枚举并添加更灵活的连接选项 (#39293)
- GH-39297 - [C++][FS]:在检查 HNS 支持时通知调用方容器不存在 (#39298)
- GH-39299 - [Java] 升级到 Avro 1.11.3 (#39300)
- GH-39303 - [Archery][Benchmarking] 允许设置 C++ 重复最小时间 (#39324)
- GH-39318 - [C++][FS][Azure] 添加工作负载标识身份验证配置 (#39319)
- GH-39320 - [C++][FS][Azure] 添加托管标识身份验证配置 (#39321)
- GH-39322 - [C++] 将参数一直转发到 ExceptionToStatus 直到 Status::FromArgs (#39323)
- GH-39326 - [C++] 不稳定的 DatasetWriterTestFixture.MaxRowsOneWriteBackpresure 测试 (#39379)
- GH-39328 - [Java] 使默认 getConsumer 公开 (#39329)
- GH-39335 - [C#] 支持使用 Grpc.Core.Channel 创建 FlightClient (#39348)
- GH-39339 - [C++] 添加 ForceCachedHierarchicalNamespaceSupport 以帮助进行测试 (#39340)
- GH-39341 - [C#] 支持 Utf8View、BinaryView 和 ListView (#39342)
- GH-39343 - [C++][FS][Azure] 添加客户端密钥身份验证配置 (#39346)
- GH-39355 - [Java] 改进 JdbcConsumer 异常 (#39356)
- GH-39357 - [C++] 减少 function.h 包含 (#39312)
- GH-39363 - [C++] 为 Parquet 使用 Cast() 而不是 CastTo() (#39364)
- GH-39413 - [C++][Parquet] 在 FLBA 上向量化解码 plain (#39414)
- GH-39419 - [C++][Parquet] 样式:使用 arrow::Buffer data_as api 而不是 reinterpret_cast (#39420)
- GH-39430 - [C++][ORC] 将 ORC 升级到 1.9.2 (#39431)
- GH-39449 - [C++] 隐式使用默认 Azure 凭据,并显式支持匿名凭据 (#39450)
- GH-39484 - [Java] 在 JdbcToArrowUtils 中支持 256 位小数 (#39485)
- GH-39500 - [Docs] 将 pydata-sphinx-theme 锁定到 0.14 (#39501)
- GH-39515 - [Python] 将类型传递给
MapType.from_arrays
(#39516) - GH-39531 - [Python][CI] 跳过失败的 dask 测试:test_describe_empty 和 test_view (#39534)
- GH-39533 - [Python] NumPy 2.0 兼容性:删除 np.core 的用法 (#39535)
- GH-39537 - [Packaging][Python] 向 15.x 发布分支的安装要求添加 numpy<2 pin (#39538)
- GH-39601 - [R] 当 TEST_OFFLINE_BUILD=true 时,不要下载 cmake (#39602)
- GH-39624 - [R][CI] 将 CMake 添加到 docker 文件并更新 envvars (#39625)
- GH-39626 - [Docs][R] 更新 15.0.0 的 NEWS.md
- PARQUET-2411 - [C++][Parquet] 允许通过 ByteArrayDictionaryRecordReader 读取字典,而无需读取数据 (#39153)