Apache Arrow 15.0.0 (2024年1月21日)
这是一个涵盖超过 1 个月开发的重大版本。
下载
贡献者
此版本包含来自 101 位不同贡献者的 536 个提交。
$ git shortlog -sn apache-arrow-14.0.2..apache-arrow-15.0.0
67 dependabot[bot]
42 Sutou Kouhei
31 Raúl Cumplido
27 Josh Soref
20 Antoine Pitrou
19 Felipe Oliveira Carvalho
19 mwish
18 Dewey Dunnington
17 James Duong
16 Curt Hagenlocher
16 Dominik Moritz
16 Joris Van den Bossche
15 Jacob Wujciak-Jens
14 Hyunseok Seo
12 Alenka Frim
10 Yue
10 sgilmore10
9 Matt Topol
8 Dane Pitkin
8 Diego Fernández Giraldo
8 Thomas Newton
6 Bryce Mecum
5 Jin Shang
5 Jonathan Keane
5 Kevin Gurney
4 Benjamin Kietzman
4 Gang Wu
3 Ben Harkins
3 Ivan Chesnov
3 Judah Rand
3 Lei Hou
3 Rossi(Ruoxi) Sun
3 Tim Schaub
3 abandy
2 Alfonso Subiotto Marqués
2 David Li
2 Divyansh200102
2 Eero Lihavainen
2 Francis
2 Gavin Murrison
2 JB Onofré
2 Jeremy Aguilon
2 John
2 Junming Chen
2 Laurent Goujon
2 Nic Crane
2 Peter Andreas Entschev
2 Rok Mihevc
2 Stas Stepanov
2 Tsutomu Katsube
2 Vibhatha Lakmal Abeykoon
1 Abram Fleishman
1 Anja Kefala
1 Atheel Massalha
1 Benjamin Schmidt
1 Bob Plotts
1 Bryan Cutler
1 Carl Jackson
1 ChinYikMing
1 Chris Larsen
1 Christian Holm Christensen
1 Dan Homola
1 Dan Stone
1 Danyaal Khan
1 Diogo Teles Sant'Anna
1 Dongjoon Hyun
1 Fatemah Panahi
1 Fernando Mayer
1 Fokko Driesprong
1 Hattonuri
1 Hendrik Makait
1 Jiaxing Liang
1 Jinpeng
1 John Garland
1 Kyle Barron
1 LucasG0
1 Maximilian Muecke
1 Miguel Pragier
1 Miles
1 Neal Richardson
1 Nick Hughes
1 Paul Spangler
1 Phillip LeBlanc
1 Pierre Moulon
1 Quang Hoang
1 Ravjot Brar
1 Tammy DiPrima
1 Will Jones
1 William Ayd
1 Yifeng-Sigma
1 david dali susanibar arce
1 davidhcoe
1 frazar
1 jiawei liang
1 loicalleyne
1 orgadish
1 panbingkun
1 prmoore77
1 shibei
1 zhipeng
1 谢天
补丁提交者
以下 Apache 提交者将贡献的补丁合并到代码库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-14.0.2..apache-arrow-15.0.0
154 Sutou Kouhei
56 David Li
50 Antoine Pitrou
35 Joris Van den Bossche
30 Jacob Wujciak-Jens
24 Raúl Cumplido
22 Matt Topol
19 Curt Hagenlocher
18 Kevin Gurney
16 Benjamin Kietzman
16 Felipe Oliveira Carvalho
14 mwish
13 Dewey Dunnington
12 AlenkaF
7 Nic Crane
3 Weston Pace
2 Gang Wu
2 Jonathan Keane
1 Josh Soref
1 Rok Mihevc
1 Will Jones
1 dependabot[bot]
变更日志
Apache Arrow 15.0.0 (2024-01-21 08:00:00)
错误修复
- GH-15192 - [C++] 为联合类型恢复 `case_when` 测试 (#39308)
- GH-32570 - [C++] 修复 `ExecBatchBuilder` 在追加具有相同 ID 的连续尾行时可能超过缓冲区边界的问题 (#39234)
- GH-32662 - [C#] 使文件和内存实现中的字典正常工作并支持集成测试 (#39146)
- GH-33475 - [Java] 为 JDBC 驱动程序中的预处理语句添加参数绑定 (#38404)
- GH-34532 - [Java][FlightSQL] 更改 JDBC 以处理多端点 (#38521)
- GH-34610 - [Java] 修复加载/传输 NullVector 时的 valueCount 和字段名称问题 (#38973)
- GH-34890 - [C++][Python] 为 dictionary_encode(dictionary) 添加无操作内核 (#38349)
- GH-35497 - [C++] 使用最新标记版本的 flatbuffers (#38192)
- GH-36588 - [C#] 支持空列名并启用更多集成测试。 (#39167)
- GH-36594 - [C++] 不要使用 MSVC_VERSION 来确定 -fms-compatibility-version (#36595)
- GH-36912 - [Java] 如果 JDBC 驱动程序看到空根,则停止使用根 (#38590)
- GH-37055 - [C++] 优化 Dictionary ChunkedArrays 的哈希内核 (#38394)
- GH-37657 - [JS] 使用 ts-node 运行 bin 脚本 (#38500)
- GH-37726 - [Swift][FlightSQL] 更新行为以与现有实现类似 (#37764)
- GH-37751 - [C++][Gandiva] 避免在 gandiva 中多次注册导出函数 (#37752)
- GH-37796 - [C++][Acero] 修复 as-of-join 节点中输入滞后引起的竞争条件 (#37839)
- GH-37884 - [Swift] 允许读取未对齐的 FlatBuffers 缓冲区 (#38635)
- GH-37969 - [C++][Parquet] 为 ParquetFileWriter 添加更多已关闭文件检查 (#38390)
- GH-38096 - [Java] 关闭时,带有元数据的 FlightStream 可能会导致错误 (#38110)
- GH-38198 - [Go] 修复 AuthenticateBasicToken 以使其在代理后可靠 (#38199)
- GH-38210 - [C++][FlightRPC] 添加缺少的 app_metadata 参数 (#38231)
- GH-38216 - [R] open_dataset(format = “json”) 未 documented (#38258)
- GH-38242 - [Java] 修复 DenseUnionVector#getBufferSizeFor 的内部结构错误计算 (#38305)
- GH-38254 - [Java] 向字符/二进制向量添加可重用缓冲区 getter (#38266)
- GH-38268 - [Java] 禁用不稳定的 TestFlightSqlStreams (#38319)
- GH-38281 - [Go] 确保在释放时释放 CData 导入的数组 (#38314)
- GH-38297 - [C#] 修复 .NET 4.7.2 的构建 (#38299)
- GH-38304 - [C++][Parquet] 修复 arrow-dataset-file-parquet-encryption-test 中的 Valgrind 内存泄漏 (#38306)
- GH-38307 - [CI] 删除 gemfury_clean.rb (#38308)
- GH-38318 - [Java][FlightRPC] 启用泄漏的测试 (#38719)
- GH-38323 - [CI][Python] 在 test-conda-python 上使用系统 gdb (#38324)
- GH-38363 - [Release][CI] 在 RC 分支上省略 main/maintenance 分支的测试 (#38365)
- GH-38366 - [Java] 修复小于 4 字节的缓冲区上的 Murmur 哈希 (#38368)
- GH-38378 - [C++][Parquet] 不要使用 OpenSSL 1.1 显式初始化 OpenSSL (#38379)
- GH-38382 - [R] 在退出时显式清理 `arrow_duck_connection()` (#38495)
- GH-38387 - [Java] 修复 TestAllTypes 的 JDK8 编译问题 (#38388)
- GH-38395 - [Go] 修复 decimal256 字符串函数中的舍入错误 (#38426)
- GH-38399 - [Go][Parquet] DeltaBitPack 解码器在 SetData 后重置 usedFirst (#38413)
- GH-38401 - [C++] 为 Skyhook 重新生成 flatbuffers C++ (#38405)
- GH-38436 - [R] 测试读取非 UTF-8 编码的 CSV 时的段错误
- GH-38439 - [Java][CI] 将 Eclipse Temurin 用于所有 Java CI linux 作业 (#38440)
-
GH-38447 - [CI][Release] 不要使用“{exit,continue}” (#38486) - GH-38458 - [Go] 向 BinaryLike 接口添加 ValueLen (#39242)
- GH-38470 - [CI][Integration] 安装 jpype 并构建 JNI c-data 以运行集成测试 (#39502)
- GH-38477 - [Go] 修复 decimal 128 舍入问题 (#38478)
- GH-38479 - [C++] 避免将空指针传递给 LZ4 帧解压缩器 (#39125)
- GH-38503 - [Go][Parquet] 使 arrow 列写入器成为内部 (#38727)
- GH-38503 - [Go][Parquet] 使用 ArrowColumnWriter 的样式改进 (#38581)
- GH-38516 - [Go][Parquet] 在追加新的行组时增加写入的行数 (#38517)
- GH-38535 - [Python] 修复 S3FileSystem 等于 None 段错误 (#39276)
- GH-38554 - [Release][Website] post-03-website.sh 不引用 current.date (#38555)
- GH-38556 - [C++] 为 i386 添加缺少的显式 size_t 强制转换(#38557)
- GH-38594 - [Docs][C++][Gandiva] 记录如何注册 Gandiva 外部函数 (#38763)
- GH-38599 - [Docs] 更新标题 (#38696)
- GH-38614 - [Java] 向更多写入器添加 VarBinary 和 VarCharWriter 辅助方法 (#38631)
- GH-38624 - [C++] 修复:为 gtest 函数添加 TestingEqualOptions。 (#38642)
- GH-38630 - [MATLAB] `arrow.array.BooleanArray` 的 `toMATLAB` 方法未考虑切片偏移量 (#38636)
- GH-38653 - [Packaging][Java][Python][Ruby] 将最低 macOS 版本提高到 10.15 catalina 以允许在 C++17 中使用新的 API (#38677)
- GH-38683 - [Python][Docs] 更新 Time32Type 和 Time64Type 的文档字符串 (#39059)
- GH-38684 - [Integration] 尝试加强 C 数据接口测试 (#38846)
- GH-38697 - [C++][Gandiva] 使用 arrow io util 替换 gandiva 中的 std::filesystem::path (#38698)
- GH-38709 - [C++] 防止 macOS 上定义的 PREALLOCATE 预处理器 (#38760)
- GH-38711 - [CI] 为预览文档回滚 aws-cli (#38723)
- GH-38725 - [Java] Lz4CompressionCodec.java 中的解压缩未设置写入器索引 (#38840)
- GH-38728 - [Go] ipc:将 lz4 解压缩缓冲区重新同步到 sync.Pool (#38729)
- GH-38737 - [Java] 修复 JDBC 对 SqlInfo 值的缓存 (#38739)
- GH-38738 - [C++] 检查可变缓冲区计数是否在范围内 (#38740)
- GH-38745 - [Integration] 修复大型集成测试 (#38746)
- GH-38762 - [R] CI 配置中的 R 和 RTools 版本不再是最新版本
- GH-38764 - [Java] 阐明关于 `--add-opens=java.base/java.nio=ALL-UNNAMED` 的警告 (#38765)
- GH-38782 - [C++][FS][Azure] 对 CreateDir("/container", true) 不执行任何操作 (#38783)
- GH-38795 - [Go] 修复 Timestamp 的 GetToTimeFunc 竞争 (#38797)
- GH-38811 - [R] 在 macOS 上实际使用获取的 cmake (#39453)
- GH-38816 - [C#] 修复 StructArray 上的 IArrowRecord 实现 (#38827)
- GH-38823 - 修复 TestArrowReaderAdHoc.ReadFloat16Files 以使用新的未压缩文件 (#38825)
- GH-38832 - [Java] 避免在
ci/scripts/java_build.sh
中构建两次 (#38829) - GH-38844 - [C++] S3FileSystem 将 s3 sdk 配置 “use_virtual_addressing” 导出到 arrow::fs::S3Options (#38858)
- GH-38851 - 网站:贡献链接无效
- GH-38879 - [C++][Gandiva] 修复 Gandiva to_date 函数对抑制错误参数的验证 (#38987)
- GH-38883 - [文档] 修复结构示例以显示隐藏子项 (#38898)
- GH-38906 - [R] 改进 Windows CI 配置 (#38927)
- GH-38921 - [CI] 修复拼写错误 (#38922)
- GH-38925 - [CI] 修复拼写错误 (#38926)
- GH-38928 - [R] 修复拼写错误 (#38929)
- GH-38930 - [Java] 修复拼写错误 (#38931)
- GH-38932 - [GO] 修复拼写错误 (#38933)
- GH-38938 - [FlightRPC] 修复拼写错误 (#38939)
- GH-38940 - [Ruby] 修复拼写错误 (#38941)
- GH-38942 - [C#] 修复拼写错误 (#38943)
- GH-38944 - [Python] 修复拼写错误 (#38945)
- GH-38946 - [MATLAB] 修复拼写错误 (#38947)
- GH-38948 - [Swift] 修复拼写错误 (#38949)
- GH-38950 - [文档] 修复拼写错误 (#38951)
- GH-38952 - [格式] 修复拼写错误 (#38953)
- GH-38954 - [开发] 修复拼写错误 (#38955)
- GH-38956 - [Gandiva] 修复拼写错误 (#38957)
- GH-38960 - [C++] 修复拼写错误 (acero) (#38961)
- GH-38964 - [C++] 修复拼写错误 (compute) (#38965)
- GH-38966 - [C++] 修复拼写错误 (util) (#38967)
- GH-38968 - [C++] 修复拼写错误 (dataset) (#38969)
- GH-38971 - [C++] 修复拼写错误 (filesystem) (#38972)
- GH-38975 - [开发] 修复拼写错误 (#38976)
- GH-38977 - [C++] 修复拼写错误 (#38978)
- GH-38979 - [C++] 修复拼写错误 (#38980)
- GH-38981 - [R][发布] 在兼容版本发布时不要更新 version.json (#38982)
- GH-39014 - [Java] 在 Mac 系统上时,将默认信任库与 KeychainStore 一起添加 (#39235)
- GH-39031 - [文档] 从 contrib css 中删除拼写错误的规则 (#39032)
- GH-39045 - [C++][Acero] 联合节点输出批次应为无序的 (#39046)
- GH-39113 - [集成][Flight][Java] 修复启动 Java 服务器时偶尔发生的故障 (#39115)
- GH-39116 - [Go] 修复 CI Staticcheck (#39117)
- GH-39126 - [C++][CI] 修复 Valgrind 错误 (#39127)
- GH-39130 - [CI][GLib][Windows] 使用旧 Ruby 作为加载错误的解决方法 (#39168)
- GH-39136 - [C++] 使用 -DARROW_HDFS=ON 删除不必要的系统 Protobuf 依赖项 (#39137)
- GH-39138 - [R] 修复隐式转换警告 (#39250)
- GH-39156 - [C++][Compute] 修复负持续时间除法 (#39158)
- GH-39163 - [C++] 在 StreamDecoder::Consume(data) 中添加缺少的数据副本 (#39164)
- GH-39185 - [C++] 删除公共头文件中
-Wconversion -Wno-sign-conversion
的编译器警告 (#39186) - GH-39191 - [R] 当
string_replace
在pattern
中传递值向量时抛出错误 (#39219) - GH-39238 - [Go] PATCH 防止将空记录附加到空结果集 (#39239)
- GH-39288 - [Java][FlightSQL] 将 Apache Avatica 更新到 1.24.0 版 (#39325)
- GH-39306 - [C++][基准测试] 删除硬编码的最小时间 (#39307)
- GH-39327 - [Java] 为新的自定义 maven 插件项目定义组装描述符 (#39331)
- GH-39333 - [C++] 不要在 lambda 中使用“if constexpr” (#39334)
- GH-39359 - [CI][C++] 删除 MinGW MINGW32 C++ 作业 (#39376)
- GH-39384 - [C++] 为 Azure SDK 的 identity.hpp 禁用 -Werror=attributes (#39448)
- GH-39387 - [C++] 修复编译警告 (#39389)
- GH-39421 - [CI][Ruby] 在 test-ruby 和 test-c-glib 夜间作业中更新为使用 Ubuntu 22.04 (#39422)
- GH-39423 - [CI][JS] TypeScript:多个 CI 作业的 yarn 构建编译失败
- GH-39425 - [CI] 修复导入以匹配新的 substrait 仓库结构 (#39426)
- GH-39433 - [Ruby] 添加对 Table.load(format: json) 选项的支持 (#39464)
- GH-39437 - [CI][Python] 更新在 pandas 夜间 CI 构建中失败的 pandas 测试 (#39498)
- GH-39468 - [Java] 修复文档的站点构建 (#39471)
- GH-39469 - [CI][JS] 在 arm64 上的 JS 构建中强制使用 node 20 以修复构建问题 (#39499)
- GH-39488 - [Ruby] 在 Ractor 中添加对 ChunkedArray 的支持 (#39490)
- GH-39517 - [C++] 为 jemalloc 外部项目禁用并行性 (#39522)
- GH-39562 - [C++][Parquet] 修复 test_parquet_dataset_lazy_filtering 中的崩溃问题 (#39632)
- GH-39564 - [CI][Java] 在 Java BOM 上设置正确的版本 (#39580)
- GH-39584 - [R] 优雅地回退到源代码 (#39587)
- GH-39588 - [CI][Go] 将 CGO_ENABLED=1 添加到 cdata_integration 构建以修复 conda 的 macOS 构建 (#39589)
- GH-39598 - [C#] 修复验证脚本 (#39605)
- GH-39604 - [JS] 暂时不要使用可调整大小的缓冲区 (#39607)
- GH-39628 - [C++] 当使用 CMake >= 3.28 时,禁用所有基于 `make` 的 externalProjects 的并行性
新功能和改进
- GH-14936 - [Java] 从 arrow-vector 中删除 netty 依赖项 (#38493)
- GH-28994 - [C++][JSON] 将最大行数更改为 Unlimited(int_32) (#38582)
- GH-30117 - [C++][Python] 当定义 tz 时,在时间戳打印字符串的末尾添加“Z” (#39272)
- GH-30717 - [C#] 向 Arrow 类添加 ToString() 方法 (#36566)
- GH-31303 - [Python] 删除旧的基于自定义 python 的 ParquetDataset 实现 (#39112)
- GH-31579 - [C#]:删除不受支持的 .NET 版本并更新 C# README (#39165)
- GH-33500 - [Python] 添加
Table.to/from_struct_array
(#38520) - GH-33984 - [C++][Python] Arrow 数组的 DLPack 实现(生产者) (#38472)
- GH-34316 - [Python] FixedSizeListArray.from_arrays 支持 mask 参数 (#39396)
- GH-34569 - [C++] 运行结束编码数组的差异 (#35003)
- GH-34636 - [C#] 使用 ArrayPool 时减少分配 (#39166)
- GH-35260 - [C++][Python][R] 允许用户通过环境变量调整 S3 日志级别 (#38267)
- GH-35331 - [Python] 公开 Parquet 排序元数据 (#37665)
- GH-35344 - [C++][格式] LIST_VIEW 和 LARGE_LIST_VIEW 数组格式的实现 (#35345)
- GH-35560 - [C++] 在测试中使用 Cast() 而不是 CastTo() 来处理 Scalar (#39044)
- GH-36036 - [C++][Python][Parquet] 实现 Float16 逻辑类型 (#36073)
- GH-36044 - [Python][文档] 将 ParquetFileFragment 添加到 API 参考文档 (#38277)
- GH-36099 - [C++] 将 Utf8View 和 BinaryView 添加到 c ABI (#38443)
- GH-36441 - [Python] 使
CacheOptions
可在 Python 中配置 (#36627) - GH-36760 - [Go] 添加 Avro OCF 读取器 (#37115)
- GH-36815 - [C#]:在 Windows 下启用 net472 测试 (#36818)
- GH-36898 - [CI] Hashpin 敏感 GitHub Actions (#37676)
- GH-37002 - [C++][Parquet] 添加从 RowGroupReader 获取 RecordReader 的 api (#37003)
- GH-37061 - [文档][格式] 阐明 FSQL 中 GetSchema 的语义 (#38549)
- GH-37199 - [C++] 为 Buffer 和 ArraySpan 公开 span 转换器 (#38027)
- GH-37242 - [Python][Parquet] Parquet 支持写入和验证 Page CRC (#38360)
- GH-37312 - [Python][文档] 更新 Python 文档字符串以反映新的 parquet 编码选项 (#38070)
- GH-37359 - [C#] 将 ToList() 添加到 Decimal128Array 和 Decimal256Array (#37383)
- GH-37378 - [C++] 为 DictionaryArray 添加字典压缩函数 (#37418)
- GH-37429 - [C++] 添加 arrow::ipc::StreamDecoder::Reset() (#37970)
- GH-37511 - [C++] 为 Azure 文件系统实现文件读取 (#38269)
- GH-37582 - [Go][Parquet] 实现 Float16 逻辑类型 (#37599)
- GH-37592 - [MATLAB] 为
arrow.tabular.RecordBatch
添加NumRows
属性 (#38215) - GH-37710 - [C++][集成] 添加 C++ Utf8View 实现 (#37792)
- GH-37753 - [C++][Gandiva] 添加外部函数注册表支持 (#38116)
- GH-37812 - [MATLAB] 添加
arrow.type.ListType
MATLAB 类 (#38189) - GH-37815 - [MATLAB] 添加
arrow.array.ListArray
MATLAB 类 (#38357) - GH-37848 - [C++][Gandiva] 将 LLVM JIT 引擎从 MCJIT 迁移到 ORC v2/LLJIT (#39098)
- GH-37857 - [Python][数据集] 将文件大小公开给 Python 数据集 (#37868)
- GH-37889 - [Java][文档] 改进 JDBC 驱动程序文档 (#38469)
- GH-37895 - [C++] 功能:支持连接记录批次。 (#37896)
- GH-37910 - [Java][集成] 实现 C 数据接口集成测试 (#38248)
- GH-37943 - [Java] 添加包含所有支持类型的 Parquet 文件 (#38249)
- GH-37979 - [C++] 添加对指定自定义数组开头和结尾分隔符到
arrow::PrettyPrintDelimiters
的支持 (#38187) - GH-38022 - [Java][FlightRPC] 在 FlightInfo 和 FlightEndpoint 上公开 app_metadata (#38331)
- GH-38024 - [Java][FlightRPC] 通过 JDBC ResultSet 公开 appMetadata (#38781)
- GH-38033 - [R] 允许
code()
返回包名称前缀。 (#38144) - GH-38042 - [C++][基准测试] 添加非流式编解码器压缩/解压缩 (#38067)
- GH-38117 - [C++][Parquet] 将 DictEncoder 析构函数检查更改为警告日志 (#38118)
- GH-38131 - [Swift][CI] 添加代码规范检查并修复代码规范错误 (#38133)
- GH-38153 - [C#] 公开 ArrayDataConcatenator.Concatenate (#38154)
- GH-38164 - [MATLAB] 将
arrow.array.Array
和arrow.array.ChunkedArray
上的Length
属性重命名为NumElements
(#38190) - GH-38166 - [MATLAB] 改进表格对象显示 (#38482)
- GH-38246 - [JAVA] 添加了新的 getTransferPair() 函数,该函数接受复杂类型向量的字段类型 (#38261)
- GH-38264 - [Java][打包] 添加 BOM 文件 (#38336)
- GH-38271 - [C++][Parquet] 支持读取具有多个 gzip 成员的 Parquet 文件 (#38272)
- GH-38300 - [开发][文档] 为当前的 merge_arrow_pr.py 更新 dev/README.md (#38301)
- GH-38310 - [MATLAB] 创建用于测试 MATLAB 接口的测试指南文档 (#38459)
- GH-38316 - [C#] 实现区间类型 (#39043)
- GH-38326 - [C++][Parquet] 检查解压缩后的页面大小与页面标头中的大小是否相同 (#38327)
- GH-38330 - [C++][Azure] 使用属性获取输入流元数据 (#38524)
- GH-38333 - [C++][FS][Azure] 实现文件写入 (#38780)
- GH-38335 - [C++] 为 Azure 文件系统中的单个文件实现
GetFileInfo
(#38505) - GH-38339 - [C++][CMake] 对系统 GoogleTest 使用传递依赖项 (#38340)
- GH-38341 - [Python] 删除 pandas 内部 DatetimeTZBlock 的使用 (#38321)
- GH-38346 - [C++][Parquet] 将新的加密文件用于页面索引加密测试 (#38347)
- GH-38348 - [C#] 使 PrimitiveArray
支持 IReadOnlyList<T?> (#38680) - GH-38351 - [C#] 为 Decimal128Array 添加 SqlDecimal 支持 (#38481)
- GH-38354 - [MATLAB] 为
arrow.array.ListArray
实现fromMATLAB
方法 (#38561) - GH-38361 - 为
arrow.array.ListArray.fromArrays
添加offsets
和values
的验证逻辑 (#38531) - GH-38376 - [R] : 为
Dataset
类添加dimnames
方法 (#38377) - GH-38381 - [C++][Acero] 创建排序合并节点 (#38380)
- GH-38398 - [MATLAB] 改进数组显示 (#38400)
- GH-38402 - [CI][集成] 为集成测试提供包装器脚本 (#38403)
- GH-38415 - [MATLAB] 向 C++ 数组代理类添加索引“切片”方法 (#38674)
- GH-38417 - [MATLAB] 实现一个
TableTypeValidator
类,用于验证 MATLABcell
数组仅包含具有相同架构的table
(#38551) - GH-38418 - [MATLAB] 添加将
arrow.tabular.Table
的一行提取为字符串的方法 (#38463) - GH-38419 - [MATLAB] 实现一个
ClassTypeValidator
类,用于验证 MATLABcell
数组仅包含相同类类型的值。 (#38530) - GH-38420 - [MATLAB] 实现一个
DatetimeValidator
类,用于验证 MATLABcell
数组仅包含带时区或不带时区的datetime
值 (#38533) - GH-38424 - [CI][C++] 使用 Fedora 38 代替 35 (#38425)
- GH-38452 - [C++][基准测试] 添加 LZ4/Snappy 压缩的基准测试 (#38453)
- GH-38457 - [C++] 支持 DictionaryArray 的 LogicalNullCount (#38681)
- GH-38460 - [Java][FlightRPC] 为 Flight SQL JDBC 驱动程序添加 mTLS 支持 (#38461)
- GH-38462 - [Go][Parquet] 处理布尔 RLE 编码/解码 (#38367)
- GH-38483 - [C#] 添加对更多十进制转换的支持 (#38508)
- GH-38506 - [Go][Parquet] 将 NumRows 和 RowGroupNumRows 添加到 pqarrow.FileWriter (#38507)
- GH-38511 - [Java] 为 StructVector 和 MapVector 添加 getTransferPair(Field, BufferAllocator, CallBack) (#38512)
- GH-38528 - [Python][计算] 描述 strptime 格式语义 (#38665)
- GH-38537 - [Java] 升级到 netty 4.1.100.Final (#38538)
- GH-38541 - [MATLAB] 添加关于 Arrow 表格对象显示的剩余测试 (#38564)
- GH-38542 - [C++][Parquet] 更快的标量 BYTE_STREAM_SPLIT (#38529)
- GH-38562 - [打包] 添加对 Ubuntu 23.10 的支持 (#38563)
- GH-38576 - [Java] 将 JDBC 驱动程序更改为在获取流时可选地保留 Cookie 和身份验证令牌 (#38580)
- GH-38578 - [Java][FlightSQL] 从 flight-sql 库中删除 joda 的使用 (#38579)
- GH-38589 - [C++][Gandiva] 支持注册外部 C 函数 (#38632)
- GH-38597 - [C++] 为 Azure 文件系统实现 GetFileInfo(selector) (#39009)
- GH-38602 - [R] 为 summarize 添加缺失的
prod
(#38601) - GH-38627 - [Java][FlightRPC] 处理空参数值 (#38628)
- GH-38648 - [Java] 重新生成 Flatbuffers (#38650)
- GH-38652 - [MATLAB] 添加关于将 MATLAB duration 转换为
arrow.array.Time32Array
和arrow.array.Time64Array
时保留时间精度的测试 (#38661) - GH-38662 - [Java] 添加比较器 (#38669)
- GH-38699 - [C++][FS][Azure] 实现
CreateDir()
(#38708) - GH-38700 - [C++][FS][Azure] 实现
DeleteDir()
(#38793) - GH-38701 - [C++][FS][Azure] 实现
DeleteDirContents()
(#38888) - GH-38702 - [C++] : 实现 AzureFileSystem::DeleteRootDirContents (#39151)
- GH-38705 - [C++][FS][Azure] 实现 CopyFile() (#39058)
- GH-38712 - [Python] 删除 _reconstruct_block 中的无效代码 (#38714)
- GH-38718 - [Go][格式][集成] 将 StringView/BinaryView 添加到 Go 实现 (#35769)
- GH-38732 - [Java][FlightRPC] 在 JDBC 中添加对数组参数绑定的支持 (#38733)
- GH-38751 - [C++][Go][Parquet] 在 parquet-testing 中添加读取 Float16 文件的测试 (#38753)
- GH-38757 - [C#] 为结构数组和记录批次实现通用接口 (#38759)
- GH-38758 - [C++][FS][Azure] 将 AzurePath 重命名为 AzureLocation (#38773)
- GH-38772 - [C++] 即使存储帐户不支持 HNS 也实现目录语义 (#39361)
- GH-38798 - [集成] 在 Rust 上启用 C 数据接口集成测试 (#38799)
- GH-38814 - [C++][Parquet] 更新 parquet.thrift 以与 2.10.0 同步 (#38815)
- GH-38824 - [Go] 启用 GC 检查 (#38826)
- GH-38836 - [Go] 为 ArrayData 添加 Size() (#38839)
- GH-38852 - [C++] 将数据集测试中的“#ifdef ARROW_WITH_GZIP”替换为 ARROW_WITH_ZLIB (#38853)
- GH-38857 - [Python] 修复 cython 2 的追加模式 (#39027)
- GH-38857 - [Python] 为 pyarrow.OsFile 添加追加模式 (#38820)
- GH-38860 - [C++][Parquet] 使用长度优化布隆过滤器读取 (#38863)
- GH-38870 - [文档] 将列表视图和大列表视图添加到 status.rst (#38871)
- GH-38874 - [C++][Parquet] 次要:将 parquet TypedComparator 操作设为 const 方法 (#38875)
- GH-38884 - [C++] 当分配写入失败时,DatasetWriter 释放 rows_in_flight_throttle (#38885)
- GH-38887 - [C++][Parquet] 将 EstimatedBufferedValueBytes 从 TypedColumnWriter 移动到 ColumnWriter (#39055)
- GH-38907 - [C++] 停止安装内部 bpacking_simd* 头文件 (#38908)
- GH-38909 - [打包] 放弃对 Ubuntu 23.04 的支持 (#38910)
- GH-38918 - [Go] 在某些地方避免 schema.Fields 分配 (#38919)
- GH-38920 - [C++][Gandiva] 重构函数持有者以返回 arrow Result (#38873)
- GH-38958 - [C++][Parquet] 修复拼写错误 (#38959)
- GH-38990 - [Java] 升级到 flatc 版本 23.5.26 (#38991)
- GH-38996 - [Java] 为 JPMS 模块更新依赖项和插件 (#38994)
- GH-39006 - [Python] 将 libparquet 依赖项从 libarrow_python.so 提取到新的 libarrow_python_parquet_encryption.so (#39316)
- GH-39013 - [Go][集成] 支持 StringView 的 cABI 导入/导出 (#39019)
- GH-39020 - [CI][发布][JS] 使用 Node.js 18 而不是 16 (#39021)
- GH-39028 - [Python][CI] 通过临时跳过 test_categorize_info 来修复 dask 集成构建 (#39029)
- GH-39037 - [Java] 删除 Flight SQL 中的(贡献/实验性)提及 (#39040)
- GH-39049 - [C++] 在测试中使用 Cast() 而不是 CastTo() 处理字典标量 (#39362)
- GH-39050 - [C++] 在测试中使用 Cast() 而不是 CastTo() 处理时间戳标量 (#39060)
- GH-39051 - [C++] 在测试中使用 Cast() 而不是 CastTo() 处理列表标量 (#39353)
- GH-39064 - [C++][Parquet] 支持结构字段嵌套路径的行组过滤 (#39065)
- GH-39088 - [开发][Java] 为 Java 添加 Dependabot 配置 (#39089)
- GH-39096 - [Python] 在 `.nbytes` 中释放 GIL (#39097)
- GH-39119 - [C++] 重构 Azure FS 测试和文件系统类实例化 (#39207)
- GH-39122 - [C++][Parquet] 优化 FLBA 记录读取器 (#39124)
- GH-39134 - 创建模块信息编译器插件 (#39135)
- GH-39159 - [C++] : 尝试使 Buffer::device_type_ 非可选 (#39150)
- GH-39170 - [Java] 改进解释 TestTls 失败原因的错误消息 (#39171)
- GH-39189 - [Java] 在 /java 中将 com.h2database:h2 从 1.4.196 升级到 2.2.224 (#39188)
- GH-39196 - [Python][文档] 在 Python 文档的“扩展 pyarrow”部分记录 Arrow PyCapsule 协议 (#39199)
- GH-39208 - [C++][Parquet] 删除已弃用的 AppendRowGroup(int64_t num_rows) (#39209)
- GH-39210 - [C++][Parquet] 避免 WriteRecordBatch 产生大小为零的 RowGroup (#39211)
- GH-39217 - [Python] 为实现 Arrow PyCapsule 协议的对象提供 RecordBatchReader.from_stream 构造函数 (#39218)
- GH-39223 - [C#] 在其余标量类型上支持 IReadOnlyList<T?> (#39224)
- GH-39225 - [GLib] 使用 Cast() 而不是 CastTo (#39228)
- GH-39232 - [C++] 支持 binary 到 fixed_size_binary 的转换 (#39236)
- GH-39243 - [R][CI] 删除 r-arrow conda nightly 版本 (#39244)
- GH-39246 - [CI][GLib][Ruby] 使用 Ubuntu 22.04 而不是 20.04 (#39247)
- GH-39262 - [C++][Azure][FS] 添加默认凭据身份验证配置 (#39263)
- GH-39265 - [Java] 使其与 netty 最新版本 4.1.104 兼容 (#39266)
- GH-39268 - [C++] 不要使用 CMake 3.28+ 安装捆绑的 Azure SDK for C++ (#39269)
- GH-39292 - [C++][FS] : 删除 AzureBackend 枚举并添加更灵活的连接选项 (#39293)
- GH-39297 - [C++][FS] : 在检查 HNS 支持时通知调用者容器不存在 (#39298)
- GH-39299 - [Java] 升级到 Avro 1.11.3 (#39300)
- GH-39303 - [Archery][基准测试] 允许设置 C++ 重复最小时间 (#39324)
- GH-39318 - [C++][FS][Azure] 添加工作负载身份验证配置 (#39319)
- GH-39320 - [C++][FS][Azure] 添加托管身份验证配置 (#39321)
- GH-39322 - [C++] 将参数转发到 ExceptionToStatus 一直到 Status::FromArgs (#39323)
- GH-39326 - [C++] DatasetWriterTestFixture.MaxRowsOneWriteBackpresure 测试不稳定 (#39379)
- GH-39328 - [Java] 将默认 getConsumer 设为公共 (#39329)
- GH-39335 - [C#] 支持使用 Grpc.Core.Channel 创建 FlightClient (#39348)
- GH-39339 - [C++] 添加 ForceCachedHierarchicalNamespaceSupport 以帮助测试 (#39340)
- GH-39341 - [C#] 支持 Utf8View、BinaryView 和 ListView (#39342)
- GH-39343 - [C++][FS][Azure] 添加客户端密钥身份验证配置 (#39346)
- GH-39355 - [Java] 改进 JdbcConsumer 异常 (#39356)
- GH-39357 - [C++] 减少 function.h 包含 (#39312)
- GH-39363 - [C++] 对 Parquet 使用 Cast() 而不是 CastTo() (#39364)
- GH-39413 - [C++][Parquet] 在 FLBA 上向量化解码 plain (#39414)
- GH-39419 - [C++][Parquet] 风格:使用 arrow::Buffer data_as api 而不是 reinterpret_cast (#39420)
- GH-39430 - [C++][ORC] 将 ORC 升级到 1.9.2 (#39431)
- GH-39449 - [C++] 隐式使用默认 Azure 凭据并显式支持匿名凭据 (#39450)
- GH-39484 - [Java] 在 JdbcToArrowUtils 中支持 256 位小数 (#39485)
- GH-39500 - [文档] 将 pydata-sphinx-theme 固定到 0.14 (#39501)
- GH-39515 - [Python] 将类型传递给 `MapType.from_arrays` (#39516)
- GH-39531 - [Python][CI] 跳过失败的 dask 测试:test_describe_empty 和 test_view (#39534)
- GH-39533 - [Python] NumPy 2.0 兼容性:删除 np.core 的使用 (#39535)
- GH-39537 - [打包][Python] 向 15.x 发布分支的安装要求添加 numpy<2 限制 (#39538)
- GH-39601 - [R] 当 TEST_OFFLINE_BUILD=true 时,不要下载 cmake (#39602)
- GH-39624 - [R][CI] 将 CMake 添加到 docker 文件并更新环境变量 (#39625)
- GH-39626 - [文档][R] 为 15.0.0 更新 NEWS.md
- PARQUET-2411 - [C++][Parquet] 允许通过 ByteArrayDictionaryRecordReader 读取字典而不读取数据 (#39153)