Apache Arrow 15.0.0 (2024年1月21日)
这是一个主要版本,涵盖了超过 1 个月的开发工作。
下载
贡献者
此版本包含来自 101 位不同贡献者的 536 次提交。
$ git shortlog -sn apache-arrow-14.0.2..apache-arrow-15.0.0
67 dependabot[bot]
42 Sutou Kouhei
31 Raúl Cumplido
27 Josh Soref
20 Antoine Pitrou
19 Felipe Oliveira Carvalho
19 mwish
18 Dewey Dunnington
17 James Duong
16 Curt Hagenlocher
16 Dominik Moritz
16 Joris Van den Bossche
15 Jacob Wujciak-Jens
14 Hyunseok Seo
12 Alenka Frim
10 Yue
10 sgilmore10
9 Matt Topol
8 Dane Pitkin
8 Diego Fernández Giraldo
8 Thomas Newton
6 Bryce Mecum
5 Jin Shang
5 Jonathan Keane
5 Kevin Gurney
4 Benjamin Kietzman
4 Gang Wu
3 Ben Harkins
3 Ivan Chesnov
3 Judah Rand
3 Lei Hou
3 Rossi(Ruoxi) Sun
3 Tim Schaub
3 abandy
2 Alfonso Subiotto Marqués
2 David Li
2 Divyansh200102
2 Eero Lihavainen
2 Francis
2 Gavin Murrison
2 JB Onofré
2 Jeremy Aguilon
2 John
2 Junming Chen
2 Laurent Goujon
2 Nic Crane
2 Peter Andreas Entschev
2 Rok Mihevc
2 Stas Stepanov
2 Tsutomu Katsube
2 Vibhatha Lakmal Abeykoon
1 Abram Fleishman
1 Anja Kefala
1 Atheel Massalha
1 Benjamin Schmidt
1 Bob Plotts
1 Bryan Cutler
1 Carl Jackson
1 ChinYikMing
1 Chris Larsen
1 Christian Holm Christensen
1 Dan Homola
1 Dan Stone
1 Danyaal Khan
1 Diogo Teles Sant'Anna
1 Dongjoon Hyun
1 Fatemah Panahi
1 Fernando Mayer
1 Fokko Driesprong
1 Hattonuri
1 Hendrik Makait
1 Jiaxing Liang
1 Jinpeng
1 John Garland
1 Kyle Barron
1 LucasG0
1 Maximilian Muecke
1 Miguel Pragier
1 Miles
1 Neal Richardson
1 Nick Hughes
1 Paul Spangler
1 Phillip LeBlanc
1 Pierre Moulon
1 Quang Hoang
1 Ravjot Brar
1 Tammy DiPrima
1 Will Jones
1 William Ayd
1 Yifeng-Sigma
1 david dali susanibar arce
1 davidhcoe
1 frazar
1 jiawei liang
1 loicalleyne
1 orgadish
1 panbingkun
1 prmoore77
1 shibei
1 zhipeng
1 谢天
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-14.0.2..apache-arrow-15.0.0
154 Sutou Kouhei
56 David Li
50 Antoine Pitrou
35 Joris Van den Bossche
30 Jacob Wujciak-Jens
24 Raúl Cumplido
22 Matt Topol
19 Curt Hagenlocher
18 Kevin Gurney
16 Benjamin Kietzman
16 Felipe Oliveira Carvalho
14 mwish
13 Dewey Dunnington
12 AlenkaF
7 Nic Crane
3 Weston Pace
2 Gang Wu
2 Jonathan Keane
1 Josh Soref
1 Rok Mihevc
1 Will Jones
1 dependabot[bot]
更新日志
Apache Arrow 15.0.0 (2024-01-21 08:00:00)
Bug 修复
-
GH-15192 - [C++] 重新引入针对联合类型的
case_when测试 (#39308) -
GH-32570 - [C++] 修复
ExecBatchBuilder在追加具有相同 id 的连续尾部行时可能超出缓冲区边界的问题 (#39234) - GH-32662 - [C#] 使文件和内存实现中的字典能够正确工作并支持集成测试 (#39146)
- GH-33475 - [Java] 为 JDBC 驱动程序中的 Prepared Statements 添加参数绑定 (#38404)
- GH-34532 - [Java][FlightSQL] 更改 JDBC 以处理多端点 (#38521)
- GH-34610 - [Java] 修复加载/传输 NullVector 时的 valueCount 和字段名 (#38973)
- GH-34890 - [C++][Python] 为 dictionary_encode(dictionary) 添加一个空操作内核 (#38349)
- GH-35497 - [C++] 使用最新标记版本的 flatbuffers (#38192)
- GH-36588 - [C#] 支持空列名并启用更多集成测试 (#39167)
- GH-36594 - [C++] 不要使用 MSVC_VERSION 来确定 -fms-compatibility-version (#36595)
- GH-36912 - [Java] 如果 JDBC 驱动程序看到空的 root,它会停止消费 roots (#38590)
- GH-37055 - [C++] 优化 Dictionary ChunkedArrays 的哈希内核 (#38394)
- GH-37657 - [JS] 使用 ts-node 运行 bin 脚本 (#38500)
- GH-37726 - [Swift][FlightSQL] 更新行为以与现有实现类似 (#37764)
- GH-37751 - [C++][Gandiva] 避免在 gandiva 中多次注册导出的函数 (#37752)
- GH-37796 - [C++][Acero] 修复 as-of-join 节点中由散乱输入引起的竞争条件 (#37839)
- GH-37884 - [Swift] 允许读取未对齐的 FlatBuffers 缓冲区 (#38635)
- GH-37969 - [C++][Parquet] 为 ParquetFileWriter 添加更多已关闭文件的检查 (#38390)
- GH-38096 - [Java] 带有元数据的 FlightStream 在关闭时可能导致错误 (#38110)
- GH-38198 - [Go] 修复 AuthenticateBasicToken 使其在代理后方可靠工作 (#38199)
- GH-38210 - [C++][FlightRPC] 添加缺失的 app_metadata 参数 (#38231)
- GH-38216 - [R] open_dataset(format = "json") 未被文档化 (#38258)
- GH-38242 - [Java] 修复 DenseUnionVector#getBufferSizeFor 不正确的内部结构核算 (#38305)
- GH-38254 - [Java] 为 char/binary vectors 添加可重用的缓冲区获取器 (#38266)
- GH-38268 - [Java] 禁用不稳定的 TestFlightSqlStreams (#38319)
- GH-38281 - [Go] 确保 CData 导入的数组在释放时被释放 (#38314)
- GH-38297 - [C#] 修复 .NET 4.7.2 的构建 (#38299)
- GH-38304 - [C++][Parquet] 修复 arrow-dataset-file-parquet-encryption-test 中的 Valgrind 内存泄漏 (#38306)
- GH-38307 - [CI] 移除 gemfury_clean.rb (#38308)
- GH-38318 - [Java][FlightRPC] 启用之前泄漏的测试 (#38719)
- GH-38323 - [CI][Python] 在 test-conda-python 上使用系统 gdb (#38324)
- GH-38363 - [Release][CI] 在 RC 分支上忽略 main/maintenance 分支的测试 (#38365)
- GH-38366 - [Java] 修复小于 4 字节缓冲区上的 Murmur 哈希 (#38368)
- GH-38378 - [C++][Parquet] 对于 OpenSSL 1.1 不要显式初始化 OpenSSL (#38379)
-
GH-38382 - [R] 在退出时显式清理
arrow_duck_connection()(#38495) - GH-38387 - [Java] 修复 TestAllTypes 的 JDK8 编译问题 (#38388)
- GH-38395 - [Go] 修复 decimal256 字符串函数中的舍入错误 (#38426)
- GH-38399 - [Go][Parquet] DeltaBitPack 解码器在 SetData 后重置 usedFirst (#38413)
- GH-38401 - [C++] 为 Skyhook 重新生成 flatbuffers C++ (#38405)
- GH-38436 - [R] 读取非 UTF-8 编码的 CSV 文件时出现段错误测试
- GH-38439 - [Java][CI] 为所有 Java CI Linux 作业使用 Eclipse Temurin (#38440)
- GH-38447 - [CI][Release] 不要使用 "|| {exit,continue}" (#38486)
- GH-38458 - [Go] 将 ValueLen 添加到 BinaryLike 接口 (#39242)
- GH-38470 - [CI][Integration] 安装 jpype 并构建 JNI c-data 以运行集成测试 (#39502)
- GH-38477 - [Go] 修复 decimal 128 舍入问题 (#38478)
- GH-38479 - [C++] 避免向 LZ4 帧解压器传递空指针 (#39125)
- GH-38503 - [Go][Parquet] 将 arrow 列写入器设为内部 (#38727)
- GH-38503 - [Go][Parquet] 改进使用 ArrowColumnWriter 的代码风格 (#38581)
- GH-38516 - [Go][Parquet] 追加新行组时增加写入的行数 (#38517)
- GH-38535 - [Python] 修复 S3FileSystem equals None 导致的段错误 (#39276)
- GH-38554 - [Release][Website] post-03-website.sh 未引用 current.date (#38555)
- GH-38556 - [C++] 为 i386 添加缺失的显式 size_t 类型转换 (#38557)
- GH-38594 - [Docs][C++][Gandiva] 文档化如何注册 Gandiva 外部函数 (#38763)
- GH-38599 - [Docs] 更新头文件 (#38696)
- GH-38614 - [Java] 为更多写入器添加 VarBinary 和 VarCharWriter 辅助方法 (#38631)
- GH-38624 - [C++] 修复:为 gtest 函数添加 TestingEqualOptions (#38642)
-
GH-38630 - [MATLAB]
arrow.array.BooleanArray的toMATLAB方法没有考虑切片偏移量 (#38636) - GH-38653 - [Packaging][Java][Python][Ruby] 将最低 macOS 版本提高到 10.15 Catalina,以允许在 C++17 中使用新的 API (#38677)
- GH-38683 - [Python][Docs] 更新 Time32Type 和 Time64Type 的文档字符串 (#39059)
- GH-38684 - [Integration] 尝试加强 C 数据接口测试 (#38846)
- GH-38697 - [C++][Gandiva] 使用 arrow io util 替换 gandiva 中的 std::filesystem::path (#38698)
- GH-38709 - [C++] 防止在 macOS 上定义 PREALLOCATE 预处理器 (#38760)
- GH-38711 - [CI] 为预览文档回滚 aws-cli (#38723)
- GH-38725 - [Java] Lz4CompressionCodec.java 中的解压未设置写入器索引 (#38840)
- GH-38728 - [Go] ipc: 将 lz4 解压缓冲区放回 sync.Pool (#38729)
- GH-38737 - [Java] 修复 JDBC 缓存 SqlInfo 值 (#38739)
- GH-38738 - [C++] 检查可变参数缓冲区的计数是否在边界内 (#38740)
- GH-38745 - [Integration] 修复大型集成测试 (#38746)
- GH-38762 - [R] CI 配置中的 R 和 RTools 版本不再是最新版本
-
GH-38764 - [Java] 澄清关于
--add-opens=java.base/java.nio=ALL-UNNAMED的警告 (#38765) - GH-38782 - [C++][FS][Azure] 对 CreateDir("/container", true) 不做任何操作 (#38783)
- GH-38795 - [Go] 修复 Timestamp 的 GetToTimeFunc 竞争问题 (#38797)
- GH-38811 - [R] 在 macos 上实际使用获取的 cmake (#39453)
- GH-38816 - [C#] 修复 StructArray 上的 IArrowRecord 实现 (#38827)
- GH-38823 - 修复 TestArrowReaderAdHoc.ReadFloat16Files 以使用新的未压缩文件 (#38825)
-
GH-38832 - [Java] 避免在
ci/scripts/java_build.sh中构建两次 (#38829) - GH-38844 - [C++] 将 S3FileSystem 的 s3 sdk 配置 "use_virtual_addressing" 导出到 arrow::fs::S3Options (#38858)
- GH-38851 - 网站:贡献链接无效
- GH-38879 - [C++][Gandiva] 修复 Gandiva to_date 函数对抑制错误参数的验证 (#38987)
- GH-38883 - [Docs] 修复结构体示例以显示隐藏子条目 (#38898)
- GH-38906 - [R] 改进 Windows CI 配置 (#38927)
- GH-38921 - [CI] 修复拼写错误 (#38922)
- GH-38925 - [CI] 修复拼写错误 (#38926)
- GH-38928 - [R] 修复拼写错误 (#38929)
- GH-38930 - [Java] 修复拼写错误 (#38931)
- GH-38932 - [GO] 修复拼写错误 (#38933)
- GH-38938 - [FlightRPC] 修复拼写错误 (#38939)
- GH-38940 - [Ruby] 修复拼写错误 (#38941)
- GH-38942 - [C#] 修复拼写错误 (#38943)
- GH-38944 - [Python] 修复拼写错误 (#38945)
- GH-38946 - [MATLAB] 修复拼写错误 (#38947)
- GH-38948 - [Swift] 修复拼写错误 (#38949)
- GH-38950 - [Docs] 修复拼写错误 (#38951)
- GH-38952 - [Format] 修复拼写错误 (#38953)
- GH-38954 - [Dev] 修复拼写错误 (#38955)
- GH-38956 - [Gandiva] 修复拼写错误 (#38957)
- GH-38960 - [C++] 修复拼写错误 (acero) (#38961)
- GH-38964 - [C++] 修复拼写错误 (compute) (#38965)
- GH-38966 - [C++] 修复拼写错误 (util) (#38967)
- GH-38968 - [C++] 修复拼写错误 (dataset) (#38969)
- GH-38971 - [C++] 修复拼写错误 (filesystem) (#38972)
- GH-38975 - [Dev] 修复拼写错误 (#38976)
- GH-38977 - [C++] 修复拼写错误 (#38978)
- GH-38979 - [C++] 修复拼写错误 (#38980)
- GH-38981 - [R][Release] 不在兼容版本发布时更新 version.json (#38982)
- GH-39014 - [Java] 在 Mac 系统上,与 KeychainStore 一起添加默认的 truststore (#39235)
- GH-39031 - [Docs] 从 contrib css 中移除拼写错误的规则 (#39032)
- GH-39045 - [C++][Acero] union 节点的输出批次应为无序 (#39046)
- GH-39113 - [Integration][Flight][Java] 修复启动 Java 服务器时偶尔出现的失败 (#39115)
- GH-39116 - [Go] 修复 CI Staticcheck (#39117)
- GH-39126 - [C++][CI] 修复 Valgrind 失败 (#39127)
- GH-39130 - [CI][GLib][Windows] 使用旧版 Ruby 作为加载错误的临时解决方案 (#39168)
- GH-39136 - [C++] 移除在使用 -DARROW_HDFS=ON 时不必要的系统 Protobuf 依赖 (#39137)
- GH-39138 - [R] 修复隐式转换警告 (#39250)
- GH-39156 - [C++][Compute] 修复负持续时间除法 (#39158)
- GH-39163 - [C++] 在 StreamDecoder::Consume(data) 中添加缺失的数据复制 (#39164)
-
GH-39185 - [C++] 移除公共头文件中带有
-Wconversion -Wno-sign-conversion的编译器警告 (#39186) -
GH-39191 - [R] 当
string_replace的pattern参数被传递一个值的向量时,抛出错误 (#39219) - GH-39238 - [Go] PATCH 阻止将空记录追加到空结果集 (#39239)
- GH-39288 - [Java][FlightSQL] 更新 Apache Avatica 至版本 1.24.0 (#39325)
- GH-39306 - [C++][Benchmarking] 移除硬编码的最小时间 (#39307)
- GH-39327 - [Java] 为新的自定义 maven 插件项目定义 assemble descriptor (#39331)
- GH-39333 - [C++] 不在 lambda 中使用 "if constexpr" (#39334)
- GH-39359 - [CI][C++] 移除 MinGW MINGW32 C++ 作业 (#39376)
- GH-39384 - [C++] 对 Azure SDK 的 identity.hpp 禁用 -Werror=attributes (#39448)
- GH-39387 - [C++] 修复编译警告 (#39389)
- GH-39421 - [CI][Ruby] 在 test-ruby 和 test-c-glib 夜间作业中更新为使用 Ubuntu 22.04 (#39422)
- GH-39423 - [CI][JS] TypeScript:多个 CI 作业在执行 yarn build 时编译失败
- GH-39425 - [CI] 修复导入以匹配新的 substrait 仓库结构 (#39426)
- GH-39433 - [Ruby] 添加对 Table.load(format: json) 选项的支持 (#39464)
- GH-39437 - [CI][Python] 更新在 pandas 夜间 CI 构建中失败的 pandas 测试 (#39498)
- GH-39468 - [Java] 修复文档的网站构建 (#39471)
- GH-39469 - [CI][JS] 在 arm64 上强制使用 node 20 以修复 JS 构建问题 (#39499)
- GH-39488 - [Ruby] 在 Ractor 中添加对 ChunkedArray 的支持 (#39490)
- GH-39517 - [C++] 为 jemalloc 外部项目禁用并行性 (#39522)
- GH-39562 - [C++][Parquet] 修复 test_parquet_dataset_lazy_filtering 中的崩溃 (#39632)
- GH-39564 - [CI][Java] 在 Java BOM 上设置正确的版本 (#39580)
- GH-39584 - [R] 优雅地回退到源码 (#39587)
- GH-39588 - [CI][Go] 将 CGO_ENABLED=1 添加到 cdata_integration 构建中,以修复使用 conda 的 macOS 构建 (#39589)
- GH-39598 - [C#] 修复验证脚本 (#39605)
- GH-39604 - [JS] 暂时不使用可调整大小的缓冲区 (#39607)
- GH-39628 - [C++] 当使用 CMake >= 3.28 时,为所有基于 `make` 的 externalProjects 禁用并行性
新功能和改进
- GH-14936 - [Java] 从 arrow-vector 中移除 netty 依赖 (#38493)
- GH-28994 - [C++][JSON] 将最大行数更改为无限 (int_32) (#38582)
- GH-30117 - [C++][Python] 当定义了时区时,在时间戳打印字符串末尾添加 "Z" (#39272)
- GH-30717 - [C#] 为 Arrow 类添加 ToString() 方法 (#36566)
- GH-31303 - [Python] 移除旧的基于 Python 的 ParquetDataset 自定义实现 (#39112)
- GH-31579 - [C#] : 移除不再支持的 .NET 版本并更新 C# README (#39165)
-
GH-33500 - [Python] 添加
Table.to/from_struct_array(#38520) - GH-33984 - [C++][Python] Arrow Arrays 的 DLPack 实现 (生产者) (#38472)
- GH-34316 - [Python] FixedSizeListArray.from_arrays 支持 mask 参数 (#39396)
- GH-34569 - [C++] 游程编码 (Run-End Encoded) 数组的差异比较 (#35003)
- GH-34636 - [C#] 使用 ArrayPool 时减少内存分配 (#39166)
- GH-35260 - [C++][Python][R] 允许用户通过环境变量调整 S3 日志级别 (#38267)
- GH-35331 - [Python] 暴露 Parquet 排序元数据 (#37665)
- GH-35344 - [C++][Format] 实现 LIST_VIEW 和 LARGE_LIST_VIEW 数组格式 (#35345)
- GH-35560 - [C++] 在测试中用 Cast() 代替 CastTo() 用于标量 (#39044)
- GH-36036 - [C++][Python][Parquet] 实现 Float16 逻辑类型 (#36073)
- GH-36044 - [Python][Docs] 将 ParquetFileFragment 添加到 API 参考文档中 (#38277)
- GH-36099 - [C++] 将 Utf8View 和 BinaryView 添加到 c ABI (#38443)
-
GH-36441 - [Python] 使
CacheOptions可从 Python 配置 (#36627) - GH-36760 - [Go] 添加 Avro OCF 读取器 (#37115)
- GH-36815 - [C#] : 在 Windows 下启用 net472 测试 (#36818)
- GH-36898 - [CI] 对敏感的 GitHub Actions 进行哈希固定 (#37676)
- GH-37002 - [C++][Parquet] 添加从 RowGroupReader 获取 RecordReader 的 API (#37003)
- GH-37061 - [Docs][Format] 澄清 FSQL 中 GetSchema 的语义 (#38549)
- GH-37199 - [C++] 为 Buffer 和 ArraySpan 暴露一个 span 转换器 (#38027)
- GH-37242 - [Python][Parquet] Parquet 支持写入和验证页面 CRC (#38360)
- GH-37312 - [Python][Docs] 更新 Python 文档字符串以反映新的 parquet 编码选项 (#38070)
- GH-37359 - [C#] 为 Decimal128Array 和 Decimal256Array 添加 ToList() 方法 (#37383)
- GH-37378 - [C++] 为 DictionaryArray 添加一个字典压缩函数 (#37418)
- GH-37429 - [C++] 添加 arrow::ipc::StreamDecoder::Reset() (#37970)
- GH-37511 - [C++] 实现 Azure 文件系统的文件读取 (#38269)
- GH-37582 - [Go][Parquet] 实现 Float16 逻辑类型 (#37599)
-
GH-37592 - [MATLAB] 为
arrow.tabular.RecordBatch添加NumRows属性 (#38215) - GH-37710 - [C++][Integration] 添加 C++ Utf8View 实现 (#37792)
- GH-37753 - [C++][Gandiva] 添加外部函数注册表支持 (#38116)
-
GH-37812 - [MATLAB] 添加
arrow.type.ListTypeMATLAB 类 (#38189) -
GH-37815 - [MATLAB] 添加
arrow.array.ListArrayMATLAB 类 (#38357) - GH-37848 - [C++][Gandiva] 将 LLVM JIT 引擎从 MCJIT 迁移到 ORC v2/LLJIT (#39098)
- GH-37857 - [Python][Dataset] 向 python dataset 暴露文件大小 (#37868)
- GH-37889 - [Java][Doc] 改进 JDBC 驱动程序文档 (#38469)
- GH-37895 - [C++] 功能:支持连接 recordbatches (#37896)
- GH-37910 - [Java][Integration] 实现 C 数据接口集成测试 (#38248)
- GH-37943 - [Java] 添加包含所有支持类型的 parquet 文件 (#38249)
-
GH-37979 - [C++] 添加支持为
arrow::PrettyPrintDelimiters指定自定义数组的开始和结束分隔符 (#38187) - GH-38022 - [Java][FlightRPC] 在 FlightInfo 和 FlightEndpoint 上暴露 app_metadata (#38331)
- GH-38024 - [Java][FlightRPC] 通过 JDBC ResultSet 暴露 appMetadata (#38781)
-
GH-38033 - [R] 允许
code()返回包名前缀 (#38144) - GH-38042 - [C++][Benchmark] 添加非流式编解码器压缩/解压缩的基准测试 (#38067)
- GH-38117 - [C++][Parquet] 将 DictEncoder 析构函数检查更改为警告日志 (#38118)
- GH-38131 - [Swift][CI] 添加代码风格检查并修复错误 (#38133)
- GH-38153 - [C#] 暴露 ArrayDataConcatenator.Concatenate (#38154)
-
GH-38164 - [MATLAB] 将
arrow.array.Array和arrow.array.ChunkedArray上的Length属性重命名为NumElements(#38190) - GH-38166 - [MATLAB] 改进表格对象的显示 (#38482)
- GH-38246 - [JAVA] 为复杂类型向量添加了新的 getTransferPair() 函数,该函数接受一个 Field 类型 (#38261)
- GH-38264 - [Java][Packaging] 添加 BOM 文件 (#38336)
- GH-38271 - [C++][Parquet] 支持读取包含多个 gzip 成员的 parquet 文件 (#38272)
- GH-38300 - [Dev][Docs] 更新 dev/README.md 以适应当前的 merge_arrow_pr.py (#38301)
- GH-38310 - [MATLAB] 为测试 MATLAB 接口创建测试指南文档 (#38459)
- GH-38316 - [C#] 实现区间类型 (#39043)
- GH-38326 - [C++][Parquet] 检查解压后的页面大小是否与页面头中的大小相同 (#38327)
- GH-38330 - [C++][Azure] 使用属性作为输入流元数据 (#38524)
- GH-38333 - [C++][FS][Azure] 实现文件写入 (#38780)
-
GH-38335 - [C++] 为 Azure 文件系统实现单个文件的
GetFileInfo(#38505) - GH-38339 - [C++][CMake] 对系统 GoogleTest 使用传递性依赖 (#38340)
- GH-38341 - [Python] 移除对 pandas 内部 DatetimeTZBlock 的使用 (#38321)
- GH-38346 - [C++][Parquet] 为页面索引加密测试使用新的加密文件 (#38347)
-
GH-38348 - [C#] 使 PrimitiveArray
支持 IReadOnlyList<T?> (#38680) - GH-38351 - [C#] 为 Decimal128Array 添加 SqlDecimal 支持 (#38481)
-
GH-38354 - [MATLAB] 为
arrow.array.ListArray实现fromMATLAB方法 (#38561) -
GH-38361 - 为
arrow.array.ListArray.fromArrays的offsets和values添加验证逻辑 (#38531) -
GH-38376 - [R] : 为
Dataset类添加dimnames方法 (#38377) - GH-38381 - [C++][Acero] 创建一个排序合并节点 (#38380)
- GH-38398 - [MATLAB] 改进数组显示 (#38400)
- GH-38402 - [CI][Integration] 为集成测试提供包装脚本 (#38403)
- GH-38415 - [MATLAB] 为 C++ Array Proxy 类添加索引 "slice" 方法 (#38674)
-
GH-38417 - [MATLAB] 实现一个
TableTypeValidator类,用于验证 MATLABcell数组只包含共享相同 schema 的table(#38551) -
GH-38418 - [MATLAB] 添加将
arrow.tabular.Table的一行提取为字符串的方法 (#38463) -
GH-38419 - [MATLAB] 实现一个
ClassTypeValidator类,用于验证 MATLABcell数组只包含相同类类型的值 (#38530) -
GH-38420 - [MATLAB] 实现一个
DatetimeValidator类,用于验证 MATLABcell数组只包含带时区或不带时区的datetime值 (#38533) - GH-38424 - [CI][C++] 使用 Fedora 38 代替 35 (#38425)
- GH-38452 - [C++][Benchmark] 添加 LZ4/Snappy 压缩的基准测试 (#38453)
- GH-38457 - [C++] 支持 DictionaryArray 的 LogicalNullCount (#38681)
- GH-38460 - [Java][FlightRPC] 为 Flight SQL JDBC 驱动程序添加 mTLS 支持 (#38461)
- GH-38462 - [Go][Parquet] 处理布尔 RLE 编码/解码 (#38367)
- GH-38483 - [C#] 添加对更多 decimal 类型转换的支持 (#38508)
- GH-38506 - [Go][Parquet] 向 pqarrow.FileWriter 添加 NumRows 和 RowGroupNumRows (#38507)
- GH-38511 - [Java] 为 StructVector 和 MapVector 添加 getTransferPair(Field, BufferAllocator, CallBack) (#38512)
- GH-38528 - [Python][Compute] 描述 strptime 格式语义 (#38665)
- GH-38537 - [Java] 升级到 netty 4.1.100.Final (#38538)
- GH-38541 - [MATLAB] 为 arrow 表格对象显示添加剩余的测试 (#38564)
- GH-38542 - [C++][Parquet] 更快的标量 BYTE_STREAM_SPLIT (#38529)
- GH-38562 - [Packaging] 添加对 Ubuntu 23.10 的支持 (#38563)
- GH-38576 - [Java] 更改 JDBC 驱动程序以在获取流时可选择性地保留 cookies 和 auth 令牌 (#38580)
- GH-38578 - [Java][FlightSQL] 从 flight-sql 库中移除 joda 的使用 (#38579)
- GH-38589 - [C++][Gandiva] 支持注册外部 C 函数 (#38632)
- GH-38597 - [C++] 为 Azure 文件系统实现 GetFileInfo(selector) (#39009)
-
GH-38602 - [R] 为 summarize 添加缺失的
prod(#38601) - GH-38627 - [Java][FlightRPC] 处理空参数值 (#38628)
- GH-38648 - [Java] 重新生成 Flatbuffers (#38650)
-
GH-38652 - [MATLAB] 添加关于将 MATLAB duration 转换为
arrow.array.Time32Array和arrow.array.Time64Array时时间精度保留的测试 (#38661) - GH-38662 - [Java] 添加比较器 (#38669)
-
GH-38699 - [C++][FS][Azure] 实现
CreateDir()(#38708) -
GH-38700 - [C++][FS][Azure] 实现
DeleteDir()(#38793) -
GH-38701 - [C++][FS][Azure] 实现
DeleteDirContents()(#38888) - GH-38702 - [C++] : 实现 AzureFileSystem::DeleteRootDirContents (#39151)
- GH-38705 - [C++][FS][Azure] 实现 CopyFile() (#39058)
- GH-38712 - [Python] 移除 _reconstruct_block 中的无效代码 (#38714)
- GH-38718 - [Go][Format][Integration] 为 Go 实现添加 StringView/BinaryView (#35769)
- GH-38732 - [Java][FlightRPC] 在 JDBC 中添加对数组参数绑定的支持 (#38733)
- GH-38751 - [C++][Go][Parquet] 在 parquet-testing 中添加读取 Float16 文件的测试 (#38753)
- GH-38757 - [C#] 为结构数组和记录批次实现通用接口 (#38759)
- GH-38758 - [C++][FS][Azure] 将 AzurePath 重命名为 AzureLocation (#38773)
- GH-38772 - [C++] 即使存储帐户不支持 HNS,也实现目录语义 (#39361)
- GH-38798 - [Integration] 在 Rust 上启用 C 数据接口集成测试 (#38799)
- GH-38814 - [C++][Parquet] 更新 parquet.thrift 以与 2.10.0 同步 (#38815)
- GH-38824 - [Go] 启用 GC 检查 (#38826)
- GH-38836 - [Go] 为 ArrayData 添加 Size() (#38839)
- GH-38852 - [C++] 将 dataset 测试中的 "#ifdef ARROW_WITH_GZIP" 替换为 ARROW_WITH_ZLIB (#38853)
- GH-38857 - [Python] 修复 cython 2 的追加模式 (#39027)
- GH-38857 - [Python] 为 pyarrow.OsFile 添加追加模式 (#38820)
- GH-38860 - [C++][Parquet] 使用长度优化布隆过滤器读取 (#38863)
- GH-38870 - [Documentation] 将 List View 和 Large List View 添加到 status.rst (#38871)
- GH-38874 - [C++][Parquet] 小改进:将 parquet TypedComparator 操作设为 const 方法 (#38875)
- GH-38884 - [C++] DatasetWriter 在分配写入失败时释放 rows_in_flight_throttle (#38885)
- GH-38887 - [C++][Parquet] 将 EstimatedBufferedValueBytes 从 TypedColumnWriter 移动到 ColumnWriter (#39055)
- GH-38907 - [C++] 停止安装内部 bpacking_simd* 头文件 (#38908)
- GH-38909 - [Packaging] 放弃对 Ubuntu 23.04 的支持 (#38910)
- GH-38918 - [Go] 避免在某些地方分配 schema.Fields (#38919)
- GH-38920 - [C++][Gandiva] 重构函数持有者以返回 arrow Result (#38873)
- GH-38958 - [C++][Parquet] 修复拼写错误 (#38959)
- GH-38990 - [Java] 升级到 flatc 版本 23.5.26 (#38991)
- GH-38996 - [Java] 为 JPMS 模块更新依赖项和插件 (#38994)
- GH-39006 - [Python] 将 libparquet 依赖项从 libarrow_python.so 提取到新的 libarrow_python_parquet_encryption.so 中 (#39316)
- GH-39013 - [Go][Integration] 支持 StringView 的 cABI 导入/导出 (#39019)
- GH-39020 - [CI][Release][JS] 使用 Node.js 18 代替 16 (#39021)
- GH-39028 - [Python][CI] 通过暂时跳过 test_categorize_info 来修复 dask 集成构建 (#39029)
- GH-39037 - [Java] 移除 Flight SQL 中的 (Contrib/Experimental) 提及 (#39040)
- GH-39049 - [C++] 在测试中使用 Cast() 代替 CastTo() 用于 Dictionary 标量 (#39362)
- GH-39050 - [C++] 在测试中使用 Cast() 代替 CastTo() 用于 Timestamp 标量 (#39060)
- GH-39051 - [C++] 在测试中使用 Cast() 代替 CastTo() 用于 List 标量 (#39353)
- GH-39064 - [C++][Parquet] 支持对结构字段的嵌套路径进行行组过滤 (#39065)
- GH-39088 - [Dev][Java] 为 Java 添加 Dependabot 配置 (#39089)
-
GH-39096 - [Python] 在
.nbytes中释放 GIL (#39097) - GH-39119 - [C++] 重构 Azure FS 测试和文件系统类实例化 (#39207)
- GH-39122 - [C++][Parquet] 优化 FLBA 记录读取器 (#39124)
- GH-39134 - 创建模块信息编译器插件 (#39135)
- GH-39159 - [C++] : 尝试使 Buffer::device_type_ 成为非可选的 (#39150)
- GH-39170 - [Java] 改进解释 TestTls 为何可能失败的错误消息 (#39171)
- GH-39189 - [Java] 在 /java 中将 com.h2database:h2 从 1.4.196 升级到 2.2.224 (#39188)
- GH-39196 - [Python][Docs] 在 Python 文档的 'extending pyarrow' 部分中记录 Arrow PyCapsule 协议 (#39199)
- GH-39208 - [C++][Parquet] 移除已弃用的 AppendRowGroup(int64_t num_rows) (#39209)
- GH-39210 - [C++][Parquet] 避免 WriteRecordBatch 产生零大小的 RowGroup (#39211)
- GH-39217 - [Python] 为实现 Arrow PyCapsule 协议的对象提供 RecordBatchReader.from_stream 构造函数 (#39218)
- GH-39223 - [C#] 在剩余的标量类型上支持 IReadOnlyList<T?> (#39224)
- GH-39225 - [GLib] 使用 Cast() 代替 CastTo (#39228)
- GH-39232 - [C++] 支持 binary 到 fixed_size_binary 的转换 (#39236)
- GH-39243 - [R][CI] 移除 r-arrow conda 夜间构建 (#39244)
- GH-39246 - [CI][GLib][Ruby] 使用 Ubuntu 22.04 而不是 20.04 (#39247)
- GH-39262 - [C++][Azure][FS] 添加默认凭证认证配置 (#39263)
- GH-39265 - [Java] 使其能与最新版本 netty 4.1.104 良好运行 (#39266)
- GH-39268 - [C++] 使用 CMake 3.28+ 时不安装绑定的 Azure SDK for C++ (#39269)
- GH-39292 - [C++][FS] : 移除 AzureBackend 枚举并添加更灵活的连接选项 (#39293)
- GH-39297 - [C++][FS] : 在检查 HNS 支持时,通知调用者容器不存在 (#39298)
- GH-39299 - [Java] 升级到 Avro 1.11.3 (#39300)
- GH-39303 - [Archery][Benchmarking] 允许设置 C++ 重复最小时间 (#39324)
- GH-39318 - [C++][FS][Azure] 添加工作负载身份认证配置 (#39319)
- GH-39320 - [C++][FS][Azure] 添加托管身份认证配置 (#39321)
- GH-39322 - [C++] 将参数一直转发到 ExceptionToStatus,直至 Status::FromArgs (#39323)
- GH-39326 - [C++] 不稳定的 DatasetWriterTestFixture.MaxRowsOneWriteBackpresure 测试 (#39379)
- GH-39328 - [Java] 将默认的 getConsumer 设为 public (#39329)
- GH-39335 - [C#] 支持使用 Grpc.Core.Channel 创建 FlightClient (#39348)
- GH-39339 - [C++] 添加 ForceCachedHierarchicalNamespaceSupport 以帮助测试 (#39340)
- GH-39341 - [C#] 支持 Utf8View, BinaryView 和 ListView (#39342)
- GH-39343 - [C++][FS][Azure] 添加客户端密钥认证配置 (#39346)
- GH-39355 - [Java] 改进 JdbcConsumer 异常 (#39356)
- GH-39357 - [C++] 减少 function.h 的包含 (#39312)
- GH-39363 - [C++] 为 Parquet 使用 Cast() 而不是 CastTo() (#39364)
- GH-39413 - [C++][Parquet] 对 FLBA 上的 plain 解码进行向量化 (#39414)
- GH-39419 - [C++][Parquet] 代码风格:使用 arrow::Buffer data_as API 而不是 reinterpret_cast (#39420)
- GH-39430 - [C++][ORC] 将 ORC 升级到 1.9.2 (#39431)
- GH-39449 - [C++] 隐式使用默认 Azure 凭证并显式支持匿名凭证 (#39450)
- GH-39484 - [Java] 在 JdbcToArrowUtils 中支持 256 位 decimals (#39485)
- GH-39500 - [Docs] 将 pydata-sphinx-theme 固定到 0.14 版本 (#39501)
-
GH-39515 - [Python] 将类型传递给
MapType.from_arrays(#39516) - GH-39531 - [Python][CI] 跳过失败的 dask 测试:test_describe_empty 和 test_view (#39534)
- GH-39533 - [Python] NumPy 2.0 兼容性:移除对 np.core 的使用 (#39535)
- GH-39537 - [Packaging][Python] 为 15.x 发布分支的安装要求添加一个 numpy<2 的版本限制 (#39538)
- GH-39601 - [R] 当 TEST_OFFLINE_BUILD=true 时不下载 cmake (#39602)
- GH-39624 - [R][CI] 将 CMake 添加到 docker 文件并更新环境变量 (#39625)
- GH-39626 - [Docs][R] 为 15.0.0 更新 NEWS.md
- PARQUET-2411 - [C++][Parquet] 允许通过 ByteArrayDictionaryRecordReader 在不读取数据的情况下读取字典 (#39153)