Apache Arrow 11.0.0 (2023年1月26日)
这是一个涵盖超过3个月开发的主要版本。
下载
贡献者
此版本包含来自 95 位不同贡献者的 516 次提交。
$ git shortlog -sn apache-arrow-10.0.0..apache-arrow-11.0.0
83 Sutou Kouhei
35 Matt Topol
28 Raúl Cumplido
25 Dewey Dunnington
21 Alenka Frim
21 Antoine Pitrou
20 Jacob Wujciak-Jens
17 David Li
17 Miles Granger
16 Weston Pace
15 Joris Van den Bossche
15 Will Jones
14 Nic Crane
10 Neal Richardson
10 Vibhatha Lakmal Abeykoon
9 rtpsw
8 eitsupi
7 Ben Harkins
7 Jin Shang
6 Alessandro Molina
6 Bryce Mecum
6 Fatemah Panahi
6 Gang Wu
6 Larry White
6 mwish
5 gf2121
4 David Sisson
4 Hirokazu SUZUKI
4 LouisClt
3 0x26res
3 Rok Mihevc
3 h-vetinari
2 Austin Dickey
2 Benson Muite
2 Jonathan Keane
2 Kshiteej K
2 Libor Ryšavý
2 Nikita Eshkeev
2 Percy Camilo Triveño Aucahuasi
2 Sasha Krassovsky
2 Todd Farmer
2 Yibo Cai
2 buaazhwb
2 dependabot[bot]
2 lafiona
1 0xflotus
1 André Kohn
1 Anja Kefala
1 Benjamin Kietzman
1 Daniel Sullivan
1 Danielle Navarro
1 Dean Attali
1 Dhulkifli Hussein
1 Dominik Moritz
1 Dongjoon Hyun
1 Dr. Jan-Philip Gehrcke
1 ElenaHenderson
1 Felipe Oliveira Carvalho
1 Frederick Jansen
1 Hadley Wickham
1 Ian Cook
1 JacekPliszka
1 JiaKe
1 Jianshen Liu
1 Jonas Haag
1 Joost Hoozemans
1 Julien Roncaglia
1 Kae S
1 Kazuaki Ishizaki
1 Kyle Barron
1 Laurent Quérel
1 Lionel Henry
1 Mark Schreiber
1 Matti Picus
1 Noah Treuhaft
1 Paul Taylor
1 Pierre Gramme
1 Quang Hoang
1 Sahaj Gupta
1 Sanjiban Sengupta
1 Sho Nakatani
1 Siddhant Rao
1 Tamas Mate
1 Tao He
1 Thomas Sarlandie
1 Tomek Drabas
1 William Ayd
1 Y
1 Yue
1 emkornfield
1 fdzuJ
1 kambhamvivekshankar
1 lukester1975
1 martin-kokos
1 zagto
补丁提交者
以下 Apache 提交者将贡献的补丁合并到代码库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-10.0.0..apache-arrow-11.0.0
148 Sutou Kouhei
89 Antoine Pitrou
50 Joris Van den Bossche
36 David Li
36 Matt Topol
34 Weston Pace
24 Dewey Dunnington
24 Nic Crane
16 Jacob Wujciak-Jens
13 Will Jones
8 Neal Richardson
6 Raúl Cumplido
6 Yibo Cai
4 Alessandro Molina
4 Rok Mihevc
3 Dominik Moritz
3 Jonathan Keane
2 Alenka Frim
1 Micah Kornfield
1 dependabot[bot]
更新日志
Apache Arrow 11.0.0 (2023-01-25 08:00:00)
新功能和改进
- ARROW-4709 - [C++] 优化有序 JSON 字段 (#14100)
- ARROW-11776 - [C++][Java] 支持从 ArrowReader 将 parquet 写入文件 (#14151)
- ARROW-13938 - [C++] 日期和日期时间类型应自动从字符串转换
- ARROW-13980 - [Go] 实现 Scalar ApproxEquals (#14543)
- ARROW-14161 - [C++][文档] 改进 Parquet C++ 文档 (#14018)
- ARROW-14832 - [R] 为 stringr::str_remove 和 stringr::str_remove_all 实现绑定 (#14644)
- ARROW-14999 - [C++] map 和 list 类型的可选字段名称相等性检查 (#14847)
- ARROW-15006 - [Python][文档] 向 CI 添加五个 numpydoc 检查 (#15214)
- ARROW-15006 - [Python][CI][文档] 启用 numpydoc 检查 PR03 (#13983)
- ARROW-15206 - [Ruby] 添加对
Arrow::Table.load(uri, schema:)
的支持 (#15148) - ARROW-15460 - [R] 添加 as.data.frame.Dataset 方法 (#14461)
- ARROW-15470 - [R] 在 CSV 写入器中设置空值 (#14679)
- ARROW-15538 - [C++] 将 Substrait 到 Acero 的数学函数覆盖范围扩大 (#14434)
- ARROW-15592 - [C++] 在 substrait::PlanRel 中添加对自定义输出字段名称的支持 (#14292)
- ARROW-15691 - [开发] 更新 archery 以使用 master 或 main 作为默认分支 (#14033)
- ARROW-15732 - [C++] 当 use_threads 为 false 时,不要在执行计划中使用任何 CPU 线程 (#15104)
- ARROW-15812 - [R] 在 open_dataset 中接受 CSV 的 col_names (#14705)
- ARROW-16266 - [R] 添加 StructArray$create() (#14922)
- ARROW-16337 - [Python] 公开标志以启用/禁用在 Parquet 元数据中存储 Arrow 模式 (#13000)
- ARROW-16430 - [Python] 添加对读取记录批自定义元数据 API 的支持 (#13041)
- ARROW-16480 - [R] 更新 read_csv_arrow 和 open_dataset parse_options、read_options 和 convert_options 以接受列表 (#15270)
- ARROW-16616 - [Python] 添加惰性 Dataset.filter() 方法 (#13409)
- ARROW-16673 - [Java] 将 C 数据集成到分配器层次结构中 (#14506)
- ARROW-16728 - [Python] 当传递旧文件系统时,ParquetDataset 仍然采用旧代码路径 (#15269)
- ARROW-16728 - [Python] 在 ParquetDataset 中切换默认值并弃用 use_legacy_dataset=True (#14052)
- ARROW-16782 - [格式] 将 REE 定义添加到 FlatBuffers (#14176)
- ARROW-17025 - [开发] 从合并提交消息中删除 github 用户名链接 (#14458)
- ARROW-17144 - [C++][Gandiva] 添加 sqrt 函数 (#13656)
- ARROW-17187 - [R] 改进字符串的惰性 ALTREP 实现 (#14271)
- ARROW-17212 - [Python] 支持惰性 Dataset.filter
- ARROW-17301 - [C++] 实现计算函数“binary_slice” (#14550)
- ARROW-17302 - [R] 为 S3 配置 curl 超时策略 (#15166)
- ARROW-17360 - [Python] pyarrow.feather.read_table 中列的顺序 (#14528)
- ARROW-17416 - [R] 实现 lubridate::with_tz 和 lubridate::force_tz
- ARROW-17425 - [R]
lubridate::as_datetime()
在 dplyr 查询中应该能够处理亚秒级的时间 (#13890) - ARROW-17462 - [R] 在表达式构建中将标量转换为字段类型 (#13985)
- ARROW-17509 - [C++] 通过消除调用 End 的需要来简化异步调度程序 (#14524)
- ARROW-17520 - [C++] 实现 SubStrait SetRel (UnionAll) (#14186)
- ARROW-17610 - [C++] 在 SourceNode 中支持其他源类型 (#14207)
- ARROW-17613 - [C++] 为预配置的内核添加函数执行 API (#14043)
- ARROW-17640 - [C++] 为 Substrait Read 中的 GlobFile 处理添加文件处理测试用例 (#14132)
- ARROW-17662 - [R] 促进从二进制文件进行离线安装 (#14086)
- ARROW-17726 - [CI] 在更多构建上启用 sccache
- ARROW-17731 - [网站] 添加关于 Flight SQL JDBC 驱动程序的博客文章
- ARROW-17732 - [文档][Java] 添加最少的 JDBC 驱动程序文档 (#14137)
- ARROW-17751 - [Go][基准测试] 添加 Go 基准测试脚本 (#14148)
- ARROW-17777 - [开发] 更新拉取请求合并脚本以使用 master 或 main
- ARROW-17798 - [C++][Parquet] 将 DELTA_BINARY_PACKED 编码器添加到 Parquet 写入器 (#14191)
- ARROW-17812 - [Gandiva][文档] 添加 C++ Gandiva 用户指南 (#14200)
- ARROW-17825 - [C++] 允许在 ORCFileWriter 中写入多个表 (#14219)
- ARROW-17832 - [Python] 从字典序列(而不是元组列表)构造 MapArray (#14547)
- ARROW-17836 - [C++] 允许指定缓冲区的对齐方式 (#14225)
- ARROW-17837 - [C++][Acero] 创建 ExecPlan拥有的 QueryContext,它将存储计划的共享数据结构 (#14227)
- ARROW-17838 - [Python] 统一 python/ 中的 CMakeLists.txt (#14925)
- ARROW-17859 - [C++] 在接收信号的 StopSource 中使用自管道 (#14250)
- ARROW-17867 - [C++][FlightRPC] 在 Flight SQL 中公开批量参数绑定 (#14266)
- ARROW-17870 - [Go] 添加 Scalar 二进制运算
- ARROW-17871 - [Go] 初始二进制运算实现 (#14255)
- ARROW-17887 - [R][文档] 提高入门和 README 页面的可读性 (#14514)
- ARROW-17892 - [CI] 在 AppVeyor 构建中使用 Python 3.10 (#14307)
- ARROW-17899 - [Go][CSV] 向 CSV 读取器添加 Decimal 支持 (#14504)
- ARROW-17932 - [C++] 为 JSON 实现流式 RecordBatchReader (#14355)
- ARROW-17949 - [C++][文档] 从 Windows 开发文档中删除 clcache 的使用 (#14529)
- ARROW-17953 - [Archery] 添加 archery docker info 命令 (#14345)
- ARROW-17960 - [C++][Python] 实现 list_slice 内核 (#14395)
- ARROW-17966 - [C++] 调整为 Substrait 可选参数的新格式 (#14415)
- ARROW-17972 - [CI] 更新 CUDA docker 作业 (#14362)
- ARROW-17975 - [C++] 创建 at-fork 功能 (#14594)
- ARROW-17980 - [C++] As-of-Join Substrait 扩展 (#14485)
- ARROW-17989 - [C++][Python] 启用 struct_field 内核以接受字符串字段名称 (#14495)
- ARROW-18008 - [Python][C++] 将 use_threads 添加到 run_substrait_query
- ARROW-18012 - [R] 默认情况下将 map_batches .lazy 设置为 TRUE (#14521)
- ARROW-18014 - [Java] 为向量和表格实现复制函数 (#14389)
- ARROW-18016 - [CI] 将 sccache 添加到 r 作业 (#14570)
- ARROW-18033 - [CI] 使用 $GITHUB_OUTPUT 代替 set-output (#14409)
- ARROW-18042 - [Java] 通过 mavencentral 分发与 Apple M1 兼容的 JNI 库 (#14472)
- ARROW-18043 - [R] 在 Table__from_schema 中正确实例化扩展类型的空数组 (#14519)
- ARROW-18051 - [C++] 启用 ARROW-16392 跳过的测试 (#14425)
- ARROW-18075 - [网站] 更新 9.0.0 的安装页面
- ARROW-18081 - [Go] 添加 Scalar 布尔函数 (#14442)
- ARROW-18095 - [CI][C++][MinGW] 所有测试都以 0xc0000139 退出
- ARROW-18108 - [Go] 更多标量二元运算(乘法和除法) (#14544)
- ARROW-18109 - [Go] 初始一元运算 (#14605)
- ARROW-18110 - [Go] 标量比较 (#14669)
- ARROW-18111 - [Go] 剩余的标量二元运算(移位、幂、按位) (#14703)
- ARROW-18112 - [Go] 剩余的标量运算 (#14777)
- ARROW-18113 - [C++] 添加 RandomAccessFile::ReadManyAsync (#14723)
- ARROW-18120 - [发布][开发] 自动化运行二进制文件/wheel 文件验证 (#14469)
- ARROW-18121 - [发布][CI] 使用 Ubuntu 22.04 验证二进制文件 (#14470)
- ARROW-18122 - [发布][开发] 更新预期的投票电子邮件 (#14548)
- ARROW-18122 - [发布][开发] 将验证 PR 的 URL 添加到投票电子邮件中 (#14471)
- ARROW-18135 - [C++] 避免 ExecBatch::length 可能未初始化的警告 (#14480)
- ARROW-18137 - [Python][文档] 添加关于空列表 TableGroupBy.aggregation 的信息 (#14482)
- ARROW-18144 - [C++] 改进测试中的 JSONTypeError 错误消息 (#14486)
- ARROW-18147 - [Go] 为 Decimal 类型添加 Scalar Add/Sub (#14489)
- ARROW-18151 - [CI] 避免某些 conda URL 的不必要重定向 (#14494)
- ARROW-18152 - [Python] pyarrow Table 的 DataFrame 交换协议
- ARROW-18169 - [网站] 不要在 fork 存储库上运行开发文档更新
- ARROW-18173 - [Python] 删除旧版本的 Pandas (<1.0) (#14631)
- ARROW-18174 - [R] 修复某些版本上 altrep.cpp 的编译问题 (#14530)
- ARROW-18177 - [Go] 为时间类型添加加法/减法 (#14532)
- ARROW-18178 - [Java] ArrowVectorIterator 错误地关闭向量 (#14534)
- ARROW-18184 - [C++] 改进 JSON 解析器基准测试 (#14552)
- ARROW-18203 - [R] 重构以删除不必要的 build_expr 使用 (#14553)
- ARROW-18206 - [C++][CI] 为 C++20 编译添加夜间构建 (#14571)
- ARROW-18220 - [开发] 删除下载器中默认并行级别的魔术数字 (#14563)
- ARROW-18221 - [发布][开发] 添加对自定义 arrow-site 目录的支持 (#14564)
- ARROW-18222 - [发布][MSYS2] 自动检测反向依赖关系 (#14565)
- ARROW-18223 - [发布][Homebrew] 自动检测反向依赖关系 (#14566)
- ARROW-18224 - [发布][jar] 使用临时目录进行下载 (#14567)
- ARROW-18230 - [Python] 将 Cmake 参数传递给 Python CPP
- ARROW-18233 - [发布][JS] 不要将 yarn 安装到系统中 (#14577)
- ARROW-18235 - [C++][Gandiva] 修复转义字符的 like 函数实现 (#14579)
- ARROW-18237 - [Java] 扩展 Table 代码 (#14573)
- ARROW-18238 - [文档][Python] 改进 S3FileSystem 的文档 (#14599)
- ARROW-18240 - [R] head() 在某些夜间构建中崩溃 (#14582)
- ARROW-18243 - [R] 消毒器夜间故障指向 TimestampType 和 DurationType 之间的混淆
- ARROW-18248 - [CI][发布] 使用 GitHub 令牌避免 API 速率限制 (#14588)
- ARROW-18249 - [C++] 将 vcpkg 端口更新到 arrow 10.0.0
- ARROW-18253 - [C++][Parquet] 添加额外的边界安全检查 (#14592)
- ARROW-18259 - [C++][CMake] 添加对系统 Thrift CMake 包的支持 (#14597)
- ARROW-18264 - [Python] 向时间类型添加缺少的值访问器 (#14746)
- ARROW-18264 - [Python] 公开 time32/time64 标量值 (#14637)
- ARROW-18270 - [Python] 删除 gcc 4.9 兼容性代码 (#14602)
- ARROW-18278 - [Java] 调整 Maven generate-libs-jni-macos-linux 中的路径 (#14623)
- ARROW-18280 - [C++][Python] 在 list_slice 内核中支持切片到结尾 (#14749)
- ARROW-18282 - [C++][Python] 在 list_slice 内核中支持步长 >= 1 (#14696)
- ARROW-18287 - [C++][CMake] 添加对 vcpkg 提供的 Brotli/utf8proc 的支持 (#14609)
- ARROW-18289 - [发布][vcpkg] 添加一个脚本更新 vcpkg 的 arrow 端口 (#14610)
- ARROW-18291 - [发布][文档] 更新如何发布 (#14612)
- ARROW-18292 - [发布][Python] 上传正式版本的 .wheel/.tar.gz,而不是 RC 版本 (#14708)
- ARROW-18303 - [Go] 允许轻松导入计算模块 (#14690)
- ARROW-18306 - [R] 计算函数更新后测试失败 (#14620)
- ARROW-18318 - [Python] 公开 Scalar.validate() (#15149)
- ARROW-18321 - [R] 为 binary_slice 内核添加测试 (#14647)
- ARROW-18323 - 在 GitHub issue 中启用 issue 模板 (#14675)
- ARROW-18332 - [Go] 将字典类型转换为值类型 (#14650)
- ARROW-18333 - [Go][文档] 更新计算函数文档 (#14815)
- ARROW-18336 - [发布][文档] 不要更新不在主要版本中的版本 (#14653)
- ARROW-18337 - [R] 可能对 POSIXlt 对象的处理不当 (#15277)
- ARROW-18340 - [Python] PyArrow C++ 头文件不再总是包含在已安装的 pyarrow 中 (#14656)
- ARROW-18341 - [文档][Python] 更新关于在 Windows 上捆绑 Arrow C++ 的说明 (#14660)
- ARROW-18342 - [C++] AsofJoinNode 支持布尔数据字段 (#14658)
- ARROW-18345 - [R] 创建一个特定于 CRAN 的打包清单,位于 R 包目录中 (#14678)
- ARROW-18348 - [CI][发布][Yum] AlmaLinux 9 上需要 redhat-rpm-config (#14661)
- ARROW-18350 - [C++] 使用 std::to_chars 代替 std::to_string (#14666)
- ARROW-18358 - [R] 实现新的函数 open_dataset_csv,其签名更接近 read_csv_arrow
- ARROW-18361 - [CI][Conan] 合并上游更改 (#14671)
- ARROW-18363 - [文档] 在查看旧文档时包含警告(重定向到稳定/开发文档) (#14839)
- ARROW-18366 - [打包][RPM][Gandiva] 修复 AlmaLinux 9 上的链接错误 (#14680)
- ARROW-18367 - [C++] 启用创建命名表关系 (#14681)
- ARROW-18373 - 修复组件下拉菜单,添加许可证文本 (#14688)
- ARROW-18377 - 迁移:从 issue 表单内容自动生成组件标签 (#15245)
- ARROW-18380 - [开发] 更新 dev_pr GitHub 工作流以接受 GitHub issue 和 JIRA (#14731)
- ARROW-18384 - [发布][MSYS2] 显示拉取请求标题 (#14709)
- ARROW-18391 - [R] 修复开发文档中的版本选择器下拉菜单 (#14800)
- ARROW-18395 - [C++] 将 select-k 实现移动到单独的模块
- ARROW-18399 - [Python] 减少测试期间的警告 (#14729)
- ARROW-18401 - [R] test-r-rhub-ubuntu-gcc-release-latest 上的测试失败 (#14894)
- ARROW-18402 - [C++] 公开 `DeclarationInfo` (#14765)
- ARROW-18406 - [C++] 无法在 Ubuntu 20.04 上使用 Substrait 构建 Arrow (#14735)
- ARROW-18407 - [发布][网站] 对发布日期使用 UTC (#14737)
- ARROW-18409 - [GLib][Plasma] 在构建 plasma-glib 时抑制弃用警告 (#14739)
- ARROW-18410 - [打包][Ubuntu] 添加对 Ubuntu 22.10 的支持 (#14740)
- ARROW-18413 - [C++][Parquet] 从 ColumnChunkMetaData 公开页面索引信息 (#14742)
- ARROW-18418 - [网站] 不要删除 /datafusion-python
- ARROW-18419 - [C++] 更新 vendored fast_float (#14817)
- ARROW-18420 - [C++][Parquet] 引入 ColumnIndex & OffsetIndex (#14803)
- ARROW-18421 - [C++][ORC] 在读取器中添加对条带信息的访问器 (#14806)
- ARROW-18423 - [Python] 公开从 IPC 消息读取 schema 的功能 (#14831)
- ARROW-18426 - 在网站上更新提交者和 PMC 成员
- ARROW-18427 - [C++] 在 `AsofJoinNode` 中支持负容差 (#14934)
- ARROW-18428 - [网站] 在 arrow-site 仓库上启用 github issue
- ARROW-18435 - [C++][Java] 将 ORC 更新到 1.8.1 (#14942)
- GH-14474 - 尽可能地删除对共享指针的 R 引用 (#15278)
- GH-14720 - [开发] 更新 merge_arrow_pr 脚本以接受 GitHub issue (#14750)
- GH-14755 - [Python] 向 Python 公开 QuotingStyle (#14722)
- GH-14761 - [开发] 更新 PR 标签器上的标签以使用新的组件标签 (#14762)
- GH-14778 - [Python] 添加 (Chunked)Array sort() 方法 (#14781)
- GH-14784 - [开发] 添加在 GitHub 问题评论上自动分配的可能性 (#14785)
- GH-14786 - [Java][文档] 替换文件夹内文档 (#14789)
- GH-14787 - [Java][文档] 更新 table.rst (#14794)
- GH-14809 - [开发] 将创建的 GitHub 问题添加到 issues@arrow.apache.org (#14811)
- GH-14816 - [发布] 使 dev/release/06-java-upload.sh 可在其他项目中重复使用 (#14830)
- GH-14824 - [持续集成] r-binary-packages 应该只在所有测试成功时上传工件 (#14841)
- GH-14844 - [Java] 在比较非空字段类型时短路空检查 (#15106)
- GH-14846 - [开发] 在 download_rc_binaries.py 中支持 GitHub Releases (#14848)
- GH-14854 - 对 .md 页面进行更改 (#14852)
- GH-14869 - [C++] 添加定义
_STATIC 的 Cflags.private 到 .pc.in 中 (#14900) - GH-14873 - [Java] DictionaryEncoder 可以在不构建 DictionaryHashTable 的情况下解码 (#14874)
- GH-14885 - [文档] 对新的贡献指南进行更改 (Jira -> GitHub) (#14889)
- GH-14901 - [Java] ListSubfieldEncoder 和 StructSubfieldEncoder 可以在不使用 DictionaryHashTable 的情况下解码 (#14902)
- GH-14918 - [文档] 对文档的开发者部分进行更改 (Jira -> GitHub) (#14919)
- GH-14920 - [C++][CMake] 将缺失的 -latomic 添加到 Arrow CMake 包 (#15251)
- GH-14937 - [C++] 添加 rank 内核基准测试 (#14938)
- GH-14951 - [C++][Parquet] 为 DELTA_BINARY_PACKED 编码添加基准测试 (#15140)
- GH-14961 - [Ruby] 为 C++17 使用更新的 extpp (#14962)
- GH-14975 - [Python] Dataset.sort_by (#14976)
- GH-14976 - [Python] 避免在 Table.sort_by 中依赖执行计划以修复最小测试 (#15268)
- GH-14977 - [开发][持续集成] 将 notify-token-expiration 添加到 archery (#14978)
- GH-14981 - [R] 与 dplyr::join_by() 的向前兼容性 (#33664)
- GH-14986 - [发布] 不要在 maint-X.Y.Z 分支上检测以前的版本 (#14987)
- GH-14992 - [打包] 使 dev/release/binary-task.rb 可在其他项目中重复使用 (#14994)
- GH-14997 - [发布] 确保 archery 发布任务与新式 GitHub 问题和旧式 JIRA 问题兼容 (#33615)
- GH-14999 - [发布][Archery] 更新 archery 发布变更日志以支持 GitHub 问题
- GH-15002 - [发布][Archery] 更新 archery 发布 cherry-pick 以支持 GitHub 问题
- GH-15005 - [Go] 添加 scalar.Append 将标量附加到构建器 (#15006)
- GH-15009 - [R] 已经发布了带有 str_like 函数的 stringr 1.5.0 (#15010)
- GH-15012 - [打包][deb] Debian GNU/Linux bookworm 使用系统 Protobuf (#15013)
- GH-15035 - [持续集成] 从持续集成中移除不支持的 turbodbc 作业和脚本 (#15036)
- GH-15050 - [Java][文档] 更新和合并内存文档 (#15051)
- GH-15072 - [C++] 将 round 功能移动到单独的模块 (#15073)
- GH-15074 - [Parquet][C++] 将 16 位 page_ordinal 更改为 32 位 (#15182)
- GH-15081 - [发布] 添加在 dev/release/05-binary-upload.sh 中使用自定义工件目录的支持 (#15082)
- GH-15084 - [Ruby] 当 Table#join 中 keys.nil? 时使用公共键 (#15088)
- GH-15085 - [Ruby] 添加 ColumnContainable#column_names (#15089)
- GH-15087 - [发布] 减慢从 GitHub 下载 RC 二进制文件的速度 (#15090)
- GH-15096 - [C++] Substrait ProjectRel Emit 优化 (#15097)
- GH-15100 - [C++][Parquet] 添加从 Parquet 读取字符串的基准测试 (#15101)
- GH-15119 - [发布][文档][R] 更新补丁版本中的版本信息 (#15120)
- GH-15134 - [Ruby] 为旧 Xcode 显式指定 -mmacox-version-min=10.14 (#15135)
- GH-15146 - [GLib] 添加
GADatasetFinishOptions
(#15147) - GH-15151 - [C++] 添加 RecordBatchReaderSource 以解决 R API 中的问题 (#15183)
- GH-15168 - [GLib] 添加对半精度浮点数的支持 (#15169)
- GH-15174 - [Go][FlightRPC] 公开 Flight Server Desc 和 RegisterFlightService (#15177)
- GH-15185 - [C++][Parquet] 改进 Parquet Reader column_indices 的文档 (#15184)
- GH-15199 - [C++][Substrait] 允许 AGGREGATION_INVOCATION_UNSPECIFIED 作为有效的调用 (#15198)
- GH-15200 - [C++] 为 round 内核创建基准测试 (#15201)
- GH-15205 - [R] 修复 R 测试中的 parquet-fixture 问题 (#15207)
- GH-15216 - [C++][Parquet] Parquet 写入器接受 RecordBatch (#15240)
- GH-15218 - [Python] 删除自动生成的 pyarrow_api.h 和 pyarrow_lib.h (#15219)
- GH-15226 - [C++] 将 DurationType 添加到哈希内核 (#33685)
- GH-15237 - [C++] 使用 std::string_view 添加 ::arrow::Unreachable() (#15238)
- GH-15239 - [C++][Parquet] Parquet 写入器将十进制数写入为 int32/64 (#15244)
- GH-15249 - [文档] 添加 PR 模板 (#15250)
- GH-15257 - [GLib][Dataset] 添加 GADatasetHivePartitioning (#15272)
- GH-15265 - [Java] 发布 SBOM 工件 (#15267)
- GH-15289 - [Ruby] 将表格保存到 csv 时返回自身 (#33653)
- GH-15290 - [C++][Compute] 当标量为空时优化 IfElse 内核 AAS/ASA 情况 (#15291)
- GH-33607 - [C++] 支持内联访问函数的可选附加参数 (#33608)
- GH-33610 - [开发] 不允许合并 ARROW 前缀的 ticket,也不允许在 PR 标题中使用 (#33611)
- GH-33619 - [文档] 更新 PR 模板 (#33620)
- GH-33657 - [C++] arrow-dataset.pc 在没有 ARROW_PARQUET=ON 的情况下不依赖于 parquet.pc (#33665)
- GH-33670 - [GLib] 添加
GArrowProjectNodeOptions
(#33677) - GH-33671 - [GLib] 添加
garrow_chunked_array_new_empty()
(#33675) - PARQUET-2179 - [C++][Parquet] 添加跳过重复字段的测试 (#14366)
- PARQUET-2188 - [parquet-cpp] 向 RecordReader 添加 SkipRecords API (#14142)
- PARQUET-2204 - [parquet-cpp] TypedColumnReaderImpl::Skip 应重复使用暂存空间 (#14509)
- PARQUET-2206 - [parquet-cpp] ColumnReader ReadBatch 和 Skip 的微基准测试 (#14523)
- PARQUET-2209 - [parquet-cpp] 针对要跳过的值数量等于页面大小的情况优化跳过 (#14545)
- PARQUET-2210 - [C++][Parquet] 使用回调函数根据标头元数据跳过页面 (#14603)
- PARQUET-2211 - [C++] 打印 ColumnMetaData.encoding_stats 字段 (#14556)
错误修复
- ARROW-11631 - [R] 为 Decimal 类型实现 RPrimitiveConverter
- ARROW-15026 - [Python] 如果 datetime.timedelta 到 pyarrow.duration 的转换溢出,则报错 (#13718)
- ARROW-15328 - [C++][文档] 文档中缺少流式 CSV 读取器 (#14452)
- ARROW-15822 - [C++] 不支持将 duration 转换为字符串(因此不支持 CSV 写入) (#14450)
- ARROW-16464 - [C++][持续集成][GPU] 添加 CUDA 持续集成 (#14497)
- ARROW-16471 - [Go] RecordBuilder UnmarshalJSON 处理复杂值 (#14560)
- ARROW-16547 - [Python] 当使用 timestamp_as_object 时,to_pandas 对 FixedOffset 时区失败 (#14448)
- ARROW-16795 - [C#][Flight] 夜间 verify-rc-source-csharp-macos-arm64 失败 (#15235)
- ARROW-16817 - [C++] 使用无效类型测试 ORC 写入器错误 (#14638)
- ARROW-17054 - [R] 从大于 2^31 的对象创建数组会导致长度为 0 的数组 (#14929)
- ARROW-17192 - [Python] 在 read_feather 到 to_pandas() 中传递 **kwargs (#14492)
- ARROW-17332 - [R] 在 read_csv_arrow 中解析带有重音符号的文件夹路径错误(“c:/Público”) (#14930)
- ARROW-17361 - [R] 当除数是变量时,dplyr::summarize 除法失败 (#14933)
- ARROW-17374 - [C++] Snappy 包可能在没有 CMAKE_BUILD_TYPE 的情况下构建 (#14818)
- ARROW-17458 - [C++] 在十进制和字符串之间转换 (#14232)
- ARROW-17538 - [C++] 导入数组流时导入模式 (#15037)
- ARROW-17637 - [R][美国][s] (#14935)
- ARROW-17692 - [R] 添加对使用系统 AWS SDK C++ 构建的支持 (#14235)
- ARROW-17772 - [文档] Sphinx / reST 标记错误
- ARROW-17774 - [Python] 为十进制数到 csv 添加 python 测试 (#14525)
- ARROW-17858 - [C++] arrow/csv/parser.h 中的编译警告 (#14445)
- ARROW-17893 - [Python] 测试 timedelta 的读取是否稳定 (read_feather/to_pandas) (#14531)
- ARROW-17985 - [C++][Python] 改进错误区域时的 s3fs 错误消息 (#14601)
- ARROW-17991 - [Python][C++] 为数据集 ipc 文件写入器添加对 IpcWriteOptions 的支持 (#14414)
- ARROW-18052 - [Python] 支持通过 pq.write_to_dataset 传递 create_dir (#14459)
- ARROW-18068 - [开发][Archery][Crossbow] 评论机器人仅在链接不可用时等待任务 (#14429)
- ARROW-18070 - [C++] 为 substrait 测试调用 google::protobuf::ShutdownProtobufLibrary (#14508)
- ARROW-18086 - [Ruby] 添加对 HalfFloat 的支持 (#15204)
- ARROW-18087 - [C++] RecordBatch::Equals 不应忽略字段名称 (#14451)
- ARROW-18088 - [CI][Python] 修复与 timedelta 相关的 pandas master/nightly 构建失败 (#14460)
- ARROW-18101 - [R] 无法读取带有 UDF 的 ExecPlan 中的 RecordBatchReaderHead (#14518)
- ARROW-18106 - [C++] JSON 读取器在 unexpected_field_behavior=”infer” 时忽略显式模式 (#14741)
- ARROW-18117 - [C++] 修复静态捆绑包构建 (#14465)
- ARROW-18118 - [发布][开发] 修复 10.0.0-rc0 版本中 02-source.sh/03-binary-submit.sh 的问题 (#14468)
- ARROW-18123 - [Python] 修复写入文件名中包含多字节字符的文件的问题 (#14764)
- ARROW-18125 - [Python] 处理 pytest 8 关于 pytest.warns(None) 的弃用警告
- ARROW-18126 - [Python] 在构建 pyarrow C++ 时移除 ARROW_BUILD_DIR (#14498)
- ARROW-18128 - [Java][CI] 更新 Java Nightlies X.Y.Z-SNAPSHOT 文件夹的时间戳 (#14496)
- ARROW-18149 - [C++] 修复
join_example
的构建失败 (#14490) - ARROW-18157 - [开发][Archery] 当继承环境变量时,“archery docker run” 将其设置为 None (#14501)
- ARROW-18158 - [CI] 在安装 conda cpp 环境时使用默认 Python 版本以修复 conda 构建 (#14500)
- ARROW-18159 - [Go][发布] 在 verify-release 脚本中添加
go install
(#14503) - ARROW-18161 - [Ruby] 在子对象中引用源输入 (#15217)
- ARROW-18164 - [Python] 在数据集扫描中遵循默认内存池 (#14516)
- ARROW-18167 - [Go][发布] 使用发布版本更新 go.work (#14522)
- ARROW-18172 - [CI][发布] 源代码发布和合并脚本作业在 master 分支上失败
- ARROW-18183 - [C++] cpp-micro 基准测试在 Mac arm 机器上失败 (#14562)
- ARROW-18188 - [CI] 由于标签错误,CUDA nightly docker 上传失败 (#14538)
- ARROW-18195 - [C++] 修复当条件具有空值时 case_when 产生错误数据的问题 (#15131)
- ARROW-18202 - [C++] 重新允许对空字符串进行正则表达式替换 (#15132)
- ARROW-18205 - [C++] Substrait 消费者在连接时未正确转换右侧引用 (#14558)
- ARROW-18207 - [Ruby] 10.0.0 版本的 RubyGems 尚未更新
- ARROW-18209 - [Java] 使 ComplexCopier 与 MapWriter(UnionMapWriter)的具体实现无关 (#14557)
- ARROW-18212 - [C++] NumericBuilder::Reset() 未重置所有成员 (#14559)
- ARROW-18225 - [Python] 在 parquet.write_metadata 中完全支持文件系统 (#14574)
- ARROW-18227 - [CI][打包] 如果 conda search 引发 PackagesNotFound,则不要使 conda-clean 失败 (#14569)
- ARROW-18229 - [Python] 在 RecordBatchReader.from_batches 中检查模式参数类型 (#14583)
- ARROW-18231 - [C++][CMake] 添加对覆盖优化级别的支持 (#15022)
- ARROW-18246 - [Python][文档] PyArrow 表连接文档字符串中 left 和 right 后缀参数的拼写错误 (#14591)
- ARROW-18247 - [JS] 修复:Vector.toArray() 中的 RangeError 崩溃 (#14587)
- ARROW-18256 - [C++][Windows] 对外部共享 Thrift 使用 IMPORTED_IMPLIB (#14595)
- ARROW-18257 - [Python] 使用正确的类型类传递回时间类型 (#14633)
- ARROW-18269 - [C++] 处理 Hive 风格分区值中的斜杠字符 (#14646)
- ARROW-18272 - [Python] 在 ParquetFile 中支持文件系统参数 (#14717)
- ARROW-18284 - [Python][文档] 添加缺少的 CMAKE_PREFIX_PATH 以允许 setup.py CMake 调用找到 Arrow CMake 包 (#14586)
- ARROW-18290 - [C++] 在 URI 编码中转义所有特殊字符 (#14645)
- ARROW-18309 - [Go] 修复 delta 位打包解码 panic (#14649)
- ARROW-18320 - [C++][FlightRPC] 修复 Flight 客户端中不正确的 Status/Result 转换 (#14859)
- ARROW-18334 - [C++] 通过重新绑定处理潜在的非交换性 (#14659)
- ARROW-18339 - [Python][CI] 添加 DYLD_LIBRARY_PATH 以避免在 macOS 作业上需要 PYARROW_BUNDLE_ARROW_CPP (#14643)
- ARROW-18343 - [C++] 删除带有输出参数的 AllocateBitmap() (#14657)
- ARROW-18351 - [C++][FlightRPC] 修复使用 UCX 时 DoExchange 中的崩溃 (#15031)
- ARROW-18353 - [C++][FlightRPC] 防止 UCX 中的并发 Finish (#15034)
- ARROW-18360 - [Python] 当 FlightClient.do_put 中的 schema=None 时不要崩溃 (#14698)
- ARROW-18374 - [Go][CI][基准测试] 修复 Go 基准测试 github 信息 (#14691)
- ARROW-18374 - [Go][CI][基准测试] 在 Conbench 更改后修复 Go Bench 脚本 (#14689)
- ARROW-18379 - [Python] 将 _plasma_store_entry_point 中的警告更改为 _warnings (#14695)
- ARROW-18382 - [C++] 在模糊测试构建中设置 ADDRESS_SANITIZER (#14702)
- ARROW-18383 - [C++] 避免线程池和 at-fork 处理程序的全局变量 (#14704)
- ARROW-18389 - [CI][Python] 将 nightly test-conda-python-3.7-pandas-0.24 更新到 pandas >= 1.0 (#14714)
- ARROW-18390 - [CI][Python] 更新 spark 测试模块以匹配 spark master (#14715)
- ARROW-18392 - [Python] 修复 test_s3fs_wrong_region;设置 anonymous=True (#14716)
- ARROW-18394 - [Python][CI] 修复使用 pandas dev 的 nightly 作业(暂时跳过测试) (#15048)
- ARROW-18397 - [C++] 在 S3 关闭时清除 S3 区域解析器客户端 (#14718)
- ARROW-18400 - [Python] Table.to_pandas 处理嵌套数据时内存使用呈二次方增长
- ARROW-18405 - [Ruby] 避免在 Arrow::Table.new 中重建分块数组 (#14738)
- ARROW-18412 - [C++][R] 由于缺少 ChunkResolver 符号,Windows 构建失败 (#14774)
- ARROW-18424 - [C++] 修复 ARROW_ENGINE_EXPORT 上的 Doxygen 错误 (#14845)
- ARROW-18429 - [R]:在 10.0.1 补丁发布之后升级开发版本 (#14887)
- ARROW-18436 - [C++] 确保 URI 路径中特殊字符的正确(取消)转义 (#14974)
- ARROW-18437 - [C++][Parquet] 修复多次刷新时 DELTA_BINARY_PACKED 的编码器问题 (#14959)
- GH-14745 - [R] {rlang} 依赖项必须至少为 1.0.0 版本,因为 check_dots_empty (#14744)
- GH-14775 - [Go] 修复 UnionBuilder.Len 实现 (#14776)
- GH-14780 - [Go] 修复 IPC 写入切片映射/列表数组的问题 (#14793)
- GH-14791 - [JS] 修复 BitmapBufferBuilder 大小截断问题 (#14881)
- GH-14805 - [格式] C 数据接口:阐明缓冲区指针的可空性 (#14808)
- GH-14819 - [CI][RPM] 为 CentOS 9 Stream 上的构建失败添加解决方法 (#14820)
- GH-14828 - [CI][Conda] 与 conda-forge 同步,修复 nightly 作业 (#14832)
- GH-14842 - [C++] 传播 JSON chunker 中的一些错误 (#14843)
- GH-14849 - [CI] R install-local 构建有时会因为 sccache 超时而失败 (#14850)
- GH-14855 - [C++] 支持导入零大小联合 (#14857)
- GH-14856 - [CI] Azure 构建因 docker 权限错误而失败 (#14858)
- GH-14865 - [Go][Parquet] 解决 pqarrow 中缓冲区的几个内存泄漏问题 (#14878)
- GH-14872 - [R] 当使用多个 group_by/summarise 语句时,arrow 返回错误的变量内容 (#14905)
- GH-14875 - [C++] C 数据接口:检查导入的缓冲区是否为非空 (#14814)
- GH-14876 - [Go] 处理 C 数据接口中的崩溃 (#14877)
- GH-14883 - [Go] 修复 IPC 编码空映射的问题 (#14904)
- GH-14883 - [Go] ipc.Writer 在压缩 body 时发生内存泄漏 (#14892)
- GH-14884 - [CI] R 安装资源可能会出现 404 错误 (#14893)
- GH-14890 - [Java] 修复抛出异常时 DictionaryEncoder 的内存泄漏问题 (#14891)
- GH-14907 - [R] right_join() 函数未产生预期结果 (#15077)
- GH-14909 - [Java] 防止 ListSubfieldEncoder 和 StructSubfieldEncoder 的潜在内存泄漏 (#14910)
- GH-14916 - [C++] 删除关于“ConcatenateBuffers”的 API 声明 (#14915)
- GH-14927 - [开发] Crossbow submit 无法与细粒度 PAT 一起使用 (#14928)
- GH-14940 - [Go][Parquet] 修复加密列写入问题 (#14954)
- GH-14943 - [Python] 修复 pyarrow.get_libraries() 顺序 (#14944)
- GH-14945 - [Ruby] 添加对 macOS 12 / Xcode 14 的支持 (#14960)
- GH-14947 - [R] 与 dplyr 1.1.0 的兼容性 (#14948)
- GH-14949 - [CI][发布] 失败时输出脚本的标准输出 (#14957)
- GH-14967 - [R] 最小 nightly 构建失败 (#14972)
- GH-14968 - [Python] 修复数据集 ORC 写入的段错误 (#15049)
- GH-14990 - [C++][Skyhook] 遵循 FileFormat API 更改 (#15086)
- GH-14993 - [CI][Conda] 修复 conda build 现在需要的缺少的 RECIPE_ROOT 变量 (#15014)
- GH-14995 - [Go][FlightSQL] 修复支持的联合常量 (#15003)
- GH-15001 - [R] 修复 Parquet 数据类型测试失败 (#15197)
- GH-15007 - [CI][RPM] 忽略导入失败的密钥 (#15008)
- GH-15023 - [CI][打包][Java] 强制使用 Homebrew 的 libz3.a (#15024)
- GH-15025 - [CI][C++][Homebrew] 确保删除 Python 相关命令 (#15026)
- GH-15028 - [R][文档] R 中的
NOT_CRAN
应为"true"
而不是TRUE
(#15029) - GH-15040 - [C++] 当 ARROW_BUILD_SHARED=OFF 时改进 pkg-config 支持 (#15075)
- GH-15042 - [C++][Parquet] 更新后续字典批次的统计信息 (#15179)
- GH-15043 - [Python][文档] 更新 pyarrow.decompress 的文档字符串 (#15061)
- GH-15052 - [C++][Parquet] 修复仅读取一个值时 DELTA_BINARY_PACKED 解码器的问题 (#15124)
- GH-15062 - [C++] 简化 EnumParser 行为 (#15063)
- GH-15064 - [Python][CI] 由于 fsspec 错误,Dask 夜间测试失败 (#15065)
- GH-15069 - [C++][Python][FlightRPC] 使 DoAction 真正实现流式处理 (#15118)
- GH-15080 - [CI][R] 重新启用 Windows 上 R 4.1 的二进制包作业 (#25359)
- GH-15092 - [CI][C++][Homebrew] 确保删除 Python 相关命令(再次) (#15093)
- GH-15094 - [CI][发布][Ruby] 通过 APT 安装 Bundler (#15095)
- GH-15110 - [R][CI] Windows 构建在打包作业中失败 (#15111)
- GH-15114 - [R][C++][CI] Homebrew 无法在 GHA 运行器上安装 Python 3.11 (#15116)
- GH-15115 - [R][CI] 由于缺少 pyarrow wheel,pyarrow 测试在 macos 10.13 上失败 (#15117)
- GH-15122 - [基准测试][Python] 为基准测试构建设置 ARROW_INSTALL_NAME_RPATH=ON (#15123)
- GH-15126 - [R] purrr::rerun 在 purrr 1.0.0 中已弃用 (#15127)
- GH-15136 - [Python][macOS] 为 libarrow_python.dylib 使用
@rpath
(#15143) - GH-15141 - [C++] 修复由于不稳定排序导致的测试不稳定问题 (#15142)
- GH-15150 - [C++][FlightRPC] 在 DoAction 中等待副作用 (#15152)
- GH-15156 - [JS] 修复找不到变量:BigInt64Array 的问题 (#15157)
- GH-15172 - [Python] 文档字符串测试失败 (#15186)
- GH-15176 - 修复 ARROW-17980 和 ARROW-15732 在 asof-join 基准测试中引入的各种问题 (#15190)
- GH-15189 - [R] 在 MacOS 10.13 上跳过 S3 测试 (#33613)
- GH-15243 - [C++] 修复 group-by 节点中潜在的死锁问题 (#33700)
- GH-15254 - [GLib] garrow_execute_plain_wait() 检查完成状态 (#15255)
- GH-15259 - [CI] 由于拼写错误,组件分配失败 (#15260)
- GH-15264 - [C++] 添加用于禁用预读的扫描器测试并修复相关错误 (#29185)
- GH-15274 - [Java][FlightRPC] 处理空密钥库密码 (#15276)
- GH-15282 - [CI][C++] 在 .travis.yaml 中添加 CLANG_TOOLS 变量 (#32972)
- GH-15292 - [C++] ExtensionArray 中缺少类型类别名 (#15293)
- GH-25633 - [CI][Java][macOS] 确保使用捆绑的 RE2 (#33711)
- GH-26209 - [Ruby] 添加对 Ruby 2.5 的支持 (#33602)
- GH-26394 - [Python] 不要对导入的目标使用 target_include_directories() (#33606)
- GH-33626 - [打包][RPM] 不要删除非目标架构的元数据 (#33672)
- GH-33638 - [C++] 删除 ExecPlan::Make 弃用警告 (#33658)
- GH-33643 - [C++] 删除 this 的隐式 = 捕获,这在 c++20 中无效 (#33644)
- GH-33666 - [R] 删除 semi_join 的无关参数 (#33693)
- GH-33667 - [C++][CI] 将 Ubuntu 22.04 用于 ASAN (#33669)
- GH-33687 - [开发] 修复合并脚本中的提交消息生成问题 (#33691)
- GH-33705 - [R] 修复 README 上的链接 (#33706)