Apache Arrow 11.0.0 (2023年1月26日)
这是一个涵盖超过3个月开发的大版本发布。
下载
贡献者
此版本包含来自95位不同贡献者的516次提交。
$ git shortlog -sn apache-arrow-10.0.0..apache-arrow-11.0.0
83 Sutou Kouhei
35 Matt Topol
28 Raúl Cumplido
25 Dewey Dunnington
21 Alenka Frim
21 Antoine Pitrou
20 Jacob Wujciak-Jens
17 David Li
17 Miles Granger
16 Weston Pace
15 Joris Van den Bossche
15 Will Jones
14 Nic Crane
10 Neal Richardson
10 Vibhatha Lakmal Abeykoon
9 rtpsw
8 eitsupi
7 Ben Harkins
7 Jin Shang
6 Alessandro Molina
6 Bryce Mecum
6 Fatemah Panahi
6 Gang Wu
6 Larry White
6 mwish
5 gf2121
4 David Sisson
4 Hirokazu SUZUKI
4 LouisClt
3 0x26res
3 Rok Mihevc
3 h-vetinari
2 Austin Dickey
2 Benson Muite
2 Jonathan Keane
2 Kshiteej K
2 Libor Ryšavý
2 Nikita Eshkeev
2 Percy Camilo Triveño Aucahuasi
2 Sasha Krassovsky
2 Todd Farmer
2 Yibo Cai
2 buaazhwb
2 dependabot[bot]
2 lafiona
1 0xflotus
1 André Kohn
1 Anja Kefala
1 Benjamin Kietzman
1 Daniel Sullivan
1 Danielle Navarro
1 Dean Attali
1 Dhulkifli Hussein
1 Dominik Moritz
1 Dongjoon Hyun
1 Dr. Jan-Philip Gehrcke
1 ElenaHenderson
1 Felipe Oliveira Carvalho
1 Frederick Jansen
1 Hadley Wickham
1 Ian Cook
1 JacekPliszka
1 JiaKe
1 Jianshen Liu
1 Jonas Haag
1 Joost Hoozemans
1 Julien Roncaglia
1 Kae S
1 Kazuaki Ishizaki
1 Kyle Barron
1 Laurent Quérel
1 Lionel Henry
1 Mark Schreiber
1 Matti Picus
1 Noah Treuhaft
1 Paul Taylor
1 Pierre Gramme
1 Quang Hoang
1 Sahaj Gupta
1 Sanjiban Sengupta
1 Sho Nakatani
1 Siddhant Rao
1 Tamas Mate
1 Tao He
1 Thomas Sarlandie
1 Tomek Drabas
1 William Ayd
1 Y
1 Yue
1 emkornfield
1 fdzuJ
1 kambhamvivekshankar
1 lukester1975
1 martin-kokos
1 zagto
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-10.0.0..apache-arrow-11.0.0
148 Sutou Kouhei
89 Antoine Pitrou
50 Joris Van den Bossche
36 David Li
36 Matt Topol
34 Weston Pace
24 Dewey Dunnington
24 Nic Crane
16 Jacob Wujciak-Jens
13 Will Jones
8 Neal Richardson
6 Raúl Cumplido
6 Yibo Cai
4 Alessandro Molina
4 Rok Mihevc
3 Dominik Moritz
3 Jonathan Keane
2 Alenka Frim
1 Micah Kornfield
1 dependabot[bot]
更新日志
Apache Arrow 11.0.0 (2023-01-25 08:00:00)
新功能和改进
- ARROW-4709 - [C++] 优化有序JSON字段 (#14100)
- ARROW-11776 - [C++][Java] 支持从ArrowReader写入parquet文件 (#14151)
- ARROW-13938 - [C++] 日期和日期时间类型应从字符串自动转换
- ARROW-13980 - [Go] 实现 Scalar ApproxEquals (#14543)
- ARROW-14161 - [C++][文档] 改进Parquet C++ 文档 (#14018)
- ARROW-14832 - [R] 实现 stringr::str_remove 和 stringr::str_remove_all 的绑定 (#14644)
- ARROW-14999 - [C++] 映射和列表类型可选字段名称的相等性检查 (#14847)
- ARROW-15006 - [Python][文档] 在CI中增加五项numpydoc检查 (#15214)
- ARROW-15006 - [Python][CI][文档] 启用numpydoc检查PR03 (#13983)
-
ARROW-15206 - [Ruby] 增加对
Arrow::Table.load(uri, schema:)的支持 (#15148) - ARROW-15460 - [R] 添加 as.data.frame.Dataset 方法 (#14461)
- ARROW-15470 - [R] 在CSV写入器中设置空值 (#14679)
- ARROW-15538 - [C++] 扩展从Substrait到Acero的数学函数覆盖范围 (#14434)
- ARROW-15592 - [C++] 支持在 substrait::PlanRel 中自定义输出字段名称 (#14292)
- ARROW-15691 - [开发] 更新archery以支持master或main作为默认分支 (#14033)
- ARROW-15732 - [C++] 当use_threads为false时,不在执行计划中使用任何CPU线程 (#15104)
- ARROW-15812 - [R] 接受CSV的open_dataset中的col_names (#14705)
- ARROW-16266 - [R] 添加 StructArray$create() (#14922)
- ARROW-16337 - [Python] 暴露一个标志来启用/禁用在Parquet元数据中存储Arrow schema (#13000)
- ARROW-16430 - [Python] 添加对读取记录批次自定义元数据API的支持 (#13041)
- ARROW-16480 - [R] 更新read_csv_arrow和open_dataset的parse_options, read_options和convert_options以接受列表 (#15270)
- ARROW-16616 - [Python] 添加惰性Dataset.filter()方法 (#13409)
- ARROW-16673 - [Java] 将C数据集成到分配器层次结构中 (#14506)
- ARROW-16728 - [Python] ParquetDataset在传递旧文件系统时仍采用旧代码路径 (#15269)
- ARROW-16728 - [Python] 切换默认值并弃用ParquetDataset中的use_legacy_dataset=True (#14052)
- ARROW-16782 - [格式] 在FlatBuffers中添加REE定义 (#14176)
- ARROW-17025 - [开发] 从合并提交消息中移除GitHub用户名链接 (#14458)
- ARROW-17144 - [C++][Gandiva] 添加sqrt函数 (#13656)
- ARROW-17187 - [R] 改进字符串的惰性ALTREP实现 (#14271)
- ARROW-17212 - [Python] 支持惰性Dataset.filter
- ARROW-17301 - [C++] 实现计算函数 "binary_slice" (#14550)
- ARROW-17302 - [R] 配置S3的curl超时策略 (#15166)
- ARROW-17360 - [Python] pyarrow.feather.read_table中的列顺序 (#14528)
- ARROW-17416 - [R] 实现 lubridate::with_tz 和 lubridate::force_tz
-
ARROW-17425 - [R] dplyr查询中的
lubridate::as_datetime()应该能够处理亚秒级时间 (#13890) - ARROW-17462 - [R] 在表达式构建中将标量转换为字段类型 (#13985)
- ARROW-17509 - [C++] 通过消除调用End的需要来简化异步调度器 (#14524)
- ARROW-17520 - [C++] 实现 SubStrait SetRel (UnionAll) (#14186)
- ARROW-17610 - [C++] 支持SourceNode中的其他源类型 (#14207)
- ARROW-17613 - [C++] 为预配置内核添加函数执行API (#14043)
- ARROW-17640 - [C++] 为Substrait Read中的Glob文件处理添加文件处理测试用例 (#14132)
- ARROW-17662 - [R] 方便从二进制文件离线安装 (#14086)
- ARROW-17726 - [CI] 在更多构建中启用sccache
- ARROW-17731 - [网站] 添加关于Flight SQL JDBC驱动的博客文章
- ARROW-17732 - [文档][Java] 添加最小JDBC驱动文档 (#14137)
- ARROW-17751 - [Go][基准测试] 添加Go基准测试脚本 (#14148)
- ARROW-17777 - [开发] 更新拉取请求合并脚本以支持master或main分支
- ARROW-17798 - [C++][Parquet] 在Parquet写入器中添加DELTA_BINARY_PACKED编码器 (#14191)
- ARROW-17812 - [Gandiva][文档] 添加C++ Gandiva用户指南 (#14200)
- ARROW-17825 - [C++] 允许在ORCFileWriter中写入多个表 (#14219)
- ARROW-17832 - [Python] 从字典序列(而不是元组列表)构造MapArray (#14547)
- ARROW-17836 - [C++] 允许指定缓冲区的对齐方式 (#14225)
- ARROW-17837 - [C++][Acero] 创建ExecPlan拥有的QueryContext,用于存储计划的共享数据结构 (#14227)
- ARROW-17838 - [Python] 统一python/中的CMakeLists.txt (#14925)
- ARROW-17859 - [C++] 在信号接收StopSource中使用自管道 (#14250)
- ARROW-17867 - [C++][FlightRPC] 在Flight SQL中暴露批量参数绑定 (#14266)
- ARROW-17870 - [Go] 添加Scalar二元算术
- ARROW-17871 - [Go] 初始二元算术实现 (#14255)
- ARROW-17887 - [R][文档] 提高Get Started和README页面的可读性 (#14514)
- ARROW-17892 - [CI] 在AppVeyor构建中使用Python 3.10 (#14307)
- ARROW-17899 - [Go][CSV] 为CSV读取器添加Decimal支持 (#14504)
- ARROW-17932 - [C++] 为JSON实现流式RecordBatchReader (#14355)
- ARROW-17949 - [C++][文档] 从Windows开发文档中移除clcache的使用 (#14529)
- ARROW-17953 - [Archery] 添加archery docker info命令 (#14345)
- ARROW-17960 - [C++][Python] 实现list_slice内核 (#14395)
- ARROW-17966 - [C++] 调整以适应Substrait可选参数的新格式 (#14415)
- ARROW-17972 - [CI] 更新CUDA docker任务 (#14362)
- ARROW-17975 - [C++] 创建at-fork设施 (#14594)
- ARROW-17980 - [C++] Asof-Join Substrait扩展 (#14485)
- ARROW-17989 - [C++][Python] 使struct_field内核接受字符串字段名称 (#14495)
- ARROW-18008 - [Python][C++] 将use_threads添加到run_substrait_query
- ARROW-18012 - [R] 默认情况下将map_batches .lazy = TRUE (#14521)
- ARROW-18014 - [Java] 实现向量和表的复制函数 (#14389)
- ARROW-18016 - [CI] 将sccache添加到r任务 (#14570)
- ARROW-18033 - [CI] 使用$GITHUB_OUTPUT而不是set-output (#14409)
- ARROW-18042 - [Java] 通过mavencentral分发Apple M1兼容的JNI库 (#14472)
- ARROW-18043 - [R] 在Table__from_schema中正确实例化扩展类型的空数组 (#14519)
- ARROW-18051 - [C++] 启用ARROW-16392跳过的测试 (#14425)
- ARROW-18075 - [网站] 更新9.0.0的安装页面
- ARROW-18081 - [Go] 添加Scalar布尔函数 (#14442)
- ARROW-18095 - [CI][C++][MinGW] 所有测试以0xc0000139退出
- ARROW-18108 - [Go] 更多标量二元算术(乘法和除法) (#14544)
- ARROW-18109 - [Go] 初始一元算术 (#14605)
- ARROW-18110 - [Go] 标量比较 (#14669)
- ARROW-18111 - [Go] 剩余标量二元算术(移位、幂、按位运算) (#14703)
- ARROW-18112 - [Go] 剩余标量算术 (#14777)
- ARROW-18113 - [C++] 添加 RandomAccessFile::ReadManyAsync (#14723)
- ARROW-18120 - [发布][开发] 自动化运行二进制/轮子验证 (#14469)
- ARROW-18121 - [发布][CI] 使用Ubuntu 22.04进行二进制验证 (#14470)
- ARROW-18122 - [发布][开发] 更新预期的投票邮件 (#14548)
- ARROW-18122 - [发布][开发] 将验证PR URL添加到投票邮件 (#14471)
- ARROW-18135 - [C++] 避免ExecBatch::length可能未初始化的警告 (#14480)
- ARROW-18137 - [Python][文档] 添加关于TableGroupBy.aggregation与空列表的信息 (#14482)
- ARROW-18144 - [C++] 改进测试中的JSONTypeError错误消息 (#14486)
- ARROW-18147 - [Go] 为Decimal类型添加Scalar Add/Sub (#14489)
- ARROW-18151 - [CI] 避免某些conda URL不必要的重定向 (#14494)
- ARROW-18152 - [Python] pyarrow Table的DataFrame交换协议
- ARROW-18169 - [网站] 不在fork仓库上运行开发文档更新
- ARROW-18173 - [Python] 放弃旧版本的Pandas (<1.0) (#14631)
- ARROW-18174 - [R] 修复某些构建上的altrep.cpp编译 (#14530)
- ARROW-18177 - [Go] 为Temporal类型添加Add/Sub (#14532)
- ARROW-18178 - [Java] ArrowVectorIterator错误地关闭了Vectors (#14534)
- ARROW-18184 - [C++] 改进JSON解析器基准测试 (#14552)
- ARROW-18203 - [R] 重构以消除不必要的build_expr使用 (#14553)
- ARROW-18206 - [C++][CI] 为C++20编译添加夜间构建 (#14571)
- ARROW-18220 - [开发] 移除下载器默认并行级别的魔术数字 (#14563)
- ARROW-18221 - [发布][开发] 添加支持自定义arrow-site目录 (#14564)
- ARROW-18222 - [发布][MSYS2] 自动检测反向依赖 (#14565)
- ARROW-18223 - [发布][Homebrew] 自动检测反向依赖 (#14566)
- ARROW-18224 - [发布][jar] 使用临时目录进行下载 (#14567)
- ARROW-18230 - [Python] 将Cmake参数传递给Python CPP
- ARROW-18233 - [发布][JS] 不将yarn安装到系统 (#14577)
- ARROW-18235 - [C++][Gandiva] 修复带转义字符的like函数实现 (#14579)
- ARROW-18237 - [Java] 扩展Table代码 (#14573)
- ARROW-18238 - [文档][Python] 改进S3FileSystem的文档 (#14599)
- ARROW-18240 - [R] head()在某些夜间构建上崩溃 (#14582)
- ARROW-18243 - [R] Sanitizer夜间故障,指向TimestampType和DurationType之间的混淆
- ARROW-18248 - [CI][发布] 使用GitHub token避免API速率限制 (#14588)
- ARROW-18249 - [C++] 更新vcpkg端口到arrow 10.0.0
- ARROW-18253 - [C++][Parquet] 添加额外的边界安全检查 (#14592)
- ARROW-18259 - [C++][CMake] 添加对系统Thrift CMake包的支持 (#14597)
- ARROW-18264 - [Python] 为时间类型添加缺失的值访问器 (#14746)
- ARROW-18264 - [Python] 暴露time32/time64标量值 (#14637)
- ARROW-18270 - [Python] 移除gcc 4.9兼容代码 (#14602)
- ARROW-18278 - [Java] 调整Maven generate-libs-jni-macos-linux中的路径 (#14623)
- ARROW-18280 - [C++][Python] 在list_slice内核中支持切片到末尾 (#14749)
- ARROW-18282 - [C++][Python] 在list_slice内核中支持步长 >= 1 (#14696)
- ARROW-18287 - [C++][CMake] 添加对vcpkg提供的Brotli/utf8proc的支持 (#14609)
- ARROW-18289 - [发布][vcpkg] 添加一个脚本来更新vcpkg的arrow端口 (#14610)
- ARROW-18291 - [发布][文档] 更新发布方式 (#14612)
- ARROW-18292 - [发布][Python] 上传.wheel/.tar.gz用于发布而非RC (#14708)
- ARROW-18303 - [Go] 允许轻松导入计算模块 (#14690)
- ARROW-18306 - [R] 计算函数更新后测试失败 (#14620)
- ARROW-18318 - [Python] 暴露Scalar.validate() (#15149)
- ARROW-18321 - [R] 为binary_slice内核添加测试 (#14647)
- ARROW-18323 - 在GitHub问题中启用问题模板 (#14675)
- ARROW-18332 - [Go] 将字典类型转换为值类型 (#14650)
- ARROW-18333 - [Go][文档] 更新计算函数文档 (#14815)
- ARROW-18336 - [发布][文档] 不更新主版本中未包含的版本 (#14653)
- ARROW-18337 - [R] POSIXlt对象可能处理不当 (#15277)
- ARROW-18340 - [Python] PyArrow C++头文件不再总是包含在已安装的pyarrow中 (#14656)
- ARROW-18341 - [文档][Python] 更新关于在Windows上捆绑Arrow C++的说明 (#14660)
- ARROW-18342 - [C++] AsofJoinNode支持布尔数据字段 (#14658)
- ARROW-18345 - [R] 创建一个CRAN特定的打包清单,存放在R包目录中 (#14678)
- ARROW-18348 - [CI][发布][Yum] AlmaLinux 9需要redhat-rpm-config (#14661)
- ARROW-18350 - [C++] 使用std::to_chars而不是std::to_string (#14666)
- ARROW-18358 - [R] 实现新函数open_dataset_csv,其签名更接近read_csv_arrow
- ARROW-18361 - [CI][Conan] 合并上游更改 (#14671)
- ARROW-18363 - [文档] 包含查看旧文档时的警告(重定向到stable/dev文档) (#14839)
- ARROW-18366 - [打包][RPM][Gandiva] 修复AlmaLinux 9上的链接错误 (#14680)
- ARROW-18367 - [C++] 启用命名表关系的创建 (#14681)
- ARROW-18373 - 修复组件下拉菜单,添加许可文本 (#14688)
- ARROW-18377 - 迁移:从问题表单内容自动化组件标签 (#15245)
- ARROW-18380 - [开发] 更新dev_pr GitHub工作流以接受GitHub问题和JIRA (#14731)
- ARROW-18384 - [发布][MSYS2] 显示拉取请求标题 (#14709)
- ARROW-18391 - [R] 修复开发文档中的版本选择下拉菜单 (#14800)
- ARROW-18395 - [C++] 将select-k实现移动到单独的模块
- ARROW-18399 - [Python] 减少测试期间的警告 (#14729)
- ARROW-18401 - [R] 测试test-r-rhub-ubuntu-gcc-release-latest失败 (#14894)
-
ARROW-18402 - [C++] 暴露
DeclarationInfo(#14765) - ARROW-18406 - [C++] 无法在Ubuntu 20.04上使用Substrait构建Arrow (#14735)
- ARROW-18407 - [发布][网站] 发布日期使用UTC (#14737)
- ARROW-18409 - [GLib][Plasma] 构建plasma-glib时抑制弃用警告 (#14739)
- ARROW-18410 - [打包][Ubuntu] 添加对Ubuntu 22.10的支持 (#14740)
- ARROW-18413 - [C++][Parquet] 从ColumnChunkMetaData暴露页面索引信息 (#14742)
- ARROW-18418 - [网站] 不要删除/datafusion-python
- ARROW-18419 - [C++] 更新vendored fast_float (#14817)
- ARROW-18420 - [C++][Parquet] 引入ColumnIndex & OffsetIndex (#14803)
- ARROW-18421 - [C++][ORC] 在读取器中添加条带信息的访问器 (#14806)
- ARROW-18423 - [Python] 暴露从IPC消息读取schema的功能 (#14831)
- ARROW-18426 - 更新网站上的提交者和PMC成员
-
ARROW-18427 - [C++] 支持
AsofJoinNode中的负容差 (#14934) - ARROW-18428 - [网站] 在arrow-site仓库上启用github问题
- ARROW-18435 - [C++][Java] 更新ORC到1.8.1 (#14942)
- GH-14474 - 尽可能地删除对共享指针的R引用 (#15278)
- GH-14720 - [开发] 更新merge_arrow_pr脚本以接受GitHub问题 (#14750)
- GH-14755 - [Python] 将QuotingStyle暴露给Python (#14722)
- GH-14761 - [开发] 更新PR labeler上的标签以使用新的组件标签 (#14762)
- GH-14778 - [Python] 添加(Chunked)Array sort()方法 (#14781)
- GH-14784 - [开发] 添加在GitHub问题评论上自动分配的可能性 (#14785)
- GH-14786 - [Java][文档] 替换文件夹内文档 (#14789)
- GH-14787 - [Java][文档] 更新table.rst (#14794)
- GH-14809 - [开发] 将创建的GitHub问题添加到 issues@arrow.apache.org (#14811)
- GH-14816 - [发布] 使dev/release/06-java-upload.sh可从其他项目重用 (#14830)
- GH-14824 - [CI] r-binary-packages应仅在所有测试成功时上传Artifacts (#14841)
- GH-14844 - [Java] 比较非空字段类型时短路空检查 (#15106)
- GH-14846 - [开发] 在download_rc_binaries.py中支持GitHub Releases (#14848)
- GH-14854 - 对.md页面进行更改 (#14852)
-
GH-14869 - [C++] 添加定义
_STATIC到Cflags.private .pc.in. (#14900) - GH-14873 - [Java] DictionaryEncoder可以在不构建DictionaryHashTable的情况下解码 (#14874)
- GH-14885 - [文档] 对New Contrib Guide进行更改 (Jira -> GitHub) (#14889)
- GH-14901 - [Java] ListSubfieldEncoder和StructSubfieldEncoder可以在不使用DictionaryHashTable的情况下解码 (#14902)
- GH-14918 - [文档] 对文档的开发人员部分进行更改 (Jira -> GitHub) (#14919)
- GH-14920 - [C++][CMake] 添加对Arrow CMake包中缺失的-latomic支持 (#15251)
- GH-14937 - [C++] 添加rank内核基准测试 (#14938)
- GH-14951 - [C++][Parquet] 添加DELTA_BINARY_PACKED编码的基准测试 (#15140)
- GH-14961 - [Ruby] 使用较新的extpp支持C++17 (#14962)
- GH-14975 - [Python] Dataset.sort_by (#14976)
- GH-14976 - [Python] 避免Table.sort_by对执行计划的依赖以修复最小测试 (#15268)
- GH-14977 - [开发][CI] 将notify-token-expiration添加到archery (#14978)
- GH-14981 - [R] 与dplyr::join_by()的向前兼容性 (#33664)
- GH-14986 - [发布] 不在maint-X.Y.Z分支上检测上一版本 (#14987)
- GH-14992 - [打包] 使dev/release/binary-task.rb可从其他项目重用 (#14994)
- GH-14997 - [发布] 确保archery发布任务同时适用于新式GitHub问题和旧式JIRA问题 (#33615)
- GH-14999 - [发布][Archery] 更新archery发布变更日志以支持GitHub问题
- GH-15002 - [发布][Archery] 更新archery发布cherry-pick以支持GitHub问题
- GH-15005 - [Go] 添加scalar.Append以将标量附加到构建器 (#15006)
- GH-15009 - [R] 带有str_like函数的stringr 1.5.0已经发布 (#15010)
- GH-15012 - [打包][deb] 为Debian GNU/Linux bookworm使用系统Protobuf (#15013)
- GH-15035 - [CI] 从CI中移除不受支持的turbodbc任务和脚本 (#15036)
- GH-15050 - [Java][文档] 更新并整合内存文档 (#15051)
- GH-15072 - [C++] 将round功能移动到单独的模块 (#15073)
- GH-15074 - [Parquet][C++] 将16位page_ordinal更改为32位 (#15182)
- GH-15081 - [发布] 添加对在dev/release/05-binary-upload.sh中使用自定义artifacts目录的支持 (#15082)
- GH-15084 - [Ruby] 在Table#join中当keys.nil?时使用通用键 (#15088)
- GH-15085 - [Ruby] 添加ColumnContainable#column_names (#15089)
- GH-15087 - [发布] 减慢从GitHub下载RC二进制文件的速度 (#15090)
- GH-15096 - [C++] Substrait ProjectRel发射优化 (#15097)
- GH-15100 - [C++][Parquet] 为从Parquet读取字符串添加基准测试 (#15101)
- GH-15119 - [发布][文档][R] 在补丁发布中更新版本信息 (#15120)
- GH-15134 - [Ruby] 为旧Xcode显式指定-mmacox-version-min=10.14 (#15135)
-
GH-15146 - [GLib] 添加
GADatasetFinishOptions(#15147) - GH-15151 - [C++] 添加RecordBatchReaderSource以解决R API中的问题 (#15183)
- GH-15168 - [GLib] 添加对半浮点数的支持 (#15169)
- GH-15174 - [Go][FlightRPC] 暴露Flight Server Desc和RegisterFlightService (#15177)
- GH-15185 - [C++][Parquet] 改进Parquet Reader column_indices的文档 (#15184)
- GH-15199 - [C++][Substrait] 允许AGGREGATION_INVOCATION_UNSPECIFIED作为有效调用 (#15198)
- GH-15200 - [C++] 为round内核创建了基准测试。 (#15201)
- GH-15205 - [R] 修复R测试中的parquet-fixture查找 (#15207)
- GH-15216 - [C++][Parquet] Parquet写入器接受RecordBatch (#15240)
- GH-15218 - [Python] 移除自动生成的pyarrow_api.h和pyarrow_lib.h (#15219)
- GH-15226 - [C++] 将DurationType添加到哈希内核 (#33685)
- GH-15237 - [C++] 添加 ::arrow::Unreachable() 使用std::string_view (#15238)
- GH-15239 - [C++][Parquet] Parquet写入器将十进制写入为int32/64 (#15244)
- GH-15249 - [文档] 添加PR模板 (#15250)
- GH-15257 - [GLib][Dataset] 添加GADatasetHivePartitioning (#15272)
- GH-15265 - [Java] 发布SBOM Artifacts (#15267)
- GH-15289 - [Ruby] 将Table保存到csv时返回self (#33653)
- GH-15290 - [C++][Compute] 优化IfElse内核AAS/ASA案例,当标量为空时 (#15291)
- GH-33607 - [C++] 支持内联访问函数的可选附加参数 (#33608)
- GH-33610 - [开发] 不允许带有ARROW前缀的ticket合并或用于PR标题 (#33611)
- GH-33619 - [文档] 更新PR模板 (#33620)
- GH-33657 - [C++] arrow-dataset.pc在没有ARROW_PARQUET=ON的情况下不依赖于parquet.pc (#33665)
-
GH-33670 - [GLib] 添加
GArrowProjectNodeOptions(#33677) -
GH-33671 - [GLib] 添加
garrow_chunked_array_new_empty()(#33675) - PARQUET-2179 - [C++][Parquet] 添加跳过重复字段的测试 (#14366)
- PARQUET-2188 - [parquet-cpp] 向RecordReader添加SkipRecords API (#14142)
- PARQUET-2204 - [parquet-cpp] TypedColumnReaderImpl::Skip应重用暂存空间 (#14509)
- PARQUET-2206 - [parquet-cpp] ColumnReader ReadBatch和Skip的微基准测试 (#14523)
- PARQUET-2209 - [parquet-cpp] 优化跳过,当要跳过的值数量等于页面大小时 (#14545)
- PARQUET-2210 - [C++][Parquet] 使用回调函数根据头部元数据跳过页面 (#14603)
- PARQUET-2211 - [C++] 打印ColumnMetaData.encoding_stats字段 (#14556)
Bug 修复
- ARROW-11631 - [R] 为Decimal类型实现RPrimitiveConverter
- ARROW-15026 - [Python] 如果datetime.timedelta到pyarrow.duration转换溢出则报错 (#13718)
- ARROW-15328 - [C++][文档] 文档中缺少流式CSV读取器 (#14452)
- ARROW-15822 - [C++] 不支持持续时间转换为字符串(从而CSV写入) (#14450)
- ARROW-16464 - [C++][CI][GPU] 添加CUDA CI (#14497)
- ARROW-16471 - [Go] RecordBuilder UnmarshalJSON处理复杂值 (#14560)
- ARROW-16547 - [Python] 使用timestamp_as_object时,to_pandas在FixedOffset时区下失败 (#14448)
- ARROW-16795 - [C#][Flight] 夜间verify-rc-source-csharp-macos-arm64失败 (#15235)
- ARROW-16817 - [C++] 使用无效类型测试ORC写入器错误 (#14638)
- ARROW-17054 - [R] 从大于2^31的对象创建数组会导致长度为0的数组 (#14929)
- ARROW-17192 - [Python] 在read_feather中将**kwargs传递给to_pandas() (#14492)
- ARROW-17332 - [R] read_csv_arrow解析带重音字符('c:/Público')的文件夹路径时出错 (#14930)
- ARROW-17361 - [R] dplyr::summarize在除数是变量时除法失败 (#14933)
- ARROW-17374 - [C++] Snappy包可能在没有CMAKE_BUILD_TYPE的情况下构建 (#14818)
- ARROW-17458 - [C++] 十进制和字符串之间的转换 (#14232)
- ARROW-17538 - [C++] 导入数组流时导入schema (#15037)
- ARROW-17637 - [R][us][s] (#14935)
- ARROW-17692 - [R] 添加对使用系统AWS SDK C++构建的支持 (#14235)
- ARROW-17772 - [文档] Sphinx / reST标记错误
- ARROW-17774 - [Python] 为decimals到csv添加python测试 (#14525)
- ARROW-17858 - [C++] arrow/csv/parser.h中的编译警告 (#14445)
- ARROW-17893 - [Python] 测试timedelta的读取是否稳定 (read_feather/to_pandas) (#14531)
- ARROW-17985 - [C++][Python] 改进S3FS错误消息,当区域错误时 (#14601)
- ARROW-17991 - [Python][C++] 添加对IpcWriteOptions到数据集ipc文件写入器的支持 (#14414)
- ARROW-18052 - [Python] 支持通过pq.write_to_dataset传递create_dir (#14459)
- ARROW-18068 - [开发][Archery][Crossbow] 评论机器人仅在链接不可用时等待任务 (#14429)
- ARROW-18070 - [C++] 为substrait测试调用google::protobuf::ShutdownProtobufLibrary (#14508)
- ARROW-18086 - [Ruby] 添加对HalfFloat的支持 (#15204)
- ARROW-18087 - [C++] RecordBatch::Equals不应忽略字段名称 (#14451)
- ARROW-18088 - [CI][Python] 修复与timedelta相关的pandas master/nightly构建失败 (#14460)
- ARROW-18101 - [R] 带有UDF的ExecPlan中的RecordBatchReaderHead无法读取 (#14518)
- ARROW-18106 - [C++] JSON读取器在default unexpected_field_behavior="infer"时忽略显式schema (#14741)
- ARROW-18117 - [C++] 修复静态捆绑构建 (#14465)
- ARROW-18118 - [发布][开发] 修复10.0.0-rc0的02-source.sh/03-binary-submit.sh中的问题 (#14468)
- ARROW-18123 - [Python] 修复文件名中包含多字节字符的文件写入问题 (#14764)
- ARROW-18125 - [Python] 处理pytest 8关于pytest.warns(None)的弃用 (#14498)
- ARROW-18126 - [Python] 在构建pyarrow C++时移除ARROW_BUILD_DIR (#14498)
- ARROW-18128 - [Java][CI] 更新Java Nightlies X.Y.Z-SNAPSHOT文件夹的时间戳 (#14496)
-
ARROW-18149 - [C++] 修复
join_example的构建失败 (#14490) - ARROW-18157 - [开发][Archery] "archery docker run"在继承时将env var设置为None (#14501)
- ARROW-18158 - [CI] 在安装conda cpp环境时使用默认Python版本以修复conda构建 (#14500)
-
ARROW-18159 - [Go][发布] 将
go install添加到verify-release脚本 (#14503) - ARROW-18161 - [Ruby] 在子对象中引用源输入 (#15217)
- ARROW-18164 - [Python] 在Dataset扫描中遵循默认内存池 (#14516)
- ARROW-18167 - [Go][发布] 使用发布更新go.work (#14522)
- ARROW-18172 - [CI][发布] 源发布和合并脚本任务在master上失败
- ARROW-18183 - [C++] cpp-micro基准测试在mac arm机器上失败 (#14562)
- ARROW-18188 - [CI] CUDA夜间docker上传因标签错误而失败 (#14538)
- ARROW-18195 - [C++] 修复当条件为空时case_when产生错误数据的问题 (#15131)
- ARROW-18202 - [C++] 重新允许对空字符串进行正则替换 (#15132)
- ARROW-18205 - [C++] Substrait消费者在join时不正确地转换右侧引用 (#14558)
- ARROW-18207 - [Ruby] 10.0.0的RubyGems尚未更新
- ARROW-18209 - [Java] 使ComplexCopier与MapWriter(UnionMapWriter)的特定实现无关 (#14557)
- ARROW-18212 - [C++] NumericBuilder::Reset()不重置所有成员 (#14559)
- ARROW-18225 - [Python] 完全支持parquet.write_metadata中的文件系统 (#14574)
- ARROW-18227 - [CI][打包] 如果conda search引发PackagesNotFound,则不使conda-clean失败 (#14569)
- ARROW-18229 - [Python] 检查RecordBatchReader.from_batches中的schema参数类型 (#14583)
- ARROW-18231 - [C++][CMake] 添加对覆盖优化级别的支持 (#15022)
- ARROW-18246 - [Python][文档] PyArrow表join docstring中left和right suffix参数的拼写错误 (#14591)
- ARROW-18247 - [JS] 修复:Vector.toArray()中的RangeError崩溃 (#14587)
- ARROW-18256 - [C++][Windows] 为外部共享Thrift使用IMPORTED_IMPLIB (#14595)
- ARROW-18257 - [Python] 返回具有正确类型类的时间类型 (#14633)
- ARROW-18269 - [C++] 处理Hive风格分区值中的斜杠字符 (#14646)
- ARROW-18272 - [Python] 支持ParquetFile中的文件系统参数 (#14717)
- ARROW-18284 - [Python][文档] 添加缺失的CMAKE_PREFIX_PATH以允许setup.py CMake调用找到Arrow CMake包 (#14586)
- ARROW-18290 - [C++] URI编码中转义所有特殊字符 (#14645)
- ARROW-18309 - [Go] 修复delta位打包解码恐慌 (#14649)
- ARROW-18320 - [C++][FlightRPC] 修复Flight客户端中不正确的Status/Result转换 (#14859)
- ARROW-18334 - [C++] 通过重新绑定处理潜在的不可交换性 (#14659)
- ARROW-18339 - [Python][CI] 添加DYLD_LIBRARY_PATH以避免macOS任务中需要PYARROW_BUNDLE_ARROW_CPP (#14643)
- ARROW-18343 - [C++] 移除带out参数的AllocateBitmap() (#14657)
- ARROW-18351 - [C++][FlightRPC] 修复DoExchange与UCX的崩溃问题 (#15031)
- ARROW-18353 - [C++][FlightRPC] 防止UCX中并发Finish (#15034)
- ARROW-18360 - [Python] FlightClient.do_put中schema=None时不崩溃 (#14698)
- ARROW-18374 - [Go][CI][基准测试] 修复Go基准测试github信息 (#14691)
- ARROW-18374 - [Go][CI][基准测试] 修复Conbench更改后的Go基准测试脚本 (#14689)
- ARROW-18379 - [Python] 将_plasma_store_entry_point中的warnings更改为_warnings (#14695)
- ARROW-18382 - [C++] 在模糊测试构建中设置ADDRESS_SANITIZER (#14702)
- ARROW-18383 - [C++] 避免线程池和at-fork处理程序的全局变量 (#14704)
- ARROW-18389 - [CI][Python] 更新夜间测试-conda-python-3.7-pandas-0.24到pandas >= 1.0 (#14714)
- ARROW-18390 - [CI][Python] 更新spark测试模块以匹配spark master (#14715)
- ARROW-18392 - [Python] 修复test_s3fs_wrong_region;设置anonymous=True (#14716)
- ARROW-18394 - [Python][CI] 修复使用pandas dev的夜间任务(暂时跳过测试) (#15048)
- ARROW-18397 - [C++] 在S3关闭时清除S3区域解析器客户端 (#14718)
- ARROW-18400 - [Python] Table.to_pandas处理嵌套数据时的二次内存使用
- ARROW-18405 - [Ruby] 避免在Arrow::Table.new中重建分块数组 (#14738)
- ARROW-18412 - [C++][R] Windows构建因缺少ChunkResolver符号而失败 (#14774)
- ARROW-18424 - [C++] 修复ARROW_ENGINE_EXPORT上的Doxygen错误 (#14845)
- ARROW-18429 - [R]:10.0.1补丁发布后提升开发版本 (#14887)
- ARROW-18436 - [C++] 确保URI路径中特殊字符的正确(不)转义 (#14974)
- ARROW-18437 - [C++][Parquet] 修复DELTA_BINARY_PACKED编码器在多次刷新时的问题 (#14959)
- GH-14745 - [R] {rlang} 依赖必须至少为1.0.0版本,因为check_dots_empty (#14744)
- GH-14775 - [Go] 修复UnionBuilder.Len实现 (#14776)
- GH-14780 - [Go] 修复IPC写入切片map/list数组的问题 (#14793)
- GH-14791 - [JS] 修复BitmapBufferBuilder大小截断 (#14881)
- GH-14805 - [格式] C数据接口:澄清缓冲区指针的可空性 (#14808)
- GH-14819 - [CI][RPM] 为CentOS 9 Stream上的构建失败添加 workaround (#14820)
- GH-14828 - [CI][Conda] 与conda-forge同步,修复夜间任务 (#14832)
- GH-14842 - [C++] 在JSON chunker中传播一些错误 (#14843)
- GH-14849 - [CI] R install-local构建有时因为sccache超时而失败 (#14850)
- GH-14855 - [C++] 支持导入零案例union (#14857)
- GH-14856 - [CI] Azure构建因docker权限错误而失败 (#14858)
- GH-14865 - [Go][Parquet] 解决pqarrow中缓冲区的几个内存泄漏问题 (#14878)
- GH-14872 - [R] 当使用多个group_by/summarise语句时,arrow返回错误的变量内容 (#14905)
- GH-14875 - [C++] C数据接口:检查导入的缓冲区是否非空 (#14814)
- GH-14876 - [Go] 处理C数据接口中的崩溃 (#14877)
- GH-14883 - [Go] 修复IPC编码空映射 (#14904)
- GH-14883 - [Go] ipc.Writer在压缩body时泄漏内存 (#14892)
- GH-14884 - [CI] R安装资源可能出现404错误 (#14893)
- GH-14890 - [Java] 修复DictionaryEncoder在抛出异常时的内存泄漏 (#14891)
- GH-14907 - [R] right_join()函数未产生预期结果 (#15077)
- GH-14909 - [Java] 防止ListSubfieldEncoder和StructSubfieldEncoder潜在的内存泄漏 (#14910)
- GH-14916 - [C++] 移除关于"ConcatenateBuffers"的API声明 (#14915)
- GH-14927 - [开发] Crossbow提交不适用于细粒度PAT (#14928)
- GH-14940 - [Go][Parquet] 修复加密列写入 (#14954)
- GH-14943 - [Python] 修复pyarrow.get_libraries()顺序 (#14944)
- GH-14945 - [Ruby] 添加对macOS 12 / Xcode 14的支持 (#14960)
- GH-14947 - [R] 与dplyr 1.1.0的兼容性 (#14948)
- GH-14949 - [CI][发布] 失败时输出脚本的stdout (#14957)
- GH-14967 - [R] 最小夜间构建失败 (#14972)
- GH-14968 - [Python] 修复数据集ORC写入时的段错误 (#15049)
- GH-14990 - [C++][Skyhook] 遵循FileFormat API更改 (#15086)
- GH-14993 - [CI][Conda] 修复现在conda构建预期的缺失RECIPE_ROOT变量 (#15014)
- GH-14995 - [Go][FlightSQL] 修复Supported Unions Constant (#15003)
- GH-15001 - [R] 修复Parquet数据类型测试失败 (#15197)
- GH-15007 - [CI][RPM] 忽略导入失败的键 (#15008)
- GH-15023 - [CI][打包][Java] 强制使用Homebrew的libz3.a (#15024)
- GH-15025 - [CI][C++][Homebrew] 确保移除Python相关命令 (#15026)
-
GH-15028 - [R][文档] R中
NOT_CRAN应为"true"而不是TRUE(#15029) - GH-15040 - [C++] 改进ARROW_BUILD_SHARED=OFF的pkg-config支持 (#15075)
- GH-15042 - [C++][Parquet] 在后续字典批次上更新统计信息 (#15179)
- GH-15043 - [Python][文档] 更新pyarrow.decompress的docstring (#15061)
- GH-15052 - [C++][Parquet] 修复DELTA_BINARY_PACKED解码器在只读取一个值时的问题 (#15124)
- GH-15062 - [C++] 简化EnumParser行为 (#15063)
- GH-15064 - [Python][CI] Dask夜间测试因fsspec bug而失败 (#15065)
- GH-15069 - [C++][Python][FlightRPC] 使DoAction真正流式 (#15118)
- GH-15080 - [CI][R] 重新启用Windows上R 4.1的二进制包任务 (#25359)
- GH-15092 - [CI][C++][Homebrew] 确保移除Python相关命令(再次) (#15093)
- GH-15094 - [CI][发布][Ruby] 通过APT安装Bundler (#15095)
- GH-15110 - [R][CI] Windows构建在打包任务中失败 (#15111)
- GH-15114 - [R][C++][CI] Homebrew无法在GHA运行器上安装Python 3.11 (#15116)
- GH-15115 - [R][CI] pyarrow测试在macos 10.13上因缺少pyarrow wheel而失败 (#15117)
- GH-15122 - [基准测试][Python] 为基准测试构建设置ARROW_INSTALL_NAME_RPATH=ON (#15123)
- GH-15126 - [R] purrr::rerun在purrr 1.0.0中已弃用 (#15127)
-
GH-15136 - [Python][macOS] 为libarrow_python.dylib使用
@rpath(#15143) - GH-15141 - [C++] 修复由于不稳定排序导致的不稳定测试 (#15142)
- GH-15150 - [C++][FlightRPC] 在DoAction中等待副作用 (#15152)
- GH-15156 - [JS] 修复无法找到变量: BigInt64Array (#15157)
- GH-15172 - [Python] Docstring测试失败 (#15186)
- GH-15176 - 修复ARROW-17980和ARROW-15732引入的asof-join基准测试中的各种问题 (#15190)
- GH-15189 - [R] 在MacOS 10.13上跳过S3测试 (#33613)
- GH-15243 - [C++] 修复group-by节点中潜在的死锁 (#33700)
- GH-15254 - [GLib] garrow_execute_plain_wait()检查完成状态 (#15255)
- GH-15259 - [CI] 组件分配因拼写错误而失败 (#15260)
- GH-15264 - [C++] 添加禁用预读的扫描器测试并修复相关bug (#29185)
- GH-15274 - [Java][FlightRPC] 处理空keystore密码 (#15276)
- GH-15282 - [CI][C++] 在.travis.yaml中添加CLANG_TOOLS变量 (#32972)
- GH-15292 - [C++] ExtensionArray中缺少Typeclass别名 (#15293)
- GH-25633 - [CI][Java][macOS] 确保使用捆绑的RE2 (#33711)
- GH-26209 - [Ruby] 添加对Ruby 2.5的支持 (#33602)
- GH-26394 - [Python] 不对导入的目标使用target_include_directories() (#33606)
- GH-33626 - [打包][RPM] 不移除非目标架构的元数据 (#33672)
- GH-33638 - [C++] 移除ExecPlan::Make弃用警告 (#33658)
- GH-33643 - [C++] 移除在c++20中无效的隐式=捕获this (#33644)
- GH-33666 - [R] 移除semi_join的额外参数 (#33693)
- GH-33667 - [C++][CI] 为ASAN使用Ubuntu 22.04 (#33669)
- GH-33687 - [开发] 修复合并脚本中的提交消息生成 (#33691)
- GH-33705 - [R] 修复README上的链接 (#33706)