Apache Arrow 9.0.0 (2022年8月3日)
这是一个涵盖超过3个月开发的大版本发布。
下载
贡献者
此版本包括来自 114 位不同贡献者的 529 个提交。
$ git shortlog -sn apache-arrow-8.0.0..apache-arrow-9.0.0
65 Sutou Kouhei
56 Raúl Cumplido
26 David Li
25 Jacob Wujciak-Jens
25 Neal Richardson
23 Will Jones
17 Alenka Frim
16 Dragoș Moldovan-Grünfeld
15 Antoine Pitrou
14 Weston Pace
14 Vibhatha Lakmal Abeykoon
12 Krisztián Szűcs
10 Rok Mihevc
9 Wes McKinney
9 Yibo Cai
8 david dali susanibar arce
7 Matt Topol
6 Alessandro Molina
6 rtpsw
6 Todd Farmer
6 Matthew Topol
5 Matt DePero
5 Joris Van den Bossche
5 Sasha Krassovsky
4 Jeroen van Straten
4 Hongze Zhang
4 Mark Wolfe
4 Ivan Chau
4 Nic Crane
4 Larry White
3 Vibhatha Abeykoon
3 Sanjiban Sengupta
3 SHIMA Tatsuya
3 Vinícius Roque
3 michalursa
3 eitsupi
3 Johnnathan
3 palak-9202
2 SG011
2 AlvinJ15
2 Anthony Louis
2 Dewey Dunnington
2 Jabari Booker
2 Johnnathan Almeida
2 Kazuaki Ishizaki
2 Muthunagappan Muthuraman
2 Paul Taylor
2 Phillip Cloud
2 Sahaj Gupta
2 William Hyun
2 Yaron Gvili
2 octalene
2 okadakk
1 Mathias Michael
1 Jürgen Walter
1 Jin Chengcheng
1 Maya Anderson
1 Min-Young Wu
1 okadak
1 Jacky Lee
1 JabariBooker
1 Nicola Crane
1 zhang chaoming
1 Alexandre de Siqueira
1 Phillip LeBlanc
1 Przemysław Kowolik
1 Rafael Telles
1 Ian Cook
1 Rishabh Rana
1 Robert Purdom
1 Hideaki Hayashi
1 Hamish Nicholson
1 Even Rouault
1 pschou
1 Sam Albers
1 Eric Erhardt
1 ElenaHenderson
1 Saul Pwanson
1 Sten Larsson
1 Edward Visel
1 Thomas Powell
1 Tobias Zagorni
1 Dominik Moritz
1 Dominic Barnes
1 Danielle Navarro
1 Christopher D. Higgins
1 Chris Casola
1 Austin Dickey
1 Ariana Villegas
1 William Ayd
1 William Butler
1 Alexandre Crayssac
1 WilliamWhispell
1 stczwd
1 Anja Kefala
1 Yuqi Gu
1 alexandreyc
1 alexdesiqueira
1 Andy Teucher
1 Amir Khosroshahi
1 emkornfield
1 karldw
1 lfygh
1 Alvin Chunga
1 nullptr
1 zagto
1 Kshiteej K
1 Li Jin
1 Liang-Chi Hsieh
1 Ling Jin
1 Konstantin Ilchenko
1 Martin Liu
1 Masato Kato
1 KBambrick1
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-8.0.0..apache-arrow-9.0.0
126 Sutou Kouhei
75 Antoine Pitrou
67 David Li
40 Neal Richardson
34 Weston Pace
25 Matthew Topol
24 Krisztián Szűcs
19 Joris Van den Bossche
17 Nic Crane
17 Alessandro Molina
16 Yibo Cai
15 Pindikura Ravindra
9 Wes McKinney
7 Jonathan Keane
6 Dewey Dunnington
5 Alenka Frim
4 Matt Topol
4 Dominik Moritz
3 Rok
3 Eric Erhardt
1 Benjamin Kietzman
1 Ian Cook
1 Andrew Lamb
1 Micah Kornfield
更新日志
Apache Arrow 9.0.0 (2022-08-03)
Bug 修复
- ARROW-11341 - [Python][Gandiva] 为 Gandiva 构建器函数添加 NULL/None 检查 (#9289)
- ARROW-12626 - [C++] 支持工具链 xsimd,更新工具链版本至 8.1.0 (#13244)
- ARROW-13129 - [C#] 修复 TableFromRecordBatches (#10562)
- ARROW-13612 - [Python] 允许为将 ExtensionScalar 转换为 python 对象指定自定义类型 (#13454)
- ARROW-14114 - [C++][Parquet] 修复 PME 文件的多线程读取
- ARROW-14518 - [Ruby][BigDecimal] ) (#13377)
-
ARROW-14575 - [R] 允许带有
pkg::前缀的函数 (#13160) - ARROW-14613 - [R] [文档] 将 R 包添加到 C Stream 接口?
- ARROW-14790 - [GLib] 修复创建 GArrowDatum 时的内存泄漏 (#13228)
- ARROW-14889 - [C++] 如果未安装 testbench,GCS 测试会挂起 (#13520)
- ARROW-14989 - [R] 更新 num_rows 方法以输出双精度浮点数而非整数,以防止整数溢出
- ARROW-15415 - [C++] 修复 MSVC + vcpkg Debug 构建 (#13108)
- ARROW-15938 - [C++][计算] 修复构建端零批次情况下 HashJoinBasicImpl 的问题 (#13686)
- ARROW-16002 - [Go] fileBlock.NewMessage 应使用 memory.Allocator (#13554)
- ARROW-16005 - [Java] 修复使用 ArrowVectorIterator 时的 ArrayConsumer 问题 (#12692)
- ARROW-16035 - [Java] 处理空的 JDBC ResultSet
- ARROW-16116 - [C++] 读取 Parquet 时处理不可为空的字段
- ARROW-16142 - [C++] 对于 date32 和 time32 输入,时间 floor/ceil/round 返回不正确的结果 (#13539)
- ARROW-16272 - [Python] 修复 NativeFile.read1()
- ARROW-16302 - [C++] FilenamePartitioning 中分区字段的空值
- ARROW-16309 - [CI] [Go] [Flight] 验证发布作业因以下原因失败:panic: rpc error: code = NotFound desc = Unknown descriptor
- ARROW-16317 - [CI][Dev] 不要在 crossbow 提交操作分支上使用增量 ID
- ARROW-16341 - [Python] 研究 C++ 与 PyArrow 的 CMake
- ARROW-16342 - [Python] PyArrow 构建设置更改的初稿
- ARROW-16343 - [Python] 完善 PyArrow 构建设置更改的初稿
- ARROW-16344 - [Python] 完成 Pyarrow 构建设置更改
- ARROW-16345 - [Python] 由于将 Python C++ API 移动到 PyArrow,对 C++ 构建设置进行更改
- ARROW-16346 - [Python] 由于 Python 代码被移动到 PyArrow,为外部包添加迁移路径
- ARROW-16371 - [JS] 修复迭代无批次表时的错误 (#13287)
- ARROW-16372 - [Python] 在不需要 Parquet 的测试中,使用 IPC 代替 Parquet
- ARROW-16413 - [Python] 某些数据集 API 在使用 python 文件系统时挂起
- ARROW-16420 - [Python] pq.write_to_dataset 总是忽略分区
- ARROW-16425 - [C++] 为标量数组时间戳比较添加计算内核测试
- ARROW-16427 - [Java] 提供显式列类型映射
- ARROW-16434 - [R][CI] 暂时将 devdocs 恢复到 setup-r@v1
- ARROW-16436 - [C++][Python] 数据集不应忽略 CSV autogenerate_column_names
- ARROW-16441 - [Go][Flight][Java] 更新 flight 集成测试,使其在 DoPut 后等待 io.EOF
- ARROW-16442 - [Python][Dataset] 修复 ORC 数据集的分片以使用 FileFragment 类
- ARROW-16456 - [Go] 修复存在额外字段时 RecordBuilder UnmarshalJSON 的问题
- ARROW-16458 - [CI][Python] 在夜间集成上运行 dask S3 测试
- ARROW-16461 - [C++] 修复零星的线程消毒器故障
- ARROW-16473 - [Go] 修复 serializedPageReader 中的内存泄漏
- ARROW-16474 - [C++][打包] 要求 Python 3.7 或更高版本
- ARROW-16478 - [C++] 优化 cpu 信息检测
- ARROW-16489 - [R] 错误的编码导致解析错误
- ARROW-16490 - [C++][Windows] 不要强制使用捆绑的 GoogleTest
- ARROW-16494 - [C++] 添加导致某些打包作业失败的缺失包含
- ARROW-16498 - [C++] 修复 arrow::compute::TaskScheduler 中的潜在死锁
- ARROW-16502 - [Go] 在 StructBuilder 中解组 JSON 时接受缺失的可选字段
- ARROW-16507 - [CI][C++] 在 mamba/conda 中使用系统 gtest
- ARROW-16525 - [C++] Tee 节点未正确标记节点为已完成
- ARROW-16526 - [Python] 使用 PARQUET 但不使用 DATASET 构建时 test_partitioned_dataset 失败
- ARROW-16531 - [Dev] 更新 pre-commit 以使用最新的 flake8 并移除不支持的 cython linting
- ARROW-16534 - [Java] 更新 Gandiva protobuf 库以支持在 M1 上构建
- ARROW-16546 - [Parquet][C++][Python] 使 Thrift 限制可配置 (#13275)
- ARROW-16548 - [Python] 将 pytest.mark.parquet 添加到 tests/parquet 包下的所有测试
- ARROW-16560 - [网站][发布] 修复 versions.json 更新阶段
- ARROW-16563 - [Go][Parquet] 修复损坏的 parquet plain boolean 解码器
- ARROW-16566 - [Java] 在使用时初始化 JNI 组件而不是静态初始化 (#13146)
- ARROW-16572 - [C++] 修复外部项目的 LZ4 构建
- ARROW-16574 - [C++] arrow-ipc-read-write-test 中的 TSAN 故障 (#13245)
- ARROW-16578 - [R] 在写入和读取 parquet 文件后,对 tibble 的列进行 unique() 和 is.na() 操作变得慢得多 (#13415)
- ARROW-16579 - [Go][CI] 修复不稳定的 Struct 测试
- ARROW-16585 - [C++] 添加对绝对 CMAKE_INSTALL_*DIR 的支持
- ARROW-16592 - [C++][Python][FlightRPC] 写入失败后完成操作 (#13191)
- ARROW-16597 - [Python][FlightRPC] 在解释器退出时强制关闭服务器
- ARROW-16604 - [C++] 从基准测试中移除不必要的 Boost 依赖 (#13192)
- ARROW-16606 - [FlightRPC][Python] 处理非小写的头名称 (#13274)
- ARROW-16612 - [R] 修复从文件名推断压缩方式的问题 (#13625)
- ARROW-16617 - [C++] 在 Windows 上添加对多字节系统错误消息的支持
- ARROW-16638 - [Go][Parquet] 修复在布尔列中跳过大量行的问题
- ARROW-16638 - [Go][Parquet] 修复布尔列跳过的问题
- ARROW-16643 - [C++] 修复 clang-14 的警告
- ARROW-16646 - [C++] 允许键列在布隆过滤器中为标量
- ARROW-16659 - [C++] 移除 VectorKernel 的歧义构造函数
- ARROW-16669 - [Go][CI] ARM 上 pqarrow 测试失败 (#13628)
- ARROW-16675 - [C++] 在极端情况下 BufferedOutputStream 的 Tell() 结果不正确 (#13250)
- ARROW-16678 - [R] 无法在 Ubuntu 22.04 上使用 "NOT_CRAN" = TRUE 安装新的 Arrow 8.0.0
- ARROW-16685 - [Python] 在连接操作中保留列的顺序 (#13281)
- ARROW-16692 - [C++] merge 生成器中的 StackOverflow 导致扫描时出现段错误 (#13691)
- ARROW-16694 - [打包][Python] 使用 Mamba 而不是 conda 来构建用于 windows 打包作业的 conda 环境 (#13351)
- ARROW-16699 - [C++][GANDIVA] 修复 Concat_WS 分配错误 (#13276)
- ARROW-16700 - [C++][R][数据集] 对分区列进行聚合 (#13518)
- ARROW-16720 - [R] 无法读取以点开头的列分区的数据集
- ARROW-16722 - [CI][C++] 修复 Minio 故障,指定要使用的 Minio 版本 (#13299)
- ARROW-16723 - [CI] Github Actions 设置失败
- ARROW-16725 - [C++] 修复发布模式下的编译警告 (#13293)
- ARROW-16726 - [Python] 修复 Setuptools 关于将包作为数据安装的警告 (#13309)
- ARROW-16738 - [C++][Gandiva] 修复大整数值的 TO_TIMESTAMP(INTEGER) 函数 (#13298)
- ARROW-16744 - [JavaScript] 修复 yarn perf 失败 (#13305)
- ARROW-16749 - [Go] 修复用于空数组的 pqarrow 写入器
- ARROW-16788 - [C++] 移除 gRPC 不支持的加固标志 (#13346)
- ARROW-16794 - [CI][C++][MinGW] 使 CI 作业更稳定 (#13359)
- ARROW-16796 - [C++] 修复 ExecContext 参数的错误默认设置 (#13355)
- ARROW-16801 - [CI][C++] 使用指定的 MinIO 而不是 Homewbrew 的 MinIO (#13362)
- ARROW-16803 - [R][CI] 修复 R mingw 构建的缓存 (#13379)
- ARROW-16806 - [CI][Python] 提升所需的 setuptools 版本 (#13361)
- ARROW-16807 - [C++][R] count distinct 错误地合并状态 (#13583)
- ARROW-16808 - [C++] count_distinct 在行组间聚合不正确
- ARROW-16813 - [Go][Parquet] 修复 go parquet 字典编码写入器属性
- ARROW-16825 - [Java] 重命名包含提交元数据的文件 git.properties (#13578)
- ARROW-16831 - [Go] 当字符串数组偏移量无效时 ipc.Reader 发生 panic
- ARROW-16848 - [C++][Java] 更新 ORC 至 1.7.5 (#13392)
- ARROW-16864 - [Python] 允许在使用 role_arn 时省略 S3 external_id 和 session_name (#13455)
- ARROW-16869 - [CI][C++][Homebrew] 使用 C++17 构建 Apache Arrow (#13407)
- ARROW-16872 - [C++] 修复 CSV 解析器的极端情况 (#13437)
- ARROW-16877 - [C++] 为 Registry 测试定义自定义打印机以修复 valgrind (#13438)
- ARROW-16881 - [Gandiva][C++] 修复 castINTERVALYEAR 实现 (#13421)
- ARROW-16892 - [Dev][Release] 修复 merge_arrow 脚本中的版本排序 (#13427)
- ARROW-16895 - [R] 修复 cmake 版本检测 (#13429)
- ARROW-16898 - [Python] 修复使用非字符串索引名时 pandas 转换失败的问题 (#13402)
- ARROW-16899 - [R][CI] R 夜间构建使用了旧的 libarrow (#13411)
- ARROW-16902 - [C++][FlightRPC] 修复 Flight SQL 中的 DLL 链接问题 (#13434)
- ARROW-16904 - [C++] 如果 Parquet 文件有多个行组,min/max 不确定 (#13509)
- ARROW-16908 - [Python][CI] 避免安装测试 wheel 所需的错误 numpy 版本 (#13449)
- ARROW-16919 - [C++] Flight 集成测试在 linux amd64 上的 verify rc nightly 构建中失败
- ARROW-16926 - [Go] 修复后续读取覆盖 csv 读取器错误的问题 (#13451)
- ARROW-16932 - [C++] Rounding RoundTemporalOptions.calendar_based_origin 未能正确偏移非 UTC 结果 (#13462)
- ARROW-16933 - [C++] 修复使用捆绑 zlib 构建 google-cloud-cpp 的问题 (#13466)
- ARROW-16936 - [C++] 更新 gRPC absl 静态依赖项 (#13486)
- ARROW-16939 - [R] 修复 ARROW-16407 合并后的夜间构建 (#13479)
- ARROW-16943 - [Java][打包] 修复生成过多 jar 的夜间构建问题 (#13485)
- ARROW-16948 - [C++] 聚合更新后,Benchmark Aggregates 编译失败 (#13489)
- ARROW-16978 - [C#] 间歇性 Archery 失败 (#13573)
- ARROW-16983 - [Go][Parquet] 修复 DeltaByteArrayEncoder 的 EstimatedDataEncodedSize (#13522)
- ARROW-16989 - [C++] Substrait ProjectRel 解释不正确 (#13528)
- ARROW-16994 - [文档][CI] 清理文档警告 (#13533)
- ARROW-16996 - [Java] 基于 BOM 配置配置 Netty/GRPC/Protobuf + 根据 CVE 升级依赖项 (#13544)
- ARROW-16998 - [Java] 升级 commons-codec 依赖项 (#13540)
- ARROW-17013 - [CI][C++] 修复 Ubuntu CPP 22.04 的 arrow 构建 (#13547)
- ARROW-17014 - [CI] 在 Windows 上的 cython 测试中添加 ENABLE_EXTENDED_ALIGNED_STORAGE (#13549)
- ARROW-17018 - [C++][Python] Timedelta dtype 元数据基本单位被 Table.to_pandas() 方法全局修改 (#13553)
- ARROW-17030 - [Python] 确保 dtype 突变测试在 s390x 上有效 (#13560)
- ARROW-17041 - [C++] 修复未初始化的 FixedSizeBinaryScalar 缓冲区值 (#13597)
- ARROW-17045 - [C++] 拒绝文件路径末尾的斜杠 (#13577)
- ARROW-17051 - [C++] 一致地链接 Flight/gRPC/Protobuf (#13599)
- ARROW-17059 - [C++] 修复表达式基准测试 (#13584)
- ARROW-17066 - [C++][Python][Substrait] 将 JSON 转换为二进制时应指定 "ignore_unknown_fields" (#13605)
- ARROW-17071 - [C++][计算] 修复哈希连接节点中的差一错误 (#13616)
- ARROW-17075 - [C++] 在 HDFS 中强制文件名末尾没有斜杠 (#13615)
- ARROW-17087 - [C++] 扫描器测试中的竞争条件 (#13651)
- ARROW-17100 - [C++][Parquet] 修复根据 ARROW-10353 针对 3.0.0 之前编写的 ParquetV2 数据页的向后兼容性 (#13665)
- ARROW-17107 - [Java] 修复集成 JSON 写入器中的可变宽度向量 (#13676)
- ARROW-17111 - [CI][打包] almalinux 9 和 centos 9 打包因缺少 libre2 而安装 arrow 失败
- ARROW-17112 - [Java] 修复 TestArrowReaderWriter.testFileFooterSizeOverflow 在 s390x 上的失败 (#13638)
- ARROW-17115 - [C++] 如果遇到超过 32Ki 行的批处理,HashJoin 会失败 (#13679)
- ARROW-17142 - [Python] 传递 None 时 Parquet FileMetadata.equals() 方法段错误 (#13658)
- ARROW-17174 - [C++] FileSystemDataset FilenamePartitioning 错误 - fsspec 文件系统
- ARROW-17191 - [C++][FlightRPC] 处理连接后的内联切片 (#13696)
- ARROW-17197 - [R] floor_date/ceiling_date lubridate 比较测试在 macOS 上失败 (#13705)
- ARROW-17206 - [R] 跳过测试以修复 snappy sanitizer 问题 (#13704)
- ARROW-17211 - [Java] 修复 gh 和自托管运行器上的 java-jar 夜间构建 (#13712)
- ARROW-17227 - [C++] 扩展哈希连接单元测试以覆盖空和 length=0 的批处理 (#13725)
- ARROW-17234 - [发布][R] 将 r-binary-packages 添加到打包组 (#13734)
- ARROW-17237 - [发布] 在 python_wheel_unix_test.sh 脚本中恢复安装 python 测试依赖项 (#13735)
- ARROW-17238 - [发布] 在 wheel 验证期间关闭 GCS 测试 (#13736)
- ARROW-17246 - [打包][deb][RPM] 不使用系统 jemalloc (#13739)
- PARQUET-2163 - 处理具有大型 fixed_len_byte_arrays 的十进制模式
新功能和改进
- ARROW-602 - [C++] 提供对 Array 内原始元素的迭代器访问
- ARROW-7286 - [Go] 确保 go 实现遵循明确的字典规范
- ARROW-8324 - [R] 添加与 _feather 分开的 read/write_ipc_file (#13626)
- ARROW-10359 - [R] 如果系统要求不满足,则不下载 linux 二进制文件
- ARROW-12203 - [C++][Python] 将默认 Parquet 版本切换到 2.4 (#13280)
- ARROW-13052 - [Gandiva][C++] 添加 regexp_extract 函数
- ARROW-13160 - [CI][C++] 为 vcpkg 构建使用二进制缓存 (#13507)
- ARROW-13388 - [C++][Parquet] 修复文档以反映对 DELTA_LENGTH_BYTE_ARRAY 的读取支持 (#13530)
- ARROW-13388 - [C++][Parquet] 启用 DELTA_LENGTH_BYTE_ARRAY 解码器 (#13386)
- ARROW-13530 - [C++] 实现累积和计算函数
- ARROW-13844 - [文档][发布] 将发布管理指南添加到开发者文档 (#13272)
- ARROW-14163 - [C++] 用于连接的朴素溢出实现
- ARROW-14182 - [C++][计算] 哈希连接性能改进 v2 (#13493)
- ARROW-14185 - [C++] HashJoinNode 应验证 HashJoinNodeOptions (#13051)
- ARROW-14458 - [R] 使用 expect_snapshot() 改进测试
- ARROW-14471 - [R] 实现 lubridate 的各个日期/时间解析器
- ARROW-14512 - [Java][文档] 构建文档时的 JavaDoc 错误
- ARROW-14632 - [Python] 使 write_dataset 参数为仅关键字参数
- ARROW-14771 - [C++] 导出 Protobuf 符号表 (#13387)
- ARROW-14819 - [R] lubridate::qday 的绑定 (#13440)
- ARROW-14820 - [R] 实现 lubridate 计算函数的绑定
- ARROW-14821 - [R] 实现 lubridate 的 floor_date、ceiling_date 和 round_date 的绑定 (#12154)
- ARROW-14821 - [C++] 添加 ceil_is_strictly_greater 和 calendar_based_origin 时间舍入选项(以模仿 lubridate 的日期舍入)(#12657)
- ARROW-14845 - [R] 实现 lubridate 格式化函数的绑定
- ARROW-14848 - [R] 实现 lubridate 的 parse_date_time 绑定
- ARROW-14892 - [Python][C++] GCS 绑定 (#12763)
- ARROW-14945 - [R] 实现用于日期数学计算的 lubridate 函数
-
ARROW-15016 - [R]
show_exec_plan用于arrow_dplyr_query(#13541) - ARROW-15130 - [文档] 添加术语表 (#12868)
- ARROW-15174 - [Java] 整合 JNI 编译
- ARROW-15176 - [Java] 检查 Arrow 当前支持的 Java 版本
- ARROW-15177 - [Java] 检查我们正在为哪些 Java 版本打包
- ARROW-15179 - [Java] 确保支持现代 Java 版本
- ARROW-15222 - [Ruby] 对 Column 上的 Enum 操作使用 Compute (#12053)
- ARROW-15224 - [R] 添加 not_between() 三元内核的绑定
- ARROW-15271 - [R] 重构 do_exec_plan 以返回 RecordBatchReader
- ARROW-15280 - [R] 暴露 FileSystemFactoryOptions
- ARROW-15292 - [R] 在 Ubuntu/Redhat 上默认为二进制 libarrow
- ARROW-15293 - [R] [CI] 将 arrow-r-nightly 迁移到 apache/arrow / crossbow
- ARROW-15301 - [R] 讨论:将 testthat 测试帮助程序移动到 R/test-helpers.R
- ARROW-15365 - [Python] 在 pyarrow.compute.cast 函数中公开完整的转换选项 (#13109)
- ARROW-15422 - [打包][RPM][deb] 添加对 GDB 插件的支持 (#13477)
- ARROW-15430 - [Python] 处理文件系统(接口)中的文档字符串 (#13564)
- ARROW-15498 - [C++][计算] 在哈希连接之间实现布隆过滤器下推
- ARROW-15534 - [C++] 为 substrait consumer 添加便利函数以创建计划而不是声明
- ARROW-15568 - [C++][Gandiva] 实现 Translate 函数 (#12333)
- ARROW-15583 - [C++] 如果生产者使用大型锚点,Substrait consumer 可能会使用大量 RAM
- ARROW-15587 - [C++] 添加对 substrait::ReadRel::LocalFiles::FileOrFiles 指定的所有选项的支持
- ARROW-15590 - [C++] 为 Substrait consumer 添加连接支持 (#13078)
- ARROW-15591 - [C++] 为 Substrait consumer 添加聚合支持 (#13130)
- ARROW-15622 - [R] 为 arrow_dplyr_query 实现 union_all 和 union
- ARROW-15639 - [C++][Python] UDF 标量函数实现
- ARROW-15661 - [Gandiva][C++] 添加 SHA512 函数 (#12404)
- ARROW-15671 - [GLib] 添加对 Vala 的支持
- ARROW-15779 - [Python] 为 Substrait consumer 创建 python 绑定
- ARROW-15804 - [R] 改进提供多个 tryFormats 时 as.Date() 的错误消息
- ARROW-15893 - [CI][Python] 将 python 最小构建添加到夜间构建 (#13113)
- ARROW-15901 - [C++] 在 Substrait 中支持扁平的自定义输出字段名称 (#13069)
- ARROW-15906 - [C++][Python][R] 默认情况下,不创建或删除 S3 桶 (#13206)
- ARROW-15936 - [Ruby] 添加 Arrow::DictionaryArray#raw_records 的测试
- ARROW-15937 - [网站] 8.0.0 发布后将 Flight SQL 子项目页面定向到主文档
- ARROW-15958 - [Java][文档] 改进并记录 StackTrace (#12656)
- ARROW-15959 - [Java][文档] 使用 IntelliJ 改进 Java 开发体验
- ARROW-16006 - [C++][文档] 为动态模式提供行转换示例 (#12775)
- ARROW-16018 - [文档][Python] 在 Python 文档字符串示例上运行 doctests (--doctest-cython)
- ARROW-16018 - [文档][Python] 在 Python 文档字符串示例上运行 doctests (CI 作业)
- ARROW-16018 - [文档][Python] 在 Python 文档字符串示例上运行 doctests (--doctest-modules)
- ARROW-16083 - [C++] 实现 AsofJoin 执行节点 (#13028)
- ARROW-16085 - [C++][R] InMemoryDataset::ReplaceSchema 不会改变扫描输出
- ARROW-16091 - [Python] 继续改进类和方法的文档字符串
- ARROW-16092 - [Python] 处理文件系统(实现)中的文档字符串 (#13416)
- ARROW-16093 - [Python] 处理文件系统(Python 实现)中的文档字符串 (#13595)
- ARROW-16094 - [Python] 处理文件系统(实用工具)中的文档字符串 (#13582)
- ARROW-16144 - [R] 写入压缩数据流(特别是在 S3 上)
- ARROW-16168 - [C++][CMake] 使用目标来添加包含路径
- ARROW-16183 - [C++][FlightRPC] 支持捆绑的 UCX
- ARROW-16206 - [Ruby] 添加对 DictionaryArray#values、#raw_records 的 {Month,DayTime,MonthDayNano} Interval Type 支持 (#13255)
- ARROW-16228 - [CI][打包][Conan] 添加一个作业来测试最小构建
- ARROW-16234 - [C++] 用于 Rank 的向量内核 (#12963)
- ARROW-16241 - [Python] 在使用 use_legacy_dataset=True 时抑制测试中的警告
- ARROW-16243 - [C++][Python] 移除 Parquet ReadSchemaField 方法 (#13060)
- ARROW-16253 - [R] 用于通过 int64() 从 float 转换为 duration 的辅助函数
- ARROW-16255 - [R] 重组日期时间绑定
- ARROW-16267 - [Java] 添加对使用 JDK 18 编译 Java 代码的支持
- ARROW-16268 - [R] 移除长期弃用的函数 (#13550)
- ARROW-16276 - [R] Arrow 8.0 新闻
- ARROW-16281 - [R][CI] 随着 4.2 的发布提升版本
- ARROW-16297 - [R] 改进对离线构建的 ARROW_*_URL 变量的检测
- ARROW-16323 - [Go] 实现字典标量 (#13575)
- ARROW-16324 - [Go] 实现字典统一 (#13529)
- ARROW-16327 - [Java][CI] 将 Java 17 添加到 java 工作流的 CI 矩阵中
- ARROW-16328 - [Java] POC Arrow 模块化
- ARROW-16329 - [Java][C++] 在通过 JNI 编组错误时保留更多上下文 (#13246)
- ARROW-16333 - [发布] 改进夜间报告
- ARROW-16335 - [发布][C++] Windows 源验证在单线程上运行 C++ 测试
- ARROW-16357 - [Archery][Dev] 添加将夜间报告发送到 Zulip/Slack 的可能性
- ARROW-16358 - [CI][Dev] 允许 archery crossbow 为夜间构建生成 CSV 报告
- ARROW-16359 - [Dev][CI] 创建包含夜间构建当前状态的简单静态网站
- ARROW-16360 - [Dev][CI] 将最后成功的提交/日期添加到失败作业的夜间仪表板
- ARROW-16361 - [Dev][Archery] 为夜间构建报告通知添加静态页面链接 (#13450)
- ARROW-16378 - [Archery][CI] 添加 archery crossbow 报告通过 webhook 发送 Zulip 通知报告的可能性
- ARROW-16380 - [C++] 研究在 Arrow-C++ 中内存映射默认开启的位置
- ARROW-16382 - [Python] 在 pyarrow 中默认禁用内存映射 (#13342)
- ARROW-16383 - [C++] 在 Arrow-C++ 中默认禁用内存映射 (#13419)
- ARROW-16394 - [R] 实现 lubridate 的具有年、月和日组件的解析器
- ARROW-16395 - [R] 实现 lubridate 的具有年、月、日、时、分和秒组件的解析器 (#13627)
- ARROW-16400 - [R][CI] 将 arrow-r 夜间/发布构建集成到 Crossbow
- ARROW-16401 - [R][CI] 将 arrow-r-nightly 工作流分解为 Crossbow 任务
- ARROW-16402 - [R][CI] 创建新的 Archery 任务
- ARROW-16403 - [R][CI] 为 R 夜间构建创建 Crossbow 任务
- ARROW-16404 - [R][CI] 研究替代的二进制托管方案
- ARROW-16405 - [R][CI] 使用 nightlies.apache.org 作为开发仓库 (#13241)
- ARROW-16406 - [文档][R] 使用新的夜间位置更新文档
-
ARROW-16407 - [R] 扩展
parse_date_time以覆盖小时、日期和分钟组件 (#13196) - ARROW-16414 - [R] 移除 ARROW_R_WITH_ARROW 和 arrow_available()
-
ARROW-16415 - [R] 更新
strptime绑定签名,添加tz参数 (#13190) - ARROW-16418 - [R] 重构 difftime() 和 as.diffime() 绑定
- ARROW-16426 - [C++] 将 TeeNode 添加到执行引擎
-
ARROW-16439 - [R] 实现
lubridate::fast_strptime的绑定 - ARROW-16444 - [R] 在 R 绑定中实现用户定义的标量函数 (#13397)
- ARROW-16445 - [R][文档] 为在 Linux 上安装 Arrow 包的文章添加简短摘要
- ARROW-16446 - [R] 更新 parse_date_time 以接受无分隔符的字符串
- ARROW-16448 - [CI][Archery] 将 EmailReport 重构为 JinjaReport
- ARROW-16450 - [Go][文档] 在 csv 示例中包含错误处理
- ARROW-16455 - [CI][打包] 将 linux-ppc64le 添加到 conda 上要清理的平台列表中
- ARROW-16467 - [Python] 添加辅助函数 _exec_plan._filter_table 以根据表达式过滤表
- ARROW-16468 - [Python] 使用复杂表达式测试表过滤功能并添加 Expression.apply 方法
- ARROW-16469 - [Python] Table.filter 除布尔数组外还接受布尔表达式
- ARROW-16470 - [文档][Python] 记录按表达式过滤表和数据集 (#13319)
- ARROW-16477 - [打包][deb] 使用 -Dvapi 而不是 -Dvala (#13499)
- ARROW-16477 - [打包][RPM] 添加对 aarch64 上 Amazon Linux 2 的支持 (#13473)
- ARROW-16484 - [Go][Parquet] 更新 parquet 写入器版本
- ARROW-16486 - [Go] 使用 Arm64 GoLang 汇编实现 bit_packing 函数
- ARROW-16487 - [C++][Parquet] 修复带 minmax 的 parquet::Statistics::Equals()
- ARROW-16488 - [Archery][Dev] 允许在聊天报告中发送额外消息
- ARROW-16497 - [R] 更新 NEWS.md 中的版本
- ARROW-16499 - [发布][Ruby] 添加缺失的导出
- ARROW-16500 - [发布][R] r/NEWS.md 更新不使用 GNU sed 扩展
- ARROW-16501 - [文档][C++][R] 从 Google Analytics 迁移到 Matomo
- ARROW-16504 - [Go][CSV] 为读取器添加 arrow.TimestampType 支持
- ARROW-16508 - [Archery][Dev] 添加根据作业成功或失败扩展聊天报告消息的可能性
- ARROW-16509 - [R][文档] 对数据集小插图进行更正
- ARROW-16510 - [R] 添加 GCS 文件系统的绑定 (#13404)
- ARROW-16511 - [R] 在 write_dataset() 中保留模式元数据
- ARROW-16514 - [网站] 为 8.0.0 更新安装页面
- ARROW-16515 - [C++] 为 RecordBatchReader 添加 Close 方法 (#13205)
- ARROW-16516 - [R] 实现 ym() my() 和 yq() 解析器
- ARROW-16523 - [C++] ExecPlan 清理第 1 部分:集中式任务组 (#13143)
- ARROW-16527 - [Gandiva][C++] 添加二进制函数
- ARROW-16529 - [Java] 修复 ArrowVectorIterator.hasNext()
- ARROW-16530 - [Go] 在总是串行的关键位置添加并发性,无论 parallel=true 还是 false
- ARROW-16537 - [Java] 修复 JSE11+ 的数据集模块测试失败
- ARROW-16538 - [Java] 增加模拟 ResultSets 的灵活性
- ARROW-16539 - [C++] 将捆绑的 thrift 提升到 0.16.0
- ARROW-16541 - [R][CI] 减少 lintr 的运行次数
- ARROW-16549 - [C++] 简化 AggregateNodeOptions aggregates/targets (#13150)
- ARROW-16551 - [Go] 改进时间类型
- ARROW-16552 - [Go] 改进 decimal128 实用工具
- ARROW-16553 - [CI][Java] 将 Java 夜间包 (.pom/.jar) 添加到 nightlies.apache 仓库 (#13328)
- ARROW-16554 - [Java] 从 https://nightlies.apache.org/arrow/java/org/apache/arrow/ 下载 Java 夜间构件 (#13352)
- ARROW-16555 - [Go][Parquet] 将 BitBlockCounter 和 VisitBitBlocks 提升到共享的内部实用工具中
- ARROW-16556 - [Go] 向 DataTypes 添加 Layout 方法 (#13136)
- ARROW-16557 - [Go] 启用对 memory.Buffer 对象的切片
- ARROW-16561 - [Go][Parquet] 测试 parquet 根节点配置
- ARROW-16561 - [Go][Parquet] 添加自定义 parquet 根节点的选项
- ARROW-16567 - [文档][Python] Sphinx Copybutton 应忽略 IPython 提示文本 (#13329)
- ARROW-16568 - [Java] 通过 ArrowBuf 的 setBytes 和 getBytes 启用跳过 BOUNDS_CHECKING
- ARROW-16569 - [CI] 将 checkout 操作更新到较新版本
- ARROW-16570 - [R] 使 pkg-config 命令找到所有库
- ARROW-16571 - [Java] 更新 .gitignore 以排除与 JNI 相关的二进制文件
- ARROW-16573 - [C++][格式] 为 C 数据接口添加规范的包含保护
- ARROW-16581 - [C++][Java] 将 ORC 升级到 1.7.4
- ARROW-16582 - [Python][文档] 更新 Python 构建文档以包含数据集
- ARROW-16588 - [C++][FlightRPC] 不要在测试帮助程序中继承 GTest
- ARROW-16590 - [C++] 整合处理行主序存储的文件 (#13218)
- ARROW-16594 - [R] 一致地使用 "getOption" 来设置夜间仓库
- ARROW-16599 - [C++] 实现不带 arrow 的 ExecuteScalarExpressionOverhead 基准测试以进行比较 (#13179)
- ARROW-16600 - [Java] 可配置的 RoundingMode 来处理 BigDecimals 中不一致的精度 (#13433)
- ARROW-16601 - [C++][FlightRPC] 不要为 arrow_flight_testing 强制与静态 GoogleTest 进行静态链接 (#13180)
- ARROW-16602 - [Dev] 使用 GitHub API 合并拉取请求 (#13184)
- ARROW-16607 - [R] 改进 KeyValueMetadata 处理
- ARROW-16609 - [C++] 构建 C++ 时 xxhash 未安装到 dist/lib/include (#13282)
- ARROW-16610 - [Python] 对 pq.write_to_dataset 中的冲突选项引发错误 (#13317)
- ARROW-16613 - [C++][Parquet] 修复重复调用 AppendRowGroups() 的性能问题
- ARROW-16614 - [C++] 对 lz4 的 CMake 目标名称使用 lz4::lz4 (#13193)
- ARROW-16623 - [GLib] 添加 GArrowQuantileOptions (#13374)
- ARROW-16626 - [C++] 为 C++ 流式执行引擎命名
- ARROW-16634 - [Gandiva][C++] 添加 udfdegrees 别名
- ARROW-16636 - [Rust] 为 rust 激活多个 IPC 集成测试 (#13219)
- ARROW-16647 - [C++] 添加对 interval 类型的 unique(), value_counts(), dictionary_encode() 的支持
- ARROW-16648 - [GLib] 添加 MemoryPool 包装器 (#13224)
-
ARROW-16653 - [R] lubridate
parse_date_time绑定支持所有格式 (#13506) - ARROW-16654 - [Dev][Archery] 支持主要版本的 cherry-picking
- ARROW-16655 - [发布] 发布改进
- ARROW-16656 - [CI][发布] 允许 archery 支持 MINOR 工单并更新发布评论以包含 MINOR
- ARROW-16657 - [C++] 支持扩展 ID 注册表的嵌套 (#13232)
- ARROW-16660 - [C#] 添加对 Time32Array 和 Time64Array 的支持 (#13279)
- ARROW-16663 - [发布][Dev] 添加标志到 archery release curate 以仅显示最少信息 (#13284)
- ARROW-16664 - [CI][发布] 自动创建验证发布拉取请求 (#13511)
- ARROW-16665 - [发布] 更新二进制提交以在自动创建的 PR 上跟踪二进制提交任务 (#13612)
- ARROW-16666 - [文档][发布] 更新发布指南以指定新的工作流程和功能冻结 (#13308)
- ARROW-16667 - [CI][发布] 合并后脚本应非必要 (#13593)
- ARROW-16668 - [CI] 为 python wheel 添加 Substrait 支持 (#13239)
- ARROW-16672 - [Java] 允许在 Java C 数据接口中重复字段名 (#13247)
- ARROW-16676 - [C++] ReservationListenableMemoryPool::Impl::bytes_allocated() 应返回其自己的字节数而不是底层池的
- ARROW-16677 - [C++] 支持函数注册表的嵌套 (#13252)
- ARROW-16679 - [R] 如果 CDPATH 不为 null,configure 会失败 (#13313)
- ARROW-16681 - [Python] 修复依赖模块路径的 PyArrow 单元测试文档 (#13318)
- ARROW-16683 - [C++] 为捆绑的 gflags 目标添加缺失的依赖项
- ARROW-16684 - [CI][Archery] 为 GitError 故障的 git fetch 添加重试机制
- ARROW-16686 - [C++] 对 FunctionOptions 使用 shared_ptr (#13344)
- ARROW-16689 - [CI] 改进 R 夜间工作流 (#13266)
- ARROW-16693 - [JS] 升级到 TS 4.7
- ARROW-16703 - [R] 重构 map_batches() 以便它可以流式传输结果 (#13650)
-
ARROW-16704 - [JS] 处理
tableFromIPC输入是异步RecordBatchReader的情况 (#13278) - ARROW-16706 - [Python] 暴露 RankOptions (#13327)
- ARROW-16708 - [Dev] 将 JIRA 的基本身份验证替换为令牌身份验证 (#13283)
- ARROW-16709 - [文档][Python] 在开发者指南中添加如何运行 doctests 的说明 (#13325)
- ARROW-16711 - [C++] 移除已弃用的 ORC API (#13286)
- ARROW-16713 - [C++] 将连接累积移出 HashJoinImpl (#13332)
- ARROW-16714 - [C++] 移除已弃用的 IPC API (#13288)
- ARROW-16715 - [R] 提升默认 parquet 版本 (#13555)
- ARROW-16716 - [C++] 为 ProjectNode 添加基准测试 (#13314)
- ARROW-16717 - [C++] 添加对系统 jemalloc 的支持 (#13373)
- ARROW-16721 - [C++] 放弃对捆绑的 Thrift < 0.13 的支持 (#13292)
- ARROW-16729 - [C++] 提升 Abseil/gRPC 依赖版本 (#13315)
- ARROW-16730 - [C++] 提升捆绑的 jemalloc 版本 (#13294)
- ARROW-16731 - [C++] 提升捆绑的 mimalloc 版本 (#13295)
- ARROW-16732 - [C++] 提升捆绑的 nlohmann_json 版本 (#13571)
- ARROW-16733 - [C++] 提升捆绑的 opentelemetry-cpp 和 opentelemetry-proto 版本 (#13580)
- ARROW-16734 - [C++] 提升捆绑的 protobuf 版本 (#13581)
- ARROW-16735 - [C++] 提升捆绑的 rapidjson 版本 (#13608)
- ARROW-16736 - [C++] 提升捆绑的 RE2 版本 (#13570)
- ARROW-16737 - [C++] 提升捆绑的 zstd 版本 (#13611)
- ARROW-16741 - [C++] 为二进制时间操作添加基准测试 (#13302)
- ARROW-16742 - [C++][文档] 修复文档中 hash_distinct 的输出类型 (#13303)
- ARROW-16745 - [打包][RPM] 添加对 AlmaLinux 9 的支持 (#13307)
- ARROW-16747 - [CI][发布][Python] 放弃对 manylinux 2010 的支持 (#13566)
- ARROW-16751 - [C++] 修复 cmake3.5 上的 ucx 目标错误 (#13389)
- ARROW-16752 - [R] 重构 Linux 二进制安装 (#13464)
- ARROW-16756 - [C++] 引入非拥有的 ArraySpan, ExecSpan 数据结构并重构 ScalarKernels 以使用它们 (#13364)
- ARROW-16757 - [C++][跟进] 通过移除 alignas 的使用来修复 mingw32 RTools 4.0 构建 (#13557)
- ARROW-16757 - [C++] 移除 ScalarKernel 实现的 "scalar" 输出模式,移除 ValueDescr 类 (#13521)
- ARROW-16759 - [Go] 更新 testify 以获取 gopkg.in/yaml.v3 的安全补丁 (v7)
- ARROW-16760 - [文档] 在 Python 开发文档中提及 PYARROW_PARALLEL (#13324)
- ARROW-16761 - [C++][Python] 在数据集中跟踪写入的字节数 (#13338)
- ARROW-16763 - [打包][RPM] 添加对 CentOS Stream 9 的支持 (#13474)
- ARROW-16764 - [打包][deb] 放弃对 Debian GNU/Linux buster 的支持 (#13470)
- ARROW-16765 - [打包][RPM] 修复与 arrow-libs 和 arrow8-libs 的冲突 (#13472)
- ARROW-16767 - [Archery] 将 archery.release 子模块重构为其自己的子包 (#13326)
- ARROW-16769 - [C++] 向 Status 添加 Warn() 函数 (#13383)
- ARROW-16776 - [R] 用于 arrow table 和数据集的 dplyr::glimpse 方法 (#13563)
- ARROW-16779 - [CI][Python] 请求在 arm64 MacOS 版本的 wheel 中提供 Pyarrow Flight (#13460)
- ARROW-16780 - [CI] 为文档 PR 添加自动 PR 标签 (#13340)
- ARROW-16783 - [R] 在 arrow_dplyr_query 中对支持的类进行显式检查
- ARROW-16784 - [C++][Gandiva] 为 Upper 和 Lower 添加别名 (#13335)
- ARROW-16785 - [打包][Linux] 添加 FindThrift.cmake (#13337)
- ARROW-16786 - [文档] 更新拉取请求说明中的“未合并关闭” (#13341)
- ARROW-16789 - [格式] 从 C 流接口中移除实验性标记 (#13345)
- ARROW-16792 - [C++][CMake] 添加在 Arrow 作为子项目使用时使用 Arrow 选项的支持 (#13348)
- ARROW-16793 - [CI] 更新 M1 自托管运行器作业的标签以使其更具体 (#13350)
- ARROW-16799 - [C++] 创建一个自管道抽象 (#13354)
- ARROW-16800 - [C++] RecordBatchBuilder 弃用 Status API,添加 Result API (#13356)
- ARROW-16804 - [CI][Conan] 合并上游更改 (#13360)
- ARROW-16809 - [C++] 为 FilterNode 添加基准测试 (#13366)
- ARROW-16815 - [打包][RPM] 为 aarch64 禁用 Apache Arrow Flight (#13371)
- ARROW-16816 - [C++] 将 Substrait 升级到 v0.6.0 (#13468)
- ARROW-16818 - [文档][Python] 为 PyArrow 记录 GCS 文件系统 (#13681)
- ARROW-16819 - [C++] arrow::compute::CallFunction 需要为无参数函数提供批处理长度
- ARROW-16823 - [C++] Arrow Substrait 对 UDF 的增强 (#13375)
- ARROW-16824 - [C++] 将 VectorKernels 迁移到使用 ExecSpan,分离出 ChunkedArray 执行 (#13398)
- ARROW-16828 - [R][打包] 在 MacOS 和 Windows 上启用 Brotli 和 BZ2 (#13484)
- ARROW-16829 - [R] 在开发者指南中添加新贡献者指南的链接
- ARROW-16832 - [C++] 完全移除 hiveserver2 相关代码 (#13400)
- ARROW-16832 - [C++] 移除 cpp/src/arrow/dbi/hiveserver2 (#13382)
- ARROW-16839 - [CI][C++] 修复 xsimd 缺失相关的失败 (#13388)
- ARROW-16840 - [CI] 将 actions/setup-ruby 替换为 ruby/setup-ruby
- ARROW-16850 - [C++] 分别复制 CSV 数据字段和结束字符 (#13394)
- ARROW-16852 - [C++] 将剩余的内核迁移到使用 ExecSpan,移除 ExecBatchIterator (#13630)
- ARROW-16871 - [R] 在 Arrow dplyr 查询中实现 exp() 和 sqrt() (#13517)
- ARROW-16873 - [Python] 在 run_debug_memory_pool 测试中,在衍生的子进程上禁用 faulthandler (#13461)
- ARROW-16874 - [Ruby] 为自动数据类型转换使用更多 .try_convert (#13417)
- ARROW-16875 - [Ruby] 添加 Column#cast 和 ChunkedArray#cast (#13418)
- ARROW-16886 - [C++] 添加禁用 PIC 的选项 (#13475)
- ARROW-16887 - [R][文档] 为 GCS 更新文件系统小插图 (#13601)
- ARROW-16900 - [R] 升级 lintr (#13432)
- ARROW-16901 - [R][CI] 精简 R 夜间构建 (#13453)
- ARROW-16906 - [CI][C++] 在 MinGW 工作流中启用 ARROW_GCS (#13444)
- ARROW-16910 - [C++] 为 FileFragment 添加 Equals 方法 (#13490)
- ARROW-16911 - [C++] 向 Partitioning 添加 Equals 方法 (#13567)
- ARROW-16912 - [R][CI] 修复没有 GCS 的 nightly centos 包 (#13441)
- ARROW-16913 - [Java] 实现 ArrowArrayStream (#13465)
- ARROW-16918 - [Gandiva][C++] 添加 UTC-本地时区转换函数 (#13428)
- ARROW-16929 - [C++] 移除 ExecBatchIterator 及其用法
- ARROW-16930 - [Java] 将 CPP ORC JNI 代码移动到 Java ORC 项目 (#13458)
- ARROW-16931 - [Ruby] 在 Arrow::Field 中添加对 nullable 的支持 (#13459)
- ARROW-16934 - [Go][Parquet] 修复 TODO。添加 json 和 csv,添加参数以设置输出并关闭元数据 (#13463)
- ARROW-16935 - [打包][RPM] 为 Amazon Linux 2 禁用 GCS (#13469)
- ARROW-16937 - [打包][deb] 放弃对 Ubuntu impish 的支持 (#13471)
- ARROW-16938 - [GLib] 将 girdir/vapidir 添加到 .pc (#13476)
- ARROW-16941 - [Java][数据集] 更新更多 jni_util.h 路径 (#13503)
- ARROW-16941 - [Java] 整合数据集 JNI 编译 (#13481)
- ARROW-16955 - [CI] 将 setup-python github action 升级到 v4 (#13491)
- ARROW-16964 - [C++] asof-join-node 测试中的 TSAN 错误 (#13639)
- ARROW-16966 - [文档] 记录 Substrait 的一致性 (#13494)
- ARROW-16971 - [GLib] 在调用 g_seekable_tell() 前检查 g_seekable_can_seek() (#13498)
- ARROW-16972 - [CI][打包] 在 homebrew 公式中修复使用 -Dvapi 而不是 -Dvala 的问题 (#13504)
- ARROW-16974 - [GLib] 使其与 C99 兼容 (#13512)
- ARROW-16977 - [R] 更新数据集行计数,以避免在大型数据集上发生整数溢出 (#13514)
- ARROW-16984 - [Ruby] 增加在 Fedora 上自动安装 Apache Arrow GLib 的支持 (#13524)
- ARROW-16995 - [CI][C++][MinGW] 不缓存 site-packages (#13534)
- ARROW-16997 - [文档][开发] 更新 arrow/dev 的 README 文件 (#13694)
- ARROW-16999 - [C++] 增加对 SnappyConfig.cmake 的支持 (#13536)
- ARROW-17001 - [发布][R] 使用 Apache Artifactory 提供 libarrow 二进制文件 (#13622)
- ARROW-17003 - [Java][文档] 记录 arrow-jdbc 适配器 (#13543)
- ARROW-17005 - [Java] 允许在 arrow-jdbc 中覆盖列的可空性 (#13558)
- ARROW-17010 - [Python] 移除版本小于等于 1.0.0 的已弃用 API (顶层 ipc、Value 标量类、pyarrow.compat 模块) (#13545)
- ARROW-17011 - [C++][Flight] 在 python/flight.cc 中移除对 serialization_internal.h 的依赖 (#13546)
- ARROW-17012 - [C++][Flight] 在 python/flight.cc 中移除对 serialization_internal.h 的依赖
- ARROW-17019 - [Java][文档]: 根据删除 mac / linux netty-native profiles 的任务更新文档
- ARROW-17032 - [GLib][Ruby] 增加对 Apache Arrow Flight SQL 的支持 (#13561)
- ARROW-17034 - [C++] 为 ThirdpartyToolchain.cmake 启用编译器缓存 (#13562)
- ARROW-17035 - [C++][Gandiva] 添加 Ceil 函数 (#13565)
- ARROW-17036 - [C++][Gandiva] 添加 sign 函数 (#13568)
- ARROW-17037 - [C++] 拆分 utf8.h 以避免向第三方代码暴露 xsimd 依赖 (#13569)
- ARROW-17039 - [C++] Partition schema() 方法不支持 const (#13572)
- ARROW-17046 - [Python] 改进 pyarrow.parquet.write_to_dataset 函数的文档 (#13591)
- ARROW-17047 - [Python][文档] 记录如何从 StructType 获取字段 (#13642)
- ARROW-17050 - [CI] 在 mamba install 中使用 -y 标志以跳过确认环节 (#13579)
- ARROW-17055 - [Java][FlightRPC] 不要在 flight-core 和 flight-sql 之间重复生成 Protobuf 类 (#13596)
- ARROW-17060 - [C++] 更改 AsOfJoinNode 以使用 ExecContext 的内存池 (#13585)
- ARROW-17063 - [GLib] 添加通过网络发送/接收记录批处理的示例 (#13590)
- ARROW-17065 - [Python] 允许在 ExtensionType 中使用子类化的 ExtensionScalar (#13594)
- ARROW-17070 - [Gandiva][C++] 添加 mask-show-first/last-n 函数 (#13609)
- ARROW-17078 - [C++] 清理 C++ 示例中的错误处理 (#13598)
- ARROW-17080 - [Java] 为 JNI 添加顶层 CMakeLists.txt 文件 (#13618)
- ARROW-17082 - [CI][Conan] 启用 Brotli (#13617)
- ARROW-17083 - [Python] 在 Filesystems 文档字符串示例中删除创建的文件和文件夹 (#13619)
- ARROW-17085 - [R] group_vars() 不应返回 NULL (#13621)
- ARROW-17086 - [C++] 安装 java/dataset 头文件并修复由编译器标志导致的调试构建失败问题 (#13614)
- ARROW-17095 - [Go] 允许连接字典数组 (#13624)
- ARROW-17096 - [C++][Compute] 修复布尔数组上的 mode 内核错误 (#13646)
- ARROW-17101 - [Java] 更新 protoc 和 protoc-gen-grpc-java (#13632)
- ARROW-17102 - [R] 由于 Parquet 写入问题,测试在 R minimal 每夜构建中失败 (#13631)
- ARROW-17108 - [Python] 停止在集成作业中跳过 dask 测试 (#13636)
- ARROW-17118 - [文档][发布] 使用直接链接将新版本添加到 Apache 报告数据库 (#13645)
- ARROW-17121 - [Gandiva][C++] 向 Gandiva 添加 mask 函数 (#13647)
- ARROW-17135 - [C++] 减小 compute/kernels/scalar_compare.cc 中的代码大小 (#13654)
- ARROW-17140 - [C++][GANDIVA] 添加 Floor 函数 (#13655)
- ARROW-17151 - [文档] 固定文档主题以延迟暗黑模式更新 (#13663)
- ARROW-17153 - [GLib][Homebrew] glib-utils 仅 GLib 需要 (#13683)
- ARROW-17153 - [CI][Homebrew] 需要 glib-utils (#13666)
- ARROW-17156 - [GLib][Flight] 添加 GAFlightClientOptions::disable-server-verification (#13670)
- ARROW-17157 - [GLib][Ruby][Flight] 为 GAFlightCallOptions 添加对 headers 的支持 (#13671)
- ARROW-17158 - [GLib][Flight] 添加对 GetFlightInfo 的支持 (#13672)
- ARROW-17161 - [C++][Java] Dataset: 支持从 Parquet 格式文件的固定偏移量处读取
- ARROW-17162 - [C++] 提升绑定的 protobuf 版本,以包含在 DEBUG 模式下编译时的 ABI 不匹配修复 (#13674)
- ARROW-17163 - [C++] 恢复 jni_util.h 的安装 (#13675)
- ARROW-17188 - [R] 更新 9.0.0 版本的新闻 (#13726)
- ARROW-17194 - [CI][Conan] 启用 glog (#13697)
- ARROW-17213 - [C++] 修复 test-r-linux-valgrind crossbow 构建中的 valgrind 问题 (#13715)
- ARROW-17242 - [C++][FlightRPC] 通过 Flight 传播 RecordBatchReader::Close 错误 (#13738)