Apache Arrow 9.0.0 (2022年8月3日)
这是一个涵盖超过 3 个月开发的重大版本。
下载
贡献者
此版本包含来自 114 位不同贡献者的 529 次提交。
$ git shortlog -sn apache-arrow-8.0.0..apache-arrow-9.0.0
65 Sutou Kouhei
56 Raúl Cumplido
26 David Li
25 Jacob Wujciak-Jens
25 Neal Richardson
23 Will Jones
17 Alenka Frim
16 Dragoș Moldovan-Grünfeld
15 Antoine Pitrou
14 Weston Pace
14 Vibhatha Lakmal Abeykoon
12 Krisztián Szűcs
10 Rok Mihevc
9 Wes McKinney
9 Yibo Cai
8 david dali susanibar arce
7 Matt Topol
6 Alessandro Molina
6 rtpsw
6 Todd Farmer
6 Matthew Topol
5 Matt DePero
5 Joris Van den Bossche
5 Sasha Krassovsky
4 Jeroen van Straten
4 Hongze Zhang
4 Mark Wolfe
4 Ivan Chau
4 Nic Crane
4 Larry White
3 Vibhatha Abeykoon
3 Sanjiban Sengupta
3 SHIMA Tatsuya
3 Vinícius Roque
3 michalursa
3 eitsupi
3 Johnnathan
3 palak-9202
2 SG011
2 AlvinJ15
2 Anthony Louis
2 Dewey Dunnington
2 Jabari Booker
2 Johnnathan Almeida
2 Kazuaki Ishizaki
2 Muthunagappan Muthuraman
2 Paul Taylor
2 Phillip Cloud
2 Sahaj Gupta
2 William Hyun
2 Yaron Gvili
2 octalene
2 okadakk
1 Mathias Michael
1 Jürgen Walter
1 Jin Chengcheng
1 Maya Anderson
1 Min-Young Wu
1 okadak
1 Jacky Lee
1 JabariBooker
1 Nicola Crane
1 zhang chaoming
1 Alexandre de Siqueira
1 Phillip LeBlanc
1 Przemysław Kowolik
1 Rafael Telles
1 Ian Cook
1 Rishabh Rana
1 Robert Purdom
1 Hideaki Hayashi
1 Hamish Nicholson
1 Even Rouault
1 pschou
1 Sam Albers
1 Eric Erhardt
1 ElenaHenderson
1 Saul Pwanson
1 Sten Larsson
1 Edward Visel
1 Thomas Powell
1 Tobias Zagorni
1 Dominik Moritz
1 Dominic Barnes
1 Danielle Navarro
1 Christopher D. Higgins
1 Chris Casola
1 Austin Dickey
1 Ariana Villegas
1 William Ayd
1 William Butler
1 Alexandre Crayssac
1 WilliamWhispell
1 stczwd
1 Anja Kefala
1 Yuqi Gu
1 alexandreyc
1 alexdesiqueira
1 Andy Teucher
1 Amir Khosroshahi
1 emkornfield
1 karldw
1 lfygh
1 Alvin Chunga
1 nullptr
1 zagto
1 Kshiteej K
1 Li Jin
1 Liang-Chi Hsieh
1 Ling Jin
1 Konstantin Ilchenko
1 Martin Liu
1 Masato Kato
1 KBambrick1
补丁提交者
以下 Apache 提交者将贡献的补丁合并到代码库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-8.0.0..apache-arrow-9.0.0
126 Sutou Kouhei
75 Antoine Pitrou
67 David Li
40 Neal Richardson
34 Weston Pace
25 Matthew Topol
24 Krisztián Szűcs
19 Joris Van den Bossche
17 Nic Crane
17 Alessandro Molina
16 Yibo Cai
15 Pindikura Ravindra
9 Wes McKinney
7 Jonathan Keane
6 Dewey Dunnington
5 Alenka Frim
4 Matt Topol
4 Dominik Moritz
3 Rok
3 Eric Erhardt
1 Benjamin Kietzman
1 Ian Cook
1 Andrew Lamb
1 Micah Kornfield
变更日志
Apache Arrow 9.0.0 (2022-08-03)
错误修复
- ARROW-11341 - [Python][Gandiva] 向 Gandiva 构建器函数添加 NULL/None 检查 (#9289)
- ARROW-12626 - [C++] 支持工具链 xsimd,将工具链版本更新到 8.1.0 版 (#13244)
- ARROW-13129 - [C#] 修复 TableFromRecordBatches (#10562)
- ARROW-13612 - [Python] 允许为将 ExtensionScalar 转换为 python 对象指定自定义类型 (#13454)
- ARROW-14114 - [C++][Parquet] 修复多线程读取 PME 文件的问题
- ARROW-14518 - [Ruby][BigDecimal] ) (#13377)
- ARROW-14575 - [R] 允许使用带有
pkg::
前缀的函数 (#13160) - ARROW-14613 - [R] [文档] 将 R 包添加到 C 流接口?
- ARROW-14790 - [GLib] 修复创建 GArrowDatum 时的内存泄漏 (#13228)
- ARROW-14889 - [C++] 如果未安装 testbench,GCS 测试将挂起 (#13520)
- ARROW-14989 - [R] 将 num_rows 方法更新为输出双精度数而不是整数,以防止整数溢出
- ARROW-15415 - [C++] MSVC + vcpkg 调试版本修复 (#13108)
- ARROW-15938 - [C++][Compute] 修复构建侧批量为零的情况下的 HashJoinBasicImpl (#13686)
- ARROW-16002 - [Go] fileBlock.NewMessage 应使用 memory.Allocator (#13554)
- ARROW-16005 - [Java] 使用 ArrowVectorIterator 时修复 ArrayConsumer (#12692)
- ARROW-16035 - [Java] 处理空的 JDBC ResultSet
- ARROW-16116 - [C++] 读取 Parquet 时处理不可为空的字段
- ARROW-16142 - [C++] date32 和 time32 输入的时间向下/向上/舍入返回不正确的结果 (#13539)
- ARROW-16272 - [Python] 修复 NativeFile.read1()
- ARROW-16302 - [C++] FilenamePartitioning 的分区字段中的空值
- ARROW-16309 - [CI] [Go] [Flight] 验证发布作业是否由于以下原因而失败:panic: rpc error: code = NotFound desc = Unknown descriptor
- ARROW-16317 - [CI][Dev] 不要在 crossbow 提交操作分支上使用增量 ID
- ARROW-16341 - [Python] 研究 C++ 与 PyArrow 的 CMake
- ARROW-16342 - [Python] PyArrow 构建设置更改的初稿
- ARROW-16343 - [Python] 完善 PyArrow 构建设置更改的初稿
- ARROW-16344 - [Python] 完成 Pyarrow 构建设置更改
- ARROW-16345 - [Python] 由于将 Python C++ API 移动到 PyArrow,因此对 C++ 构建设置进行更改
- ARROW-16346 - [Python] 由于 Python 代码被移动到 PyArrow,因此为外部包添加迁移路径
- ARROW-16371 - [JS] 修复迭代没有批次的表时出现的错误 (#13287)
- ARROW-16372 - [Python] 在不需要 Parquet 的测试中使用 IPC over Parquet
- ARROW-16413 - [Python] 某些数据集 API 在使用 python 文件系统时会挂起
- ARROW-16420 - [Python] pq.write_to_dataset 始终忽略分区
- ARROW-16425 - [C++] 为标量数组时间戳比较添加计算内核测试
- ARROW-16427 - [Java] 提供显式列类型映射
- ARROW-16434 - [R][CI] 暂时将 devdocs 还原为 setup-r@v1
- ARROW-16436 - [C++][Python] 数据集不应忽略 CSV autogenerate_column_names
- ARROW-16441 - [Go][Flight][Java] 更新 Flight 集成测试以在 DoPut 后等待 io.EOF
- ARROW-16442 - [Python][Dataset] 修复 ORC 数据集的片段以使用 FileFragment 类
- ARROW-16456 - [Go] 当存在额外字段时修复 RecordBuilder UnmarshalJSON
- ARROW-16458 - [CI][Python] 在夜间集成上运行 dask S3 测试
- ARROW-16461 - [C++] 修复偶发的线程清理器故障
- ARROW-16473 - [Go] 修复 serializedPageReader 中的内存泄漏
- ARROW-16474 - [C++][Packaging] 要求 Python 3.7 或更高版本
- ARROW-16478 - [C++] 优化 CPU 信息检测
- ARROW-16489 - [R] 错误的编码导致解析错误
- ARROW-16490 - [C++][Windows] 不要强制使用捆绑的 GoogleTest
- ARROW-16494 - [C++] 添加缺少的包含,这会导致某些打包作业失败
- ARROW-16498 - [C++] 修复 arrow::compute::TaskScheduler 中的潜在死锁
- ARROW-16502 - [Go] 在 StructBuilder 中反序列化 JSON 时接受缺少的可选字段
- ARROW-16507 - [CI][C++] 将系统 gtest 与 mamba/conda 一起使用
- ARROW-16525 - [C++] Tee 节点未正确标记节点完成
- ARROW-16526 - [Python] 使用 PARQUET 但不使用 DATASET 构建时,test_partitioned_dataset 失败
- ARROW-16531 - [Dev] 更新 pre-commit 以使用最新的 flake8 并删除不受支持的 cython linting
- ARROW-16534 - [Java] 更新 Gandiva protobuf 库以启用在 M1 上的构建
- ARROW-16546 - [Parquet][C++][Python] 使 Thrift 限制可配置 (#13275)
- ARROW-16548 - [Python] 将 pytest.mark.parquet 添加到 tests/parquet 包下的所有测试
- ARROW-16560 - [Website][Release] 修复 versions.json 更新阶段
- ARROW-16563 - [Go][Parquet] 修复损坏的 parquet 普通布尔解码器
- ARROW-16566 - [Java] 在使用时初始化 JNI 组件,而不是静态初始化 (#13146)
- ARROW-16572 - [C++] 修复外部项目的 LZ4 构建
- ARROW-16574 - [C++] arrow-ipc-read-write-test 中的 TSAN 故障 (#13245)
- ARROW-16578 - [R] 在写入和读取 parquet 文件后,tibble 列上的 unique() 和 is.na() 速度慢得多 (#13415)
- ARROW-16579 - [Go][CI] 修复不稳定的结构测试
- ARROW-16585 - [C++] 添加对绝对 CMAKE_INSTALL_*DIR 的支持
- ARROW-16592 - [C++][Python][FlightRPC] 在写入失败后完成 (#13191)
- ARROW-16597 - [Python][FlightRPC] 在解释器退出时强制服务器关闭
- ARROW-16604 - [C++] 从基准测试中删除不必要的 Boost 依赖项 (#13192)
- ARROW-16606 - [FlightRPC][Python] 处理非小写标头名称 (#13274)
- ARROW-16612 - [R] 修复从文件名推断压缩的问题 (#13625)
- ARROW-16617 - [C++] 在 Windows 上添加对多字节系统错误消息的支持
- ARROW-16638 - [Go][Parquet] 修复在布尔列中跳过大量行的问题
- ARROW-16638 - [Go][Parquet] 修复布尔列跳过问题
- ARROW-16643 - [C++] 修复 clang-14 的警告
- ARROW-16646 - [C++] 允许布隆过滤器中的键列为标量
- ARROW-16659 - [C++] 删除 VectorKernel 的歧义构造函数
- ARROW-16669 - [Go][CI] ARM 上 pqarrow 测试失败 (#13628)
- ARROW-16675 - [C++] 边缘情况下 BufferedOutputStream 的 Tell() 结果错误 (#13250)
- ARROW-16678 - [R] 在 Ubuntu 22.04 上使用 “NOT_CRAN” = TRUE 无法安装新的 Arrow 8.0.0
- ARROW-16685 - [Python] 在连接中保留列的顺序 (#13281)
- ARROW-16692 - [C++] 合并生成器中的 StackOverflow 导致扫描时出现段错误 (#13691)
- ARROW-16694 - [打包][Python] 使用 Mamba 而不是 conda 为 Windows 打包作业构建 conda 环境 (#13351)
- ARROW-16699 - [C++][GANDIVA] 修复 Concat_WS 分配错误 (#13276)
- ARROW-16700 - [C++][R][数据集] 分区列上的聚合 (#13518)
- ARROW-16720 - [R] 无法读取以点开头的列分区的 datasets
- ARROW-16722 - [CI][C++] 通过指定要使用的 Minio 版本修复 Minio 故障 (#13299)
- ARROW-16723 - [CI] Github Actions 设置失败
- ARROW-16725 - [C++] 修复发布模式下的编译警告 (#13293)
- ARROW-16726 - [Python] 修复 Setuptools 关于将包作为数据安装的警告 (#13309)
- ARROW-16738 - [C++][Gandiva] 修复大整数值的 TO_TIMESTAMP(INTEGER) 函数 (#13298)
- ARROW-16744 - [JavaScript] 修复 yarn 性能故障 (#13305)
- ARROW-16749 - [Go] 修复空数组的 pqarrow writer
- ARROW-16788 - [C++] 删除 gRPC 不支持的强化标志 (#13346)
- ARROW-16794 - [CI][C++][MinGW] 提高 CI 作业的稳定性 (#13359)
- ARROW-16796 - [C++] 修复 ExecContext 参数的错误默认值 (#13355)
- ARROW-16801 - [CI][C++] 使用指定的 MinIO 而不是 Homebrew 中的 MinIO (#13362)
- ARROW-16803 - [R][CI] 修复 R mingw 构建的缓存问题 (#13379)
- ARROW-16806 - [CI][Python] 提升所需的 setuptools 版本 (#13361)
- ARROW-16807 - [C++][R] count distinct 错误地合并状态 (#13583)
- ARROW-16808 - [C++] count_distinct 错误地跨行组进行聚合
- ARROW-16813 - [Go][Parquet] 修复 go parquet 字典编码 writer 属性
- ARROW-16825 - [Java] 重命名包含提交 git.properties 元数据的文件 (#13578)
- ARROW-16831 - [Go] 当字符串数组偏移量无效时,ipc.Reader 中出现 panic
- ARROW-16848 - [C++][Java] 将 ORC 更新到 1.7.5 (#13392)
- ARROW-16864 - [Python] 允许在使用 role_arn 时省略 S3 external_id 和 session_name (#13455)
- ARROW-16869 - [CI][C++][Homebrew] 使用 C++17 构建 Apache Arrow (#13407)
- ARROW-16872 - [C++] 修复 CSV 解析器边缘情况 (#13437)
- ARROW-16877 - [C++] 为 Registry 测试定义自定义打印程序以修复 valgrind (#13438)
- ARROW-16881 - [Gandiva][C++] 修复 castINTERVALYEAR 实现 (#13421)
- ARROW-16892 - [开发][发布] 修复 merge_arrow 脚本上的版本排序问题 (#13427)
- ARROW-16895 - [R] 修复 cmake 版本检测 (#13429)
- ARROW-16898 - [Python] 修复使用非字符串索引名称时 pandas 转换失败的问题 (#13402)
- ARROW-16899 - [R][CI] R 夜间构建使用了旧的 libarrow (#13411)
- ARROW-16902 - [C++][FlightRPC] 修复 Flight SQL 中的 DLL 链接 (#13434)
- ARROW-16904 - [C++] 如果 Parquet 文件有多个行组,则 min/max 不是确定性的 (#13509)
- ARROW-16908 - [Python][CI] 避免安装测试 wheel 所需的错误 numpy 版本 (#13449)
- ARROW-16919 - [C++] Flight 集成测试在 Linux amd64 上的 verify rc nightly 上失败
- ARROW-16926 - [Go] 修复后续读取覆盖的 csv 读取器错误 (#13451)
- ARROW-16932 - [C++] Rounding RoundTemporalOptions.calendar_based_origin 无法正确偏移非 UTC 结果 (#13462)
- ARROW-16933 - [C++] 使用捆绑的 zlib 修复 google-cloud-cpp 构建 (#13466)
- ARROW-16936 - [C++] 更新 gRPC absl 静态依赖项 (#13486)
- ARROW-16939 - [R] 在合并 ARROW-16407 后修复夜间构建 (#13479)
- ARROW-16943 - [Java][打包] 修复生成过多 jar 的夜间构建问题 (#13485)
- ARROW-16948 - [C++] 聚合更新后基准聚合无法编译 (#13489)
- ARROW-16978 - [C#] Archery 间歇性故障 (#13573)
- ARROW-16983 - [Go][Parquet] 修复 DeltaByteArrayEncoder 的 EstimatedDataEncodedSize (#13522)
- ARROW-16989 - [C++] Substrait ProjectRel 解释错误 (#13528)
- ARROW-16994 - [文档][CI] 清理文档警告 (#13533)
- ARROW-16996 - [Java] 基于 BOM 配置配置 Netty/GRPC/Protobuf + CVE 依赖项升级 (#13544)
- ARROW-16998 - [Java] 升级 commons-codec 依赖项 (#13540)
- ARROW-17013 - [CI][C++] 修复 Ubuntu CPP 22.04 的 arrow 构建 (#13547)
- ARROW-17014 - [CI] 在 Windows 上的 cython 测试中添加 ENABLE_EXTENDED_ALIGNED_STORAGE (#13549)
- ARROW-17018 - [C++][Python] Timedelta dtype 元数据基本单位被 Table.to_pandas() 方法全局修改 (#13553)
- ARROW-17030 - [Python] 确保 dtype 变异测试在 s390x 上有效 (#13560)
- ARROW-17041 - [C++] 修复未初始化的 FixedSizeBinaryScalar 缓冲区值 (#13597)
- ARROW-17045 - [C++] 拒绝文件路径上的尾部斜杠 (#13577)
- ARROW-17051 - [C++] 一致地链接 Flight/gRPC/Protobuf (#13599)
- ARROW-17059 - [C++] 修复表达式基准测试 (#13584)
- ARROW-17066 - [C++][Python][Substrait] 将 JSON 转换为二进制时应指定“ignore_unknown_fields” (#13605)
- ARROW-17071 - [C++][Compute] 修复哈希连接节点中一位的错误 (#13616)
- ARROW-17075 - [C++] 在 HDFS 中的文件名上强制不使用尾部斜杠 (#13615)
- ARROW-17087 - [C++] 扫描器测试中的竞争条件 (#13651)
- ARROW-17100 - [C++][Parquet] 根据 ARROW-10353 修复在 3.0.0 之前写入的 ParquetV2 数据页的向后兼容性 (#13665)
- ARROW-17107 - [Java] 修复集成 JSON writer 中的可变宽度向量 (#13676)
- ARROW-17111 - [CI][打包] 打包 almalinux 9 和 centos 9 由于缺少 libre2 而无法安装 arrow
- ARROW-17112 - [Java] 修复 s390x 上 TestArrowReaderWriter.testFileFooterSizeOverflow 的失败 (#13638)
- ARROW-17115 - [C++] 如果 HashJoin 遇到超过 32Ki 行的批次,则会失败 (#13679)
- ARROW-17142 - [Python] 传递 None 时 Parquet FileMetadata.equals() 方法出现段错误 (#13658)
- ARROW-17174 - [C++] FileSystemDataset FilenamePartitioning 错误 - fsspec 文件系统
- ARROW-17191 - [C++][FlightRPC] 在连接后处理内联切片 (#13696)
- ARROW-17197 - [R] floor_date/ceiling_date lubridate 比较测试在 macOS 上失败 (#13705)
- ARROW-17206 - [R] 跳过测试以修复 snappy 消毒器问题 (#13704)
- ARROW-17211 - [Java] 修复 gh 和自托管运行器上的 java-jar nightly (#13712)
- ARROW-17227 - [C++] 扩展哈希连接单元测试以涵盖空批次和 length=0 批次 (#13725)
- ARROW-17234 - [发布][R] 将 r-binary-packages 添加到打包组 (#13734)
- ARROW-17237 - [发布] 在 python_wheel_unix_test.sh 脚本中恢复 python 测试依赖项的安装 (#13735)
- ARROW-17238 - [发布] 在 wheel 验证期间关闭 GCS 测试 (#13736)
- ARROW-17246 - [打包][deb][RPM] 不要使用系统 jemalloc (#13739)
- PARQUET-2163 - 处理具有大型 fixed_len_byte_arrays 的十进制模式
新功能和改进
- ARROW-602 - [C++] 提供对数组内基本元素的迭代器访问
- ARROW-7286 - [Go] 确保 go 实现实现了 clarified dictionary 规范
- ARROW-8324 - [R] 添加与 _feather 分开的 read/write_ipc_file (#13626)
- ARROW-10359 - [R] 如果不满足系统要求,则不下载 linux 二进制文件
- ARROW-12203 - [C++][Python] 将默认 Parquet 版本切换到 2.4 (#13280)
- ARROW-13052 - [Gandiva][C++] 添加 regexp_extract 函数
- ARROW-13160 - [CI][C++] 为 vcpkg 构建使用二进制缓存 (#13507)
- ARROW-13388 - [C++][Parquet] 修复文档以反映对 DELTA_LENGTH_BYTE_ARRAY 的读取支持 (#13530)
- ARROW-13388 - [C++][Parquet] 启用 DELTA_LENGTH_BYTE_ARRAY 解码器 (#13386)
- ARROW-13530 - [C++] 实现累积和计算函数
- ARROW-13844 - [文档][发布] 将发布管理指南添加到开发者文档 (#13272)
- ARROW-14163 - [C++] 用于连接的简单溢出实现
- ARROW-14182 - [C++][计算] 哈希连接性能改进 v2 (#13493)
- ARROW-14185 - [C++] HashJoinNode 应验证 HashJoinNodeOptions (#13051)
- ARROW-14458 - [R] 使用 expect_snapshot() 改进测试
- ARROW-14471 - [R] 实现 lubridate 的单独日期/时间解析器
- ARROW-14512 - [Java][文档] 构建文档时出现 JavaDoc 错误
- ARROW-14632 - [Python] 将 write_dataset 参数设为仅限关键字参数
- ARROW-14771 - [C++] 导出 Protobuf 符号表 (#13387)
- ARROW-14819 - [R] lubridate::qday 的绑定 (#13440)
- ARROW-14820 - [R] 为 lubridate 计算函数实现绑定
- ARROW-14821 - [R] 为 lubridate 的 floor_date、ceiling_date 和 round_date 实现绑定 (#12154)
- ARROW-14821 - [C++] 添加 ceil_is_strictly_greater 和 calendar_based_origin 时间舍入选项(以模仿 lubridate 的日期舍入) (#12657)
- ARROW-14845 - [R] 为 lubridate 格式化函数实现绑定
- ARROW-14848 - [R] 为 lubridate 的 parse_date_time 实现绑定
- ARROW-14892 - [Python][C++] GCS 绑定 (#12763)
- ARROW-14945 - [R] 实现用于日期计算的 lubridate 函数
- ARROW-15016 - [R] 用于 `arrow_dplyr_query` 的 `show_exec_plan` (#13541)
- ARROW-15130 - [文档] 添加词汇表 (#12868)
- ARROW-15174 - [Java] 合并 JNI 编译
- ARROW-15176 - [Java] 检查 Java Arrow 当前支持的版本
- ARROW-15177 - [Java] 检查我们正在打包的 Java 版本
- ARROW-15179 - [Java] 确保支持现代 Java 版本
- ARROW-15222 - [Ruby] 使用 Compute 进行列上的枚举操作 (#12053)
- ARROW-15224 - [R] 为 not_between() 三元内核添加绑定
- ARROW-15271 - [R] 重构 do_exec_plan 以返回 RecordBatchReader
- ARROW-15280 - [R] 公开 FileSystemFactoryOptions
- ARROW-15292 - [R] 在 Ubuntu/Redhat 上默认使用二进制 libarrow
- ARROW-15293 - [R] [CI] 将 arrow-r-nightly 移至 apache/arrow / crossbow
- ARROW-15301 - [R] 讨论:将 testthat 测试助手移至 R/test-helpers.R
- ARROW-15365 - [Python] 在 pyarrow.compute.cast 函数中公开完整的转换选项 (#13109)
- ARROW-15422 - [打包][RPM][deb] 添加对 GDB 插件的支持 (#13477)
- ARROW-15430 - [Python] 处理文件系统(接口)中的文档字符串 (#13564)
- ARROW-15498 - [C++][计算] 在哈希连接之间实现布隆过滤器下推
- ARROW-15534 - [C++] 添加便捷函数到 substrait consumer 以创建计划而不是声明
- ARROW-15568 - [C++][Gandiva] 实现 Translate 函数 (#12333)
- ARROW-15583 - [C++] 如果生产者使用大型锚点,Substrait consumer 可能会使用大量的 RAM
- ARROW-15587 - [C++] 添加对 substrait::ReadRel::LocalFiles::FileOrFiles 指定的所有选项的支持
- ARROW-15590 - [C++] 为 Substrait consumer 添加连接支持 (#13078)
- ARROW-15591 - [C++] 为 Substrait consumer 添加聚合支持 (#13130)
- ARROW-15622 - [R] 为 arrow_dplyr_query 实现 union_all 和 union
- ARROW-15639 - [C++][Python] UDF 标量函数实现
- ARROW-15661 - [Gandiva][C++] 添加 SHA512 函数 (#12404)
- ARROW-15671 - [GLib] 添加对 Vala 的支持
- ARROW-15779 - [Python] 为 Substrait consumer 创建 Python 绑定
- ARROW-15804 - [R] 在提供多个 tryFormats 时改进 as.Date() 错误消息
- ARROW-15893 - [CI][Python] 将 Python 最小构建添加到夜间构建中 (#13113)
- ARROW-15901 - [C++] 在 Substrait 中支持自定义输出字段名的扁平化 (#13069)
- ARROW-15906 - [C++][Python][R] 默认情况下,不要创建或删除 S3 存储桶 (#13206)
- ARROW-15936 - [Ruby] 为 Arrow::DictionaryArray#raw_records 添加测试
- ARROW-15937 - [网站] 在 8.0.0 发布后,将 Flight SQL 子项目页面定向到主文档
- ARROW-15958 - [Java][文档] 改进和记录 StackTrace (#12656)
- ARROW-15959 - [Java][文档] 使用 IntelliJ 改进 Java 开发体验
- ARROW-16006 - [C++][文档] 为动态模式提供行转换示例 (#12775)
- ARROW-16018 - [文档][Python] 对 Python 文档字符串示例运行文档测试 (–doctest-cython)
- ARROW-16018 - [文档][Python] 对 Python 文档字符串示例运行文档测试 (CI 作业)
- ARROW-16018 - [文档][Python] 对 Python 文档字符串示例运行文档测试 (–doctest-modules)
- ARROW-16083 - [C++] 实现 AsofJoin 执行节点 (#13028)
- ARROW-16085 - [C++][R] InMemoryDataset::ReplaceSchema 不会更改扫描输出
- ARROW-16091 - [Python] 继续改进类和方法文档字符串
- ARROW-16092 - [Python] 处理文件系统(实现)中的文档字符串 (#13416)
- ARROW-16093 - [Python] 处理文件系统(Python 实现)中的文档字符串 (#13595)
- ARROW-16094 - [Python] 处理文件系统(实用程序)中的文档字符串 (#13582)
- ARROW-16144 - [R] 写入压缩数据流(尤其是在 S3 上)
- ARROW-16168 - [C++][CMake] 使用 target 添加包含路径
- ARROW-16183 - [C++][FlightRPC] 支持捆绑的 UCX
- ARROW-16206 - [Ruby] 添加对 DictionaryArray#values, #raw_records with {Month,DayTime,MonthDayNano} Interval Type 的支持 (#13255)
- ARROW-16228 - [CI][打包][Conan] 添加一个作业来测试最小构建
- ARROW-16234 - [C++] 用于排序的向量内核 (#12963)
- ARROW-16241 - [Python] 在测试中使用 use_legacy_dataset=True 时抑制警告
- ARROW-16243 - [C++][Python] 删除 Parquet ReadSchemaField 方法 (#13060)
- ARROW-16253 - [R] 用于通过 int64() 将浮点数转换为 duration 的辅助函数
- ARROW-16255 - [R] 重新组织日期时间绑定
- ARROW-16267 - [Java] 添加使用 JDK 18 编译 Java 代码的支持
- ARROW-16268 - [R] 删除长期弃用的函数 (#13550)
- ARROW-16276 - [R] Arrow 8.0 新闻
- ARROW-16281 - [R][CI] 随着 4.2 的发布而更新版本
- ARROW-16297 - [R] 改进离线构建对 ARROW_*_URL 变量的检测
- ARROW-16323 - [Go] 实现字典标量 (#13575)
- ARROW-16324 - [Go] 实现字典统一 (#13529)
- ARROW-16327 - [Java][CI] 将 Java 17 添加到 Java 工作流的 CI 矩阵中
- ARROW-16328 - [Java] POC Arrow 模块化
- ARROW-16329 - [Java][C++] 通过 JNI 编组错误时保留更多上下文 (#13246)
- ARROW-16333 - [发布] 改进夜间报告
- ARROW-16335 - [发布][C++] Windows 源代码验证在单线程上运行 C++ 测试
- ARROW-16357 - [Archery][开发] 添加将夜间报告发送到 Zulip/Slack 的可能性
- ARROW-16358 - [CI][开发] 允许 archery crossbow 为夜间构建生成 CSV 报告
- ARROW-16359 - [开发][CI] 创建具有夜间构建当前状态的简单静态站点
- ARROW-16360 - [开发][CI] 将失败作业的最后一次成功提交/日期添加到夜间仪表板
- ARROW-16361 - [开发][Archery] 添加指向夜间构建报告通知的静态页面的链接 (#13450)
- ARROW-16378 - [Archery][CI] 添加 archery crossbow 报告通过 webhook 发送 Zulip 通知报告的可能性
- ARROW-16380 - [C++] 研究 Arrow-C++ 中默认情况下内存映射在哪里开启
- ARROW-16382 - [Python] 在 pyarrow 中默认禁用内存映射 (#13342)
- ARROW-16383 - [C++] 在 Arrow-C++ 中默认禁用内存映射 (#13419)
- ARROW-16394 - [R] 使用年、月和日期组件实现 lubridate 的解析器
- ARROW-16395 - [R] 使用年、月、日、小时、分钟和秒组件实现 lubridate 的解析器 (#13627)
- ARROW-16400 - [R][CI] 将 arrow-r nightly/release 构建集成到 Crossbow 中
- ARROW-16401 - [R][CI] 将 arrow-r-nightly 工作流程分解为 Crossbow 任务
- ARROW-16402 - [R][CI] 创建新的 Archery 任务
- ARROW-16403 - [R][CI] 为 R nightly 构建创建 Crossbow 任务
- ARROW-16404 - [R][CI] 研究替代的二进制文件托管方案
- ARROW-16405 - [R][CI] 使用 nightlies.apache.org 作为开发仓库 (#13241)
- ARROW-16406 - [文档][R] 使用新的 nightly 位置更新文档
- ARROW-16407 - [R] 扩展
parse_date_time
以涵盖小时、日期和分钟组件 (#13196) - ARROW-16414 - [R] 删除 ARROW_R_WITH_ARROW 和 arrow_available()
- ARROW-16415 - [R] 使用
tz
参数更新strptime
绑定签名 (#13190) - ARROW-16418 - [R] 重构 difftime() 和 as.diffime() 绑定
- ARROW-16426 - [C++] 向执行引擎添加 TeeNode
- ARROW-16439 - [R] 为
lubridate::fast_strptime
实现绑定 - ARROW-16444 - [R] 在 R 绑定中实现用户定义的标量函数 (#13397)
- ARROW-16445 - [R][文档] 为“在 Linux 上安装 Arrow 包”文章添加简短摘要
- ARROW-16446 - [R] 更新 parse_date_time 以接受不带分隔符的字符串
- ARROW-16448 - [CI][Archery] 将 EmailReport 重构为 JinjaReport
- ARROW-16450 - [Go][文档] 在 csv 示例中包含错误处理
- ARROW-16455 - [CI][打包] 将 linux-ppc64le 添加到 conda 上要清理的平台列表中
- ARROW-16467 - [Python] 添加辅助函数 _exec_plan._filter_table 以根据表达式过滤表
- ARROW-16468 - [Python] 使用复杂表达式测试表过滤功能并添加 Expression.apply 方法
- ARROW-16469 - [Python] Table.filter 除了布尔数组外还接受布尔表达式
- ARROW-16470 - [文档][Python] 记录按表达式过滤表和数据集 (#13319)
- ARROW-16477 - [打包][deb] 使用 -Dvapi 代替 -Dvala (#13499)
- ARROW-16477 - [打包][RPM] 在 aarch64 上添加对 Amazon Linux 2 的支持 (#13473)
- ARROW-16484 - [Go][Parquet] 更新 parquet 写入器版本
- ARROW-16486 - [Go] 使用 Arm64 GoLang 汇编实现位打包函数
- ARROW-16487 - [C++][Parquet] 使用 minmax 修复 parquet::Statistics::Equals()
- ARROW-16488 - [Archery][开发] 允许在聊天报告中发送额外的消息
- ARROW-16497 - [R] 更新 NEWS.md 中的版本
- ARROW-16499 - [发布][Ruby] 添加缺少的导出
- ARROW-16500 - [发布][R] 不要将 GNU sed 扩展用于 r/NEWS.md 更新
- ARROW-16501 - [文档][C++][R] 从 Google Analytics 迁移到 Matomo
- ARROW-16504 - [Go][CSV] 向读取器添加 arrow.TimestampType 支持
- ARROW-16508 - [Archery][开发] 根据作业的成功或失败,添加扩展聊天报告消息的可能性
- ARROW-16509 - [R][文档] 对数据集 vignette 进行更正
- ARROW-16510 - [R] 为 GCS 文件系统添加绑定 (#13404)
- ARROW-16511 - [R] 在 write_dataset() 中保留模式元数据
- ARROW-16514 - [网站] 更新 8.0.0 的安装页面
- ARROW-16515 - [C++] 向 RecordBatchReader 添加 Close 方法 (#13205)
- ARROW-16516 - [R] 实现 ym() my() 和 yq() 解析器
- ARROW-16523 - [C++] ExecPlan 清理的第一部分:集中式任务组 (#13143)
- ARROW-16527 - [Gandiva][C++] 添加二元函数
- ARROW-16529 - [Java] 修复 ArrowVectorIterator.hasNext()
- ARROW-16530 - [Go] 在始终串行的关键位置添加并发,无论 parallel=true 或 false
- ARROW-16537 - [Java] 修复 JSE11+ 中数据集模块测试失败的问题
- ARROW-16538 - [Java] 增强模拟 ResultSets 的灵活性
- ARROW-16539 - [C++] 将捆绑的 thrift 升级到 0.16.0
- ARROW-16541 - [R][CI] 减少 lintr 的运行次数
- ARROW-16549 - [C++] 简化 AggregateNodeOptions 聚合/目标 (#13150)
- ARROW-16551 - [Go] 改进时间类型
- ARROW-16552 - [Go] 改进 decimal128 实用程序
- ARROW-16553 - [CI][Java] 将 Java nightly 包 (.pom/.jar) 添加到 nightlies.apache 仓库 (#13328)
- ARROW-16554 - [Java] 从 https://nightlies.apache.org/arrow/java/org/apache/arrow/ 下载 Java nightly 制品 (#13352)
- ARROW-16555 - [Go][Parquet] 将 BitBlockCounter 和 VisitBitBlocks 提升到共享内部实用程序中
- ARROW-16556 - [Go] 向 DataTypes 添加 Layout 方法 (#13136)
- ARROW-16557 - [Go] 启用 memory.Buffer 对象切片
- ARROW-16561 - [Go][Parquet] 测试 parquet 根节点配置
- ARROW-16561 - [Go][Parquet] 添加自定义 parquet 根节点的选项
- ARROW-16567 - [文档][Python] Sphinx Copybutton 应忽略 IPython 提示文本 (#13329)
- ARROW-16568 - [Java] 使用 ArrowBuf 的 setBytes 和 getBytes 启用跳过 BOUNDS_CHECKING
- ARROW-16569 - [CI] 将 checkout actions 更新到较新版本
- ARROW-16570 - [R] 使 pkg-config 命令查找所有库
- ARROW-16571 - [Java] 更新 .gitignore 以排除与 JNI 相关的二进制文件
- ARROW-16573 - [C++][格式] 为 C 数据接口添加规范包含保护
- ARROW-16581 - [C++][Java] 将 ORC 升级到 1.7.4
- ARROW-16582 - [Python][文档] 更新 Python 构建文档以包含数据集
- ARROW-16588 - [C++][FlightRPC] 不要在测试帮助程序中继承 GTest
- ARROW-16590 - [C++] 合并处理行主要存储的文件 (#13218)
- ARROW-16594 - [R] 始终使用“getOption”设置 nightly 仓库
- ARROW-16599 - [C++] 实现 ExecuteScalarExpressionOverhead 基准测试,不使用 arrow 进行比较 (#13179)
- ARROW-16600 - [Java] 可配置的 RoundingMode 以处理 BigDecimals 中不一致的比例 (#13433)
- ARROW-16601 - [C++][FlightRPC] 不要对 arrow_flight_testing 强制使用静态 GoogleTest 进行静态链接 (#13180)
- ARROW-16602 - [开发] 使用 GitHub API 合并拉取请求 (#13184)
- ARROW-16607 - [R] 改进 KeyValueMetadata 处理
- ARROW-16609 - [C++] 构建 C++ 时,xxhash 未安装到 dist/lib/include 中 (#13282)
- ARROW-16610 - [Python] 为 pq.write_to_dataset 中冲突的选项引发错误 (#13317)
- ARROW-16613 - [C++][Parquet] 修复重复调用 AppendRowGroups() 的性能问题
- ARROW-16614 - [C++] 将 lz4::lz4 用于 lz4 的 CMake 目标名称 (#13193)
- ARROW-16623 - [GLib] 添加 GArrowQuantileOptions (#13374)
- ARROW-16626 - [C++] 命名 C++ 流执行引擎
- ARROW-16634 - [Gandiva][C++] 添加 udfdegrees 别名
- ARROW-16636 - [Rust] 为 rust 激活多个 IPC 集成测试 (#13219)
- ARROW-16647 - [C++] 添加对使用区间类型的 unique()、value_counts()、dictionary_encode() 的支持
- ARROW-16648 - [GLib] 添加 MemoryPool 包装器 (#13224)
- ARROW-16653 - [R] lubridate
parse_date_time
绑定支持所有格式 (#13506) - ARROW-16654 - [开发][Archery] 支持对主要版本进行 cherry-pick
- ARROW-16655 - [发布] 发布改进
- ARROW-16656 - [CI][发布] 允许 archery 支持 MINOR 类型的 tickets 并更新发布评论以包含 MINOR
- ARROW-16657 - [C++] 支持扩展 ID 注册表的嵌套 (#13232)
- ARROW-16660 - [C#] 添加对 Time32Array 和 Time64Array 的支持 (#13279)
- ARROW-16663 - [发布][开发] 向 archery release curate 添加标志以仅显示最少信息 (#13284)
- ARROW-16664 - [CI][发布] 自动创建验证发布的拉取请求 (#13511)
- ARROW-16665 - [发布] 更新二进制文件提交以跟踪自动创建的 PR 上的二进制文件提交任务 (#13612)
- ARROW-16666 - [文档][发布] 更新发布指南以指定新的工作流程和功能冻结 (#13308)
- ARROW-16667 - [CI][发布] 合并后脚本应该是不必要的 (#13593)
- ARROW-16668 - [CI] 向 python wheel 添加 Substrait 支持 (#13239)
- ARROW-16672 - [Java] 允许 Java C 数据接口中出现重复的字段名称 (#13247)
- ARROW-16676 - [C++] ReservationListenableMemoryPool::Impl::bytes_allocated() 应该返回自身已分配的字节数,而不是底层池的字节数
- ARROW-16677 - [C++] 支持函数注册表的嵌套 (#13252)
- ARROW-16679 - [R] 如果 CDPATH 不为空,则配置失败 (#13313)
- ARROW-16681 - [Python] 修复依赖于模块路径的 PyArrow 单元测试文档 (#13318)
- ARROW-16683 - [C++] 为绑定的 gflags 目标添加缺少的依赖项
- ARROW-16684 - [CI][Archery] 在 GitError 失败时为 git fetch 添加重试机制
- ARROW-16686 - [C++] 将 shared_ptr 与 FunctionOptions 一起使用 (#13344)
- ARROW-16689 - [CI] 改进 R 夜间工作流程 (#13266)
- ARROW-16693 - [JS] 升级到 TS 4.7
- ARROW-16703 - [R] 重构 map_batches() 以使其能够流式传输结果 (#13650)
- ARROW-16704 - [JS] 处理 `tableFromIPC` 输入是异步 `RecordBatchReader` 的情况 (#13278)
- ARROW-16706 - [Python] 公开 RankOptions (#13327)
- ARROW-16708 - [Dev] 将 JIRA 的基本身份验证替换为令牌身份验证 (#13283)
- ARROW-16709 - [Docs][Python] 将如何运行 doctests 添加到开发者指南中 (#13325)
- ARROW-16711 - [C++] 删除已弃用的 ORC API (#13286)
- ARROW-16713 - [C++] 将拉取连接累积移到 HashJoinImpl 之外 (#13332)
- ARROW-16714 - [C++] 删除已弃用的 IPC API (#13288)
- ARROW-16715 - [R] 提升默认 parquet 版本 (#13555)
- ARROW-16716 - [C++] 为 ProjectNode 添加基准测试 (#13314)
- ARROW-16717 - [C++] 添加对系统 jemalloc 的支持 (#13373)
- ARROW-16721 - [C++] 放弃对捆绑的 Thrift < 0.13 的支持 (#13292)
- ARROW-16729 - [C++] 提升 Abseil/gRPC 依赖版本 (#13315)
- ARROW-16730 - [C++] 提升内嵌 jemalloc 版本 (#13294)
- ARROW-16731 - [C++] 提升内嵌 mimalloc 版本 (#13295)
- ARROW-16732 - [C++] 提升内嵌 nlohmann_json 版本 (#13571)
- ARROW-16733 - [C++] 提升内嵌 opentelemetry-cpp 和 opentelemetry-proto 版本 (#13580)
- ARROW-16734 - [C++] 提升内嵌 protobuf 版本 (#13581)
- ARROW-16735 - [C++] 提升内嵌 rapidjson 版本 (#13608)
- ARROW-16736 - [C++] 提升内嵌 RE2 版本 (#13570)
- ARROW-16737 - [C++] 提升内嵌 zstd 版本 (#13611)
- ARROW-16741 - [C++] 为二进制时间操作添加基准测试 (#13302)
- ARROW-16742 - [C++][Docs] 修复文档中 hash_distinct 的输出类型 (#13303)
- ARROW-16745 - [Packaging][RPM] 添加对 AlmaLinux 9 的支持 (#13307)
- ARROW-16747 - [CI][Release][Python] 放弃对 manylinux 2010 的支持 (#13566)
- ARROW-16751 - [C++] 修复 cmake3.5 上的 ucx 目标错误 (#13389)
- ARROW-16752 - [R] 重新设计 Linux 二进制安装 (#13464)
- ARROW-16756 - [C++] 引入非拥有 ArraySpan、ExecSpan 数据结构并重构 ScalarKernels 以使用它们 (#13364)
- ARROW-16757 - [C++][FOLLOWUP] 通过删除 alignas 的使用来修复 mingw32 RTools 4.0 构建 (#13557)
- ARROW-16757 - [C++] 删除 ScalarKernel 实现的“标量”输出模态,删除 ValueDescr 类 (#13521)
- ARROW-16759 - [Go] 更新 testify 以获取 gopkg.in/yaml.v3 (v7) 的安全补丁
- ARROW-16760 - [Docs] 在 Python 开发文档中提及 PYARROW_PARALLEL (#13324)
- ARROW-16761 - [C++][Python] 跟踪数据集中写入的字节数 (#13338)
- ARROW-16763 - [Packaging][RPM] 添加对 CentOS Stream 9 的支持 (#13474)
- ARROW-16764 - [Packaging][deb] 放弃对 Debian GNU/Linux buster 的支持 (#13470)
- ARROW-16765 - [Packaging][RPM] 修复 arrow-libs 和 arrow8-libs 之间的冲突 (#13472)
- ARROW-16767 - [Archery] 将 archery.release 子模块重构为其自己的子包 (#13326)
- ARROW-16769 - [C++] 向 Status 添加 Warn() 函数 (#13383)
- ARROW-16776 - [R] dplyr::glimpse 方法,用于 arrow 表和数据集 (#13563)
- ARROW-16779 - [CI][Python] 请求在 arm64 MacOS 版本的 wheel 中提供 Pyarrow Flight (#13460)
- ARROW-16780 - [CI] 为文档 PR 添加自动 PR 标签 (#13340)
- ARROW-16783 - [R] 在 arrow_dplyr_query 中显式检查受支持的类
- ARROW-16784 - [C++][Gandiva] 为 Upper 和 Lower 添加别名 (#13335)
- ARROW-16785 - [Packaging][Linux] 添加 FindThrift.cmake (#13337)
- ARROW-16786 - [Docs] 更新拉取请求注释中的“未合并关闭” (#13341)
- ARROW-16789 - [Format] 从 C 流式接口中删除实验标记 (#13345)
- ARROW-16792 - [C++][CMake] 在 Arrow 作为子项目使用时添加对使用 Arrow 选项的支持 (#13348)
- ARROW-16793 - [CI] 更新 M1 自托管运行器作业的标签以使其更具体 (#13350)
- ARROW-16799 - [C++] 创建一个自管道抽象 (#13354)
- ARROW-16800 - [C++] RecordBatchBuilder 弃用 Status API,添加 Result API (#13356)
- ARROW-16804 - [CI][Conan] 合并上游更改 (#13360)
- ARROW-16809 - [C++] 为 FilterNode 添加基准测试 (#13366)
- ARROW-16815 - [Packaging][RPM] 为 aarch64 禁用 Apache Arrow Flight (#13371)
- ARROW-16816 - [C++] 将 Substrait 升级到 v0.6.0 (#13468)
- ARROW-16818 - [Doc][Python] 为 PyArrow 记录 GCS 文件系统 (#13681)
- ARROW-16819 - [C++] arrow::compute::CallFunction 需要零元函数的批量长度
- ARROW-16823 - [C++] Arrow Substrait UDF 增强功能 (#13375)
- ARROW-16824 - [C++] 迁移 VectorKernels 以使用 ExecSpan,拆分 ChunkedArray 执行 (#13398)
- ARROW-16828 - [R][Packaging] 在 MacOS 和 Windows 上启用 Brotli 和 BZ2 (#13484)
- ARROW-16829 - [R] 将新贡献者指南的链接添加到开发者指南
- ARROW-16832 - [C++] 完全删除 hiveserver2 相关代码 (#13400)
- ARROW-16832 - [C++] 删除 cpp/src/arrow/dbi/hiveserver2 (#13382)
- ARROW-16839 - [CI][C++] 修复 xsimd 缺失相关故障 (#13388)
- ARROW-16840 - [CI] 将 actions/setup-ruby 替换为 ruby/setup-ruby
- ARROW-16850 - [C++] 分别复制 CSV 数据字段和结束字符 (#13394)
- ARROW-16852 - [C++] 迁移剩余内核以使用 ExecSpan,删除 ExecBatchIterator (#13630)
- ARROW-16871 - [R] 在 Arrow dplyr 查询中实现 exp() 和 sqrt() (#13517)
- ARROW-16873 - [Python] 在 run_debug_memory_pool 测试中禁用已生成子进程上的 faulthandler (#13461)
- ARROW-16874 - [Ruby] 将更多 .try_convert 用于自动数据类型转换 (#13417)
- ARROW-16875 - [Ruby] 添加 Column#cast 和 ChunkedArray#cast (#13418)
- ARROW-16886 - [C++] 添加禁用 PIC 的选项 (#13475)
- ARROW-16887 - [R][Docs] 更新 GCS 的文件系统 Vignette (#13601)
- ARROW-16900 - [R] 升级 lintr (#13432)
- ARROW-16901 - [R][CI] 修剪 R 夜间构建 (#13453)
- ARROW-16906 - [CI][C++] 在 MinGW 工作流程上启用 ARROW_GCS (#13444)
- ARROW-16910 - [C++] 为 FileFragment 添加 Equals 方法 (#13490)
- ARROW-16911 - [C++] 向 Partitioning 添加 Equals 方法 (#13567)
- ARROW-16912 - [R][CI] 修复没有 GCS 的夜间 centos 软件包 (#13441)
- ARROW-16913 - [Java] 实现 ArrowArrayStream (#13465)
- ARROW-16918 - [Gandiva][C++] 添加 UTC-本地时区转换函数 (#13428)
- ARROW-16929 - [C++] 删除 ExecBatchIterator 及其用法
- ARROW-16930 - [Java] 将 CPP ORC JNI 代码移动到 Java ORC 项目 (#13458)
- ARROW-16931 - [Ruby] 在 Arrow::Field 中添加对可空的支持 (#13459)
- ARROW-16934 - [Go][Parquet] 修复 TODO。添加 json 和 csv,添加参数以设置输出并关闭元数据 (#13463)
- ARROW-16935 - [Packaging][RPM] 为 Amazon Linux 2 禁用 GCS (#13469)
- ARROW-16937 - [Packaging][deb] 放弃对 Ubuntu impish 的支持 (#13471)
- ARROW-16938 - [GLib] 将 girdir/vapidir 添加到 .pc (#13476)
- ARROW-16941 - [Java][Dataset] 更新更多 jni_util.h 路径 (#13503)
- ARROW-16941 - [Java] 合并 Dataset JNI 编译 (#13481)
- ARROW-16955 - [CI] 将 setup-python github action 升级到 v4 (#13491)
- ARROW-16964 - [C++] asof-join-node 测试中的 TSAN 错误 (#13639)
- ARROW-16966 - [文档] 记录 Substrait 一致性 (#13494)
- ARROW-16971 - [GLib] 在调用 g_seekable_tell() 之前检查 g_seekable_can_seek() (#13498)
- ARROW-16972 - [CI][打包] 在 homebrew formulae 上修复 -Dvapi 而不是 -Dvala (#13504)
- ARROW-16974 - [GLib] 使其与 C99 兼容 (#13512)
- ARROW-16977 - [R] 更新数据集行计数,以便大型数据集上不会出现整数溢出 (#13514)
- ARROW-16984 - [Ruby] 添加支持在 Fedora 上自动安装 Apache Arrow GLib (#13524)
- ARROW-16995 - [CI][C++][MinGW] 不要缓存 site-packages (#13534)
- ARROW-16997 - [文档][开发] 更新 arrow/dev README (#13694)
- ARROW-16999 - [C++] 添加对 SnappyConfig.cmake 的支持 (#13536)
- ARROW-17001 - [发布][R] 为 libarrow 二进制文件使用 apache artifactory。 (#13622)
- ARROW-17003 - [Java][文档] 记录 arrow-jdbc 适配器 (#13543)
- ARROW-17005 - [Java] 允许在 arrow-jdbc 中覆盖列可空性 (#13558)
- ARROW-17010 - [Python] 从 <= 1.0.0 中删除已弃用的 API(顶级 ipc、值标量类、pyarrow.compat 模块) (#13545)
- ARROW-17011 - [C++][Flight] 删除 python/flight.cc 内部对 serialization_internal.h 的需求 (#13546)
- ARROW-17012 - [C++][Flight] 删除 python/flight.cc 内部对 serialization_internal.h 的需求
- ARROW-17019 - [Java][文档]:更新文档,使其与删除 mac / linux netty-native 配置文件的任务对齐
- ARROW-17032 - [GLib][Ruby] 添加对 Apache Arrow Flight SQL 的支持 (#13561)
- ARROW-17034 - [C++] 为 ThirdpartyToolchain.cmake 启用编译器缓存 (#13562)
- ARROW-17035 - [C++][Gandiva] 添加 Ceil 函数 (#13565)
- ARROW-17036 - [C++][Gandiva] 添加符号函数 (#13568)
- ARROW-17037 - [C++] 拆分 utf8.h 以避免将 xsimd 依赖项暴露给第三方代码 (#13569)
- ARROW-17039 - [C++] 分区 schema() 方法不支持 const。 (#13572)
- ARROW-17046 - [Python] 改进 pyarrow.parquet.write_to_dataset 函数的文档 (#13591)
- ARROW-17047 - [Python][文档] 记录如何从 StructType 获取字段 (#13642)
- ARROW-17050 - [CI] 在 mamba install 上使用 -y 标志以避免请求确认 (#13579)
- ARROW-17055 - [Java][FlightRPC] 不要在 flight-core 和 flight-sql 之间复制生成的 Protobuf 类 (#13596)
- ARROW-17060 - [C++] 将 AsOfJoinNode 更改为使用 ExecContext 的内存池 (#13585)
- ARROW-17063 - [GLib] 添加通过网络发送/接收记录批次的示例 (#13590)
- ARROW-17065 - [Python] 允许在 ExtensionType 中使用子类化的 ExtensionScalar (#13594)
- ARROW-17070 - [Gandiva][C++] 添加 mask-show-first/last-n 函数 (#13609)
- ARROW-17078 - [C++] 清理 C++ 示例中的错误处理 (#13598)
- ARROW-17080 - [Java] 为 JNI 添加顶级 CMakeLists.txt (#13618)
- ARROW-17082 - [CI][Conan] 启用 Brotli (#13617)
- ARROW-17083 - [Python] 删除 Filesystems 文档字符串示例中创建的文件和文件夹 (#13619)
- ARROW-17085 - [R] group_vars() 不应返回 NULL (#13621)
- ARROW-17086 - [C++] 安装 java/dataset include 文件并修复由编译器标志导致的调试构建失败 (#13614)
- ARROW-17095 - [Go] 允许连接字典数组 (#13624)
- ARROW-17096 - [C++][Compute] 修复布尔数组上的模式内核错误 (#13646)
- ARROW-17101 - [Java] 更新 protoc 和 protoc-gen-grpc-java (#13632)
- ARROW-17102 - [R] 由于 Parquet 写入,测试在 R 最小夜间构建上失败 (#13631)
- ARROW-17108 - [Python] 停止在集成作业上跳过 dask 测试 (#13636)
- ARROW-17118 - [文档][发布] 使用直接链接将新版本添加到 Apache 报告数据库 (#13645)
- ARROW-17121 - [Gandiva][C++] 向 Gandiva 添加掩码函数 (#13647)
- ARROW-17135 - [C++] 减少 compute/kernels/scalar_compare.cc 中的代码大小 (#13654)
- ARROW-17140 - [C++][GANDIVA] 添加 Floor 函数 (#13655)
- ARROW-17151 - [文档] 固定文档主题以延迟暗模式更新 (#13663)
- ARROW-17153 - [GLib][Homebrew] glib-utils 仅适用于 GLib (#13683)
- ARROW-17153 - [CI][Homebrew] 需要 glib-utils (#13666)
- ARROW-17156 - [GLib][Flight] 添加 GAFlightClientOptions::disable-server-verification (#13670)
- ARROW-17157 - [GLib][Ruby][Flight] 添加对 GAFlightCallOptions 的标头支持 (#13671)
- ARROW-17158 - [GLib][Flight] 添加对 GetFlightInfo 的支持 (#13672)
- ARROW-17161 - [C++][Java] 数据集:支持从 Parquet 格式文件的固定偏移量读取
- ARROW-17162 - [C++] 提升 protobuf 供应商版本以包含在 DEBUG 上编译时的 ABI 不匹配修复 (#13674)
- ARROW-17163 - [C++] 恢复 jni_util.h 的安装 (#13675)
- ARROW-17188 - [R] 更新 9.0.0 的新闻 (#13726)
- ARROW-17194 - [CI][Conan] 启用 glog (#13697)
- ARROW-17213 - [C++] 修复 test-r-linux-valgrind crossbow 构建中的 valgrind 问题 (#13715)
- ARROW-17242 - [C++][FlightRPC] 通过 Flight 传播 RecordBatchReader::Close 错误 (#13738)