Apache Arrow 12.0.0 (2023年5月2日)
这是一个主要版本,涵盖了超过 3 个月的开发。
下载
贡献者
此版本包含来自 97 位不同贡献者的 531 次提交。
$ git shortlog -sn apache-arrow-11.0.0..apache-arrow-12.0.0
62 Sutou Kouhei
44 Weston Pace
26 Gang Wu
26 Matt Topol
23 Nic Crane
23 mwish
22 Joris Van den Bossche
22 Raúl Cumplido
20 Alenka Frim
19 David Li
19 Felipe Oliveira Carvalho
15 Will Jones
11 Jin Shang
11 rtpsw
9 Rok Mihevc
9 Yevgeny Pats
8 Ben Harkins
7 Fokko Driesprong
7 Jacob Wujciak-Jens
7 eitsupi
6 Bryce Mecum
6 Neal Richardson
6 dependabot[bot]
5 Li Jin
4 Adam Reeve
4 Dewey Dunnington
4 Hirokazu SUZUKI
4 rtadepalli
3 Abe Tomoaki
3 Antoine Pitrou
3 Carlos O'Ryan
3 Danyaal Khan
3 Davide Pasetto
3 Diego Fernández Giraldo
3 Dominik Moritz
3 Fatemah Panahi
3 Haocheng Liu
3 Igor Izvekov
3 Patrick Hoefler
3 Sanjiban Sengupta
3 Vibhatha Lakmal Abeykoon
2 Dinir Imameev
2 Herman Schaaf
2 Min-Young Wu
2 Noah Treuhaft
2 Sven Rebhan
2 Yibo Cai
2 coldWater
1 0x26res
1 Aaron Gorenstein
1 Alexander Diemand
1 Aliaksei Makarau
1 Andrew Lamb
1 Andy Chang
1 Brett Buddin
1 Carl Boettiger
1 Chris Chua
1 Christopher Akiki
1 Curt Hagenlocher
1 Dane Pitkin
1 David Sisson
1 Dmitry Kolmakov
1 Dongjoon Hyun
1 Edward Visel
1 Hongze Zhang
1 Ian Cook
1 Igor Suhorukov
1 Jacob Marble
1 Jie Zhang
1 Jinpeng
1 Judah Rand
1 Junming Chen
1 Laurent Quérel
1 Leo Shklovskii
1 Lubo Slivka
1 Marco Edward Gorelli
1 Martin Hilton
1 Matthijs Brobbel
1 Michael Hancock
1 Michael Lui
1 NoahFournier
1 Rob Sharp
1 Sagnik Dutta
1 Shaheer Ahmad
1 Simon Perkins
1 Theodore Tsirpanis
1 Twice
1 Zaharid
1 abandy
1 cluster
1 david dali susanibar arce
1 flynn
1 gf2121
1 h-vetinari
1 lafiona
1 sunpeng
1 zagto
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -sn --group=trailer:signed-off-by apache-arrow-11.0.0..apache-arrow-12.0.0
123 Sutou Kouhei
77 Weston Pace
71 Matt Topol
50 Joris Van den Bossche
43 Will Jones
35 David Li
22 Jacob Wujciak-Jens
19 Nic Crane
17 Antoine Pitrou
17 Raúl Cumplido
12 Dewey Dunnington
5 Alenka Frim
5 Eric Erhardt
5 Yibo Cai
4 Rok Mihevc
3 Li Jin
3 Neal Richardson
2 Dominik Moritz
2 Micah Kornfield
1 Matthew Topol
1 dependabot[bot]
更新日志
Apache Arrow 12.0.0 (2023-04-30 07:00:00)
错误修复
- GH-14779 - [C++] 在 Mac M1 上编译失败
- GH-14917 - [C++] 当使用低于 17 的 C++ 标准编译 GTest 时出错 (#34765)
- GH-14923 - [C++][Parquet] 修复了使用 malford 位宽读取最后一个块时的 DELTA_BINARY_PACKED 问题 (#15241)
- GH-15054 - [C++] 更改 s3 完成发生在 arrow 线程完成后,添加 pyarrow 退出钩子 (#33858)
- GH-15098 - [C++] 修复 util::EqualityComparable 以在 clang 15 上编译 (#33940)
- GH-15102 - [C++] 无法解压缩从 Java arrow SDK 发送的 arrow 流 (#15194)
- GH-15109 - [Python] 允许创建具有零字段的非空结构数组 (#33764)
- GH-15137 - [C++][CI] 修复流式 JSON 读取器测试中的 ASAN 错误 (#33772)
- GH-15139 - [C++] 改进 arrow.pc 的 bzip2 静态库路径检测 (#33712)
- GH-15173 - [C++][Parquet] 修复 ByteStreamSplit Standard 损坏问题 (#34140)
- GH-15212 - [C++] 修复 ORC 中切片列表数组的写入 (#15213)
- GH-15247 - [R] 尝试保存具有 NULL 列名的 data.frame 时出错 (#34798)
- GH-15256 - [C++][Dataset] 添加对使用 Partitioning::Default() 写入的支持 (#33674)
- GH-28074 - [C++][Dataset] 正确处理 Parquet 谓词下推中的 NaN (#15125)
- GH-31880 - [Python] 现在 Table.filter 使用表达式,使用 use_threads=True 保留顺序 (#34766)
- GH-31905 - [DevTools] 将 linting 添加到 Cython 文件 (#14662)
- GH-32512 - [Docs][R] 更新 conda install 命令 (#34298)
- GH-32954 - [Java][FlightRPC] 删除 FlightTestUtil#getStartedServer 并直接绑定到端口 0 (#34357)
- GH-33287 - [R] 无法在 http URL 上 read_parquet (#34708)
- GH-33336 - [C++][Parquet] 避免未对齐加载时的 UB (#14488)
- GH-33466 - [Go][Parquet] 添加对 pqarrow 中 Dictionary 数组的支持 (#34342)
- GH-33501 - [Packaging][Release] 添加一个发布后脚本,以向 conan 添加新版本 (#34022)
- GH-33566 - [C++] 添加对 nullary 和 n-ary 聚合函数的支持 (#15083)
- GH-33600 - [Go][Parquet] 位图编写器中的 Panic (#14989)
- GH-33616 - [C++] 重新排序 group_by,使键/段键位于聚合之前 (#34551)
- GH-33689 - [Python][CI] 在 dask nightly tests 上重新启用 fsspec 测试 (#34925)
- GH-33697 - [CI][Python] PySpark 3.2.0 的 nightly 测试在 numpy.bool 上失败,出现 AttributeError (#33714)
- GH-33699 - [C++] 增加在 valgrind 下运行时 c++ 测试的超时时间并缩短长时间测试 (#33886)
- GH-33701 - [C++] 添加对 LTO(链接时优化)构建的支持 (#33847)
- GH-33709 - [R] 从 semi_join 和 anti_join 中删除 suffix 参数 (#34030)
- GH-33717 - [Go] Flight SQL Server 处理 StreamChunk 错误 (#33718)
- GH-33721 - [CI][R] 在 test-r-install-local macOS 上禁用 sccache (#34713)
- GH-33726 - [CI][Go] 在 Go 基准测试中设置主机名 (#33728)
- GH-33727 - [Python] 如果 pandas 分类列具有作为字符串而不是对象的字典,则 array() 错误 (#34289)
- GH-33754 - [CI] 在 M1 上的验证任务作业中安装 brewfile 依赖项 (#33755)
- GH-33767 - [Go] 清除 ArrowArrayStream.get_next 中的参数 (#33768)
- GH-33777 - [R] 由于在没有数据集模块的构建上未跳过数据集测试,导致 nightly 构建失败 (#33778)
- GH-33779 - [R] 由于字段引用测试,nightly 构建(R 3.5 和 3.6)失败 (#33780)
- GH-33782 - [Release] 投票电子邮件的问题数量正在查询 JIRA 并产生错误的数字 (#33791)
- GH-33783 - [C#] 更新发布验证以使用 .NET 7.0 (#33799)
- GH-33786 - [C++] 忽略旧系统 xsimd (#33811)
- GH-33796 - [C++] 修复使用系统 GoogleTest 的错误 arrow-testing.pc 配置 (#33812)
- GH-33801 - [Python] 在 pyarrow 中公开 C++ ExtensionTypes/ExtensionArrays (#33802)
- GH-33813 - [CI][GLib] 使用 Ruby 3.2 更新捆绑的 MSYS2 (#33815)
- GH-33816 - [CI][Conan] 使用 TARGET_FILE 实现可移植性 (#33817)
- GH-33820 - [CI][Release] 不要在 Ubuntu 20.04 上 libxsimd-dev (#33821)
- GH-33824 - [C++] 改进 diescovery 失败时的错误消息 (#33848)
- GH-33830 - 澄清 REE 编码中 Null 值的处理 (#33831)
- GH-33849 - [C++] 修复 ARROW_BUILD_SHARED=OFF 和 ARROW_BUILD_EXAMPLES=ON 的构建 (#34350)
- GH-33864 - [Go] 不要直接将 cgo.Handle 强制转换为 unsafe.Pointer (#33865)
- GH-33876 - [C++][Windows] 为每个配置使用不同的 .pc 路径 (#33907)
- GH-33882 - [C++] 不要查找 ARROW_BUILD_STATIC=OFF 的 .pc 文件 (#34019)
- GH-33887 - [Go] cdata 包泄漏句柄,难以调试 (#33889)
- GH-33904 - [R] 改进 s3_bucket 的行为 - 解决方法 (#34009)
- GH-33911 - [C++] 将缺少的 std::forward 添加到 Result::ValueOrElse (#33912)
- GH-33914 - [Release] 强制 brew install build-from-source 不从 API 安装 (#33915)
- GH-33920 - [C++][CI] 在 sanitizer 作业中禁用 Flight SQL (#34014)
- GH-33932 - [Go] 修复使用不可为空的项目映射字段构建 RecordBuilder (#33906)
- GH-33934 - [Packaging][Linux] 启用 arm64 的 Flight (#34717)
- GH-33953 - [Java] 在每个请求上传递自定义标头 (#33967)
- GH-33954 - [C++][Parquet] 保留嵌套类型的字段 ID (#33955)
- GH-33963 - [C++] 添加缺少的 arrow/engine 标头 (#33964)
- GH-33970 - [C#] 使 schema 字段名称区分大小写 (#33978)
- GH-33971 - [C++] 修复 AdaptiveIntBuilder 始终填充数据缓冲区 (#33994)
- GH-33973 - [Python][Docs] 更新 Parquet 过滤器关键字的文档 (#33974)
- GH-34023 - [Docs] 关于查看旧文档的版本警告不适用于 >= 10 的版本 (#34178)
- GH-34029 - [Docs] 将 Ninja 添加到要安装的软件包 (#34040)
- GH-34035 - [C++] 从公共标头包含的内部标头文件破坏了外部项目的构建 (#34036)
- GH-34037 - [Python][Docs] 修复 Table.drop docstring (#34038)
- GH-34044 - [Go] 修复没有 noasm 标签的构建 (#34045)
- GH-34047 - [C++][FlightRPC] 使DoAction警告不那么显眼 (#34182)
- GH-34076 - [C#] 允许具有重复名称的模式字段 (#34125)
- GH-34080 - [Python] 添加对python中round_binary的支持 (#34084)
- GH-34082 - [Packaging][deb] 遵循Debian bookworm镜像变更 (#34091)
- GH-34086 - [C++][Parquet] 修复将num_rows写入数据页v2的问题 (#34096)
- GH-34088 - [Python] : 修复get_writer中的拼写错误 (#34089)
- GH-34092 - [R] 如果提供了schema且col_names保留为TRUE(默认值),则open_csv_dataset()出错 (#34217)
- GH-34098 - [Python][Docs] 修复数据集docstring (#34099)
- GH-34101 - [Go][Parquet] NewSchemaManifest创建错误的模式字段 (#34127)
- GH-34104 - [Python] 更新docs中的deduplicate_objects默认值以匹配实现 (#34128)
- GH-34106 - [C++][Parquet] 修复更新WriteArrowDictionary的页面统计信息的问题 (#34107)
- GH-34138 - [C++][Parquet] 修复从min_value/max_value解析统计信息的问题 (#34112)
- GH-34143 - [Python][Docs] 将fill_null添加回API参考 (#34144)
- GH-34148 - [C++] 将zstd恢复到1.5.2 (#34190)
- GH-34150 - [C++] 修复由于转换选项默认值初始化不正确导致的错误 (#34209)
- GH-34150 - [C++][Python] 修复ConversionOptions初始化不正确的问题 (#34156)
- GH-34163 - [C++][CI] 确保使用与捆绑ORC相同的Zstandard (#34164)
- GH-34165 - [Python] 如果未实现to_pandas_dtype,则扩展数组数据类型应默认为存储类型 (#34559)
- GH-34175 - [Docs] 从.github/CONTRIBUTING.md中删除Jira (#34205)
- GH-34188 - [C++][Benchmark] 为捆绑的gbenchmark添加缺少的BENCHMARK_STATIC_DEFINE (#34194)
- GH-34191 - [C++] 确保在捆绑的ORC中使用相同的ProtoBuf (#34192)
- GH-34206 - [C++] 不要让jemalloc定义影响unity构建 (#34185)
- GH-34210 - [C++] 当TimeUnit匹配时,使转换时间戳和持续时间为零复制 (#34270)
- GH-34211 - [R] 确保Arrow数组在尝试访问底层ChunkedArray之前是未物化的 (#34489)
- GH-34214 - [C++] 将OPENSSL_ROOT_HINT传递给捆绑的AWS的CMAKE_PREFIX_PATH (#34215)
- GH-34228 - [R] 当通过pkg-config找到Arrow时,添加LIB_DIR (#34229)
- GH-34230 - [Java] 在BaseAllocator#wrapForeignAllocation上调用分配监听器 (#34231)
- GH-34238 - [C++][Python] 在具有未对齐块的表上调用groupby时发生段错误
- GH-34241 - [C++] 修复ExecSpanIterator以正确初始化空字典数组 (#34246)
- GH-34244 - [Go][FlightRPC] SQLite示例报告事务支持 (#34245)
- GH-34256 - [Dev] 使用main作为新的默认分支更新发布脚本 (#34413)
- GH-34269 - [C++] 修复包含文件名 (#34285)
- GH-34271 - [C++] 删除Thrift GitHub存档源url (#34273)
- GH-34283 - [Python] 为to_pandas的索引添加types_mapper支持 (#34445)
- GH-34284 - [Java][FlightRPC] 修复了预处理语句被发送两次的问题 (#34358)
- GH-34296 - [C++][CI] 强制appveyor构建使用conda-forge并忽略defaults通道 (#34297)
- GH-34301 - [CI][Packaging][RPM][arm64] 使用closer.lua下载KEYS (#34302)
- GH-34303 - [CI][Packaging][deb] 在Debian GNU/Linux bookworm上使用系统Meson (#34304)
- GH-34306 - [CI][Packaging][RPM] 不要在CentOS Stream 8上安装utf8proc-devel (#34307)
- GH-34308 - [CI][C++] 使用str(“”)重置旧g++的std::stringstream (#34317)
- GH-34309 - [C++] 禁用aws_lc和s2n-tls的LTO (#34349)
- GH-34324 - [CI][C++] 为旧g++显式指定set元素类型 (#34325)
- GH-34326 - [C++][Parquet] 如果禁用stats,则页面null_count不正确 (#34327)
- GH-34366 - [R] 不要getFromNamespace() dplyr:::check_name() 助手 (#34369)
- GH-34367 - [Java] 修复来自顺序合并的构建错误 (#34368)
- GH-34381 - [Dev] 从arrow-site committers.yml检索提交者,而不是依赖author_association (#34557)
- GH-34385 - [Go] 读取启用了压缩但未压缩缓冲区的IPC文件 (#34476)
- GH-34395 - [Python] 添加对符号链接的Arrow相关包含目录的支持 (#34674)
- GH-34404 - [Python] 测试失败,因为pandas.Index现在可以存储所有数字dtypes(不仅仅是64位版本) (#34498)
- GH-34410 - [Python] 允许使用大于默认值的块大小 (#34435)
- GH-34432 - [Java] NoCompressionCodec针对不支持的编解码器类型抛出异常 (#34580)
- GH-34446 - [C++][Parquet] 修复RecordReaderPrimitveTypeTests测试 (#34447)
- GH-34464 - [R] 缺少rlang导入 - 通知 (#34465)
- GH-34467 - [R] 在R版本 < 4.0.0上禁用DuckDB测试 (#34468)
- GH-34472 - [Go][FlightRPC] 在Flight SQL客户端中消耗DoAction的结果 (#34473)
- GH-34474 - [C++] 如果连接需要过多的键数据,则检测并引发错误 (#35087)
- GH-34479 - [Java] java-jars由于slf4j绑定冲突而失败 (#34480)
- GH-34492 - [Go] 修复丢失的布尔plain编码器状态更新 (#34493)
- GH-34496 - [C++][Parquet] 修复当num_values = 0时
MakePages
中的parquet单元测试 (#34497) - GH-34513 - [CI][Python] 从_acero.pyx中删除未使用的导入以修复linting失败 (#34514)
- GH-34519 - [C++][R] 修复投影与字段同名的dataset scans (#34576)
- GH-34539 - [C++] 修复节流调度器以避免数据集写入器中的堆栈溢出 (#35075)
- GH-34540 - [C++] 删除已设置但未使用的变量 (#34541)
- GH-34546 - [C++] 支持从大型字符串到字符串标量的转换 (#34549)
- GH-34568 - [C++][Python] 在Python Arrow中公开Run-End Encoded数组 (#34570)
- GH-34579 - [Python][Docs] TableGroupBy.aggregate 选项 (#34759)
- GH-34597 - [Packaging][RPM] 不要使用glog (#34598)
- GH-34603 - [Go][Parquet] 写入带有空字符串的字典时出现问题 (#34709)
- GH-34605 - [C++] 当将shared_ptr传递给命名表时,不要使用std::move … (#34606)
- GH-34619 - [C++] 向ArraySpan转换添加扩展数组处理 (#34684)
- GH-34621 - [GLib] 不要使用“g_strdup(XXX->ToString().c_str())” (#34624)
- GH-34622 - [CI][GLib] 使用“meson setup …” (#34623)
- GH-34629 - [Go] 修复transpose_ints以在riscv64-freebsd上工作 (#34647)
- GH-34633 - [C++][Parquet] 修复StreamReader以读取decimals (#34720)
- GH-34639 - [C++] 支持即使struct array具有nulls/offsets,也支持RecordBatch::FromStructArray (#34691)
- GH-34641 - [CI][Python] 将test_acero.py上的test_scan标记为需要dataset (#34642)
- GH-34643 - [CI] 修复用于测试不可压缩数据的文件 (#34646)
- GH-34653 - [CI][C++] 修复alpine-linux-cpp上arrow-dataset-file-json-test的段错误 (#35047)
- GH-34655 - [CI][C++] arrow-compute-internals-test 在 test-cuda-cpp 上因 `No function registered with name: equal` 失败
- GH-34661 - [CI][C#] 更新Ubuntu C#作业以使用带有.NET 7.0的镜像 (#34662)
- GH-34667 - [C++][Parquet] 使用无效输入测试DeltaLengthByteArrayDecoder (#34668)
- GH-34670 - [Packaging][C++] 添加对自定义GDB插件安装目录的支持 (#34672)
- GH-34696 - [C++] 检查REE数组在Validate()中是否没有空缓冲区 (#34697)
- GH-34731 - [Python] 创建RecordBatchReader时释放GIL (#34732)
- GH-34743 - [Python] 放宽不稳定Flight测试中的条件 (#34747)
- GH-34753 - [C++] 每晚构建失败,出现EnsureAlignment (#34754)
- GH-34771 - [C++] 添加对在FreeBSD/amd64上编译的支持 (#34772)
- GH-34786 - [C++] 修复Substrait消费者为AggregateRel计算的输出模式 (#34904)
- GH-34801 - [C++] 从arrow.pc中删除不必要的“Requires.private: libcurl openssl” (#34810)
- GH-34807 - [Go] 读取parquet footer size和magic bytes时处理
io.EOF
(#34808) - GH-34823 - [C++][ORC] 修复ORC CHAR类型映射 (#34836)
- GH-34831 - [C++] 在其他检查之前,检查REE子缓冲区是否有效 (#34833)
- GH-34843 - [R] 修复由Acero重构导致的R构建失败 (#34844)
- GH-34862 - [C++] 修复ArrowDataset依赖项 (#34866)
- GH-34869 - [C++] 配置alpine linux nightly job 以从源代码构建 gtest (#34870)
- GH-34871 - [C++] 修复了add_dataset_test函数以正确引用测试文件 (#34872)
- GH-34906 - [C++] 如果从已关闭的ArrayStreamBatchReader读取,则返回无效状态而不是段错误 (#35016)
- GH-34933 - [Python] 提高最低cython版本 (#34935)
- GH-34937 - [R] 由于依赖于已安装snappy的新测试,导致最小构建失败 (#34938)
- GH-34944 - [Python] 修复在pa.array()中转换带有getitem的非序列对象时发生的崩溃 (#34958)
- GH-34953 - [Ruby] 更改
Table.slice
中的null选择行为为:drop
(#34954) - GH-34960 - [C++] test util 修复 arrow Random Generator 丢失 nullable 信息 (#34961)
- GH-34973 - [CI][Packaging] 修复wheel-clean中的脚本路径 (#34974)
- GH-34977 - [C++] 修复arrow-dataset.pc中的“Requires”格式 (#34978)
- GH-34983 - [C++] 在C Data Interface导入时保留map值的可为空性 (#35013)
- GH-34988 - [C#] 修复CDataSchemaPythonTest中特定于Windows的测试问题 (#34989)
- GH-34995 - [C++] 改进 SYSTEM 情况下的可用 GTest 检查 (#34997)
- GH-35008 - [C++] 添加 REETestData 和 PageIndexReaderParam 的打印器以安抚 Valgrind (#35011)
- GH-35014 - [Python] 确保单元测试可以在没有 acero 的情况下运行 (#35017)
- GH-35018 - [CI][Java][C++] 为 LLVM 使用 ARROW_ZSTD_USE_SHARED=OFF (#35023)
- GH-35021 - [Python][CI] 在 test-conda-python 中使用 conda 的 gdb (#35024)
- GH-35029 - [CI][C#] 在 ubuntu-csharp 镜像上安装 python 以修复 nuget CI 构建 (#35030)
- GH-35038 - [R] arrow_table 中的参数顺序影响对象返回类型 (#35039)
- GH-35056 - [Python][CI] 不要在 Windows 上安装 gdb (#35057)
- GH-35060 - [C#][CI] 更新 dotnet 下载链接正则表达式 (#35061)
- GH-35062 - [Go][CI] 修复验证失败问题 (#35077)
- GH-35063 - [CI] 修复 C# 测试中的 Python 要求 (#35091)
- GH-35066 - [CI][Packaging][Linux] 释放更多磁盘空间 (#35128)
- GH-35069 - [Archery][Release] 从 Archery 发布的迁移评论中删除检索 ARROW issue (#35070)
- GH-35073 - [R] 最小构建失败 (acero 符号未定义) (#35074)
- GH-35086 - [Java][CI] 升级 CycloneDX Maven 插件版本 (#35092)
- GH-35089 - [CI][C++][Flight] macOS 发布验证 nightly 构建中测试失败 (#35090)
- GH-35115 - [C++] 将 util_avx2.cc 从 acero 移动到 compute (#35117)
- GH-35133 - [Go] 修复 32 位架构中
math.MaxUint32 overflows int
错误 (#35159) - GH-35143 - [R][C++] 固定形状张量导致 OSX 上的构建中断 (#35154)
- GH-35170 - [CI][Packaging][Conan] 构建 grpc-proto (#35203)
- GH-35181 - [R] 增加 versions.json 中的 R 包版本号 (#35132)
- GH-35186 - [CI][C++] 改进 Windows + vcpkg 上的 GoogleTest 检测 (#35200)
- GH-35187 - [CI][C++] 使用最新的 arrow-testing (#35227)
- GH-35192 - [Docs] 从
logo
切换到logo_url
以支持 sphinx >= 6 (#35194) - GH-35205 - [C++][Gandiva] 当我们使用捆绑的 Zstandard 时,不要查找系统 Zstandard (#35220)
- GH-35206 - [C++] 在 Windows 验证中查找 Conda OpenSSL (#35225)
- GH-35235 - [CI][Python] Pandas upstream_devel 和 nightly 构建失败 (#35248)
- GH-35252 - [C++] 使用 ArrowTesting 的 FindGTestAlt.cmake (#35253)
新特性和改进
- GH-14863 - [C++] 向数组构建器添加可以采用 optionals 的 appender 函数 (#24372)
- GH-14866 - [C++] 删除内部 GroupBy 实现 (#14867)
- GH-14912 - [Java] 删除 arrow-vector、arrow-jdbc 和 arrow-algorithm 中 PlatformDependent 的使用 (#14913)
- GH-14939 - [C++] 支持 FieldRef 和 FieldPath 中的 Table 查找 (#34537)
- GH-15059 - [C++][Acero] 从表达式而不是片段填充保证列 (#15129)
- GH-15070 - [Python][CI] 更新 pandas 测试以适应 pandas 2.0.1 中空列 dtype 更改 (#35031)
- GH-15070 - [Python][CI] 与 pandas 2.0 兼容 (#34878)
- GH-15107 - [C++][Parquet] Parquet 编码器:支持 Boolean 的 RLE (#34526)
- GH-15164 - [C++][Parquet] 实现当前版本的 BloomFilter 规范 (#33776)
- GH-15171 - [C++] 按值传递 std::string_view (#33684)
- GH-15193 - [C++][Parquet] Parquet FuzzReader 添加一些固定批次大小 (#33942)
- GH-15195 - [C++][FlightRPC][Python] 为 Flight 类型添加 ToString/Equals (#15196)
- GH-15203 - [Java] 实现写入压缩文件 (#15223)
- GH-15209 - [C++][Gandiva] 添加 abs 函数 (#15208)
- GH-15231 - [C++][Benchmarking] 添加新的内存池指标并在基准测试中跟踪 (#33731)
- GH-15280 - [C++][Python][GLib] 添加包含之前 compute/exec 中所有内容的 libarrow_acero (#34711)
- GH-15280 - [C++] 重构以重新组织依赖关系,作为将 acero 移出 libarrow 的前奏 (#34518)
- GH-15284 - [C++] 在 Acero 计划测试中使用 DeclarationToExecBatches (#15288)
- GH-15285 - [GLib] 添加 GArrowMatchSubstringOptions (#34725)
- GH-15286 - [GLib] 添加 GArrowIndexOptions (#34679)
- GH-15287 - [Ruby] 合并列并在 Table#join 中添加后缀 (#33654)
- GH-15483 - [C++] 添加固定形状张量规范 ExtensionType (#8510)
- GH-18481 - [C++] 优先转换文字而不是转换字段引用 (#15180)
- GH-18487 - [R] 从字符向量读取文本 (CSV/JSON) (#33968)
- GH-18818 - [R] 创建对 struct 中字段的字段引用 (#19706)
- GH-20117 - [Dev] 请求 INFRA 将默认分支切换到 main
- GH-20272 - [C++] 升级捆绑的 AWS SDK 版本 (#33808)
- GH-20351 - [C++] 用于运行长度编码类型的 Kernel 输入类型匹配器 (#34503)
- GH-20407 - [Go] REE 数组的数组构建器 (#14114)
- GH-20408 - [Go] 实现 REE 的 Encode 和 Decode 函数 (#34534)
- GH-20415 - [Go] RLE 的 Kernel 输入类型 (#14146)
- GH-20484 - [Swift] 初始 Arrow 实现 (#14561)
- GH-21429 - [GLib] 添加 GArrowDenseUnionArrayBuilder (#34981)
- GH-21430 - [GLib] GArrowSparseUnionArrayBuilder (#34992)
- GH-25163 - [C#] 支持半精度浮点数数组。 (#34618)
- GH-25986 - [C++] 启用加密密钥的外部材料和旋转 (#34181)
- GH-29705 - [Python] 删除已弃用的 pyarrow.serialization 功能 (#34926)
- GH-30774 - [Python] 删除已弃用的
use_async
(#34034) - GH-31148 - [Dev] 更新 repo 中的 URL 以指向 main (#34218)
- GH-31506 - [Python] 处理 Streams 和 File Access (Factory Functions) 中的文档字符串 (#33609)
- GH-31507 - [Python] 处理 Streams 和 File Access (Stream Classes) 中的文档字符串 (#33698)
- GH-31548 - [Python] 测试在类型推断期间是否接受 zoneinfo 时区 (#34394)
- GH-31715 - [Python] 改进类和方法文档字符串 - Streams 和 File access
- GH-31809 - [Docs] 添加有关如何收集生成的遥测数据的说明 (#33873)
- GH-31868 - [C++] 支持连接扩展数组 (#14463)
- GH-31910 - [C++] 添加对 Substrait cast 表达式的支持 (#34050)
- GH-32050 - [C++] 在 chunked arrays 上实现 Rank kernel (#33846)
- GH-32104 - [C++] 添加对 Arrow 的 Run-End 编码数据的支持 (#33641)
- GH-32105 - [C++] 编码和解码 Run-End 编码向量 (#34195)
- GH-32240 - [C#] 添加新的 Apache.Arrow.Compression 包以实现 IPC 解压缩 (#33893)
- GH-32240 - [C#] 从 ReadOnlyMemory 读取 IPC 流时支持解压缩 (#34108)
- GH-32240 - [C#] 支持 IPC 格式缓冲区的解压缩 (#33603)
- GH-32292 - [R][Packaging] 对 Ubuntu < 22.04 使用在 CentOS 7 上构建的二进制文件 (#34048)
- GH-32338 - [C++] 为 Run-End 编码数组添加 IPC 支持 (#34550)
- GH-32613 - [C++] 简化 dense unions 的 IPC writer (#33822)
- GH-32619 - [Python][Docs] 显式包含 PyArrow 构建的选项 (#34463)
- GH-32653 - [C++] 清理执行引擎中的错误处理 (#15253)
- GH-32747 - [C++] Substrait To Arrow Emit 特性测试 (#14174)
- GH-32801 - [C++][Docs] 删除过时的 .md 文件 (#33829)
- GH-32804 - [Dev] 在迁移到 “main” 作为默认 Git 分支后,从 core.py 中的 Target 类的 default_branch 属性中删除 “master”
- GH-32916 - [C++][Python] 用户定义的表格函数 (#14682)
- GH-32946 - [Go] 实现 REE Array 和 Compare (#14111)
- GH-32947 - [Go] 实现 REE Array 的 Concatenate (#14126)
- GH-32949 - [Go] REE Array IPC 读/写 (#14223)
- GH-33024 - [C++][Parquet] 向 Parquet 写入器添加 DELTA_LENGTH_BYTE_ARRAY 编码器 (#14293)
- GH-33115 - [C++] Parquet 实现 DATA_PAGE (v1) 的页读取和写入中的 CRC 校验 (#14351)
- GH-33143 - [C++] 本地时间计算内核的命名和文档/测试更改 (#34263)
- GH-33143 - [C++] 将带时区的 timestamp 转换为本地时间的内核 (#34208)
- GH-33209 - [C++] 支持读取 JSON 数据集 (#33732)
- GH-33215 - [Dev] 在默认分支迁移后,在 dev/archery/archery/crossbow/core.py 中将硬编码的字符串 “master” 替换为 “main”
- GH-33243 - [Plasma] 移除 (#34718)
- GH-33317 - [C++] 确保数组对象满足对齐要求的实用方法 (#14758)
- GH-33377 - [Python] Table.drop 应该支持传递单个列 (#33810)
- GH-33439 - [CI] Substrait 集成测试 (#14596)
- GH-33580 - [C++] 支持在 Substrait extension-multi 和 AsOfJoin 中发出信息 (#14799)
- GH-33588 - [Substrait] 为 round 操作添加 Substrait→Acero 映射 Major: (#33775)
- GH-33596 - [C++][Parquet] Parquet 页面索引读取支持 (#14964)
- GH-33621 - [Documentation][Developer Tools] 添加 CODEOWNERS 文件 (#33622)
- GH-33631 - [R] 将 pkgdown 文档中的 Jira 工单号重写为 GitHub issue 号 (#34260)
- GH-33640 - [C++] 向 asof join 节点添加反压 (#33648)
- GH-33652 - [C++][Parquet] 添加接口 total_compressed_bytes_written (#33897)
- GH-33655 - [C++][Parquet] 修复 TestArrowReadWrite.MultithreadedWrite 中偶尔出现的失败 (#33739)
- GH-33655 - [C++][Parquet] 并行写入 parquet 列 (#33656)
- GH-33659 - [Developer Tools] 添加重大变更和关键修复的定义 (#33660)
- GH-33673 - [C++] 规范 past 和 future tolerance 的 as-of-join 约定 (#33676)
- GH-33679 - [JS] 更新依赖 (#33680)
- GH-33681 - [JS] 更新 flatbuffers (#33682)
- GH-33723 - [C++] 必须检查 re2::RE2::RE2() 的结果 (#33806)
- GH-33724 - [Doc] 使用最新支持更新 substrait 一致性文档 (#33725)
- GH-33734 - [Go] 使其兼容 grpc < 1.45 (#33735)
- GH-33737 - [C++] 简化 exec plan 追踪 (#33738)
- GH-33741 - [Python] 处理数据类型工厂函数中的文档字符串 (#33785)
- GH-33742 - [Python] 处理数据类型类中的文档字符串 (#34380)
- GH-33746 - [R] 更新 11.0.0 的 NEWS.md (#33748)
- GH-33750 - [GLib] 添加 garrow_table_batch_reader_set_max_chunk_size() (#34601)
- GH-33760 - [R][C++] 处理扫描器中的嵌套字段引用 (#33770)
- GH-33787 - [C++] 在 s390x 上抑制 LinuxParseCpuFlags() 中的 unused-value 警告 (#33828)
- GH-33789 - [Go] 向 RecordReader 添加 Err() (#33792)
- GH-33794 - [Go] 向 PreparedStatement 添加 SetRecordReader (#33795)
- GH-33800 - [Packaging] 放弃对 Ubuntu 18.04 的支持 (#34020)
- GH-33825 - [Python] 公开 pyarrow.dataset.get_partition_keys (从分区表达式获取键/值) (#33862)
- GH-33835 - [Doc][Release] 改进发布指南说明 (#33836)
- GH-33840 - [Go] 改进 SQLite Flight SQL 示例并提供 mainprog (#33841)
- GH-33850 - [C++] 允许配置 Substrait 的默认扩展提供程序 (修复) (#34075)
- GH-33850 - [C++] 允许配置 Substrait 的默认扩展提供程序 (#34042)
- GH-33851 - [C++] 更新捆绑的 boost 版本 (#33890)
- GH-33852 - [Go] 从 Flight SQL 示例服务器返回 catalog/schema (#33853)
- GH-33859 - [C++][Java] 将 Apache ORC 升级到 v1.8.2 (#33860)
- GH-33867 - [Go][FlightSQL] 允许将 grpc 调用选项传递给 PreparedStatement 方法 (#33868)
- GH-33872 - [C++] 移除 AppendScalar 中的 hacky shared_ptr 构造 (#33866)
- GH-33874 - [Java] 确保在 JDBC 身份验证握手期间包含自定义标头 (#33946)
- GH-33875 - [Go] 处理写入 LargeString 和 LargeBinary 类型 (#33965)
- GH-33892 - [R] 将
dplyr::n()
映射到count_all
内核 (#33917) - GH-33895 - [Release] 添加一个脚本来添加我们的 RubyGems 的新所有者 (#33896)
- GH-33899 - [C++] 添加 NamedTapRel 关系作为 Substrait 扩展 (#33909)
- GH-33901 - [Go] 添加基于 malloc 的分配器 (#33902)
- GH-33923 - [Docs] Tensor 规范扩展类型规范 (#33925)
- GH-33924 - [Format] 固定形状 Tensor 作为规范扩展类型
- GH-33926 - [Python] pyarrow.RecordBatch 的 DataFrame 交换协议 (#34294)
- GH-33935 - [Go][FlightRPC] 实现 Flight SQL 扩展 (#34039)
- GH-33936 - [Go] C 数据接口:为 nil 缓冲区导出虚拟缓冲区 (#33951)
- GH-33957 - [C++] 添加 Rank 分块数组基准测试 (#34602)
- GH-33972 - [C++] 将元数据传入 ParquetReader (#34015)
- GH-33977 - [Dev] PR 工作流自动化机器人 (#34161)
- GH-33990 - [C++] 我知道 NAN != NAN,但不应该是 literal(NAN) == literal(NAN) 吗?
- GH-33993 - [Java] 在创建 Flight 服务器时,让 OS 在测试中分配端口 (#33992)
- GH-33998 - [R] 更新 vignettes 以引用新的 open_*_dataset 函数 (#34710)
- GH-34003 - [C++][nodiscard] (#34006)
- GH-34004 - [C++] 添加 benchmarks-maximal CMake 预设 (#34005)
- GH-34007 - [C++] 向 ExecResult 添加 array_span_mutable 接口 (#34008)
- GH-34011 - [Doc] 确保在完整文档构建中启用 substrait (#34024)
- GH-34011 - [Python][Doc] 将 pyarrow.substrait 添加到 pyarrow 的 API 参考文档 (#34012)
- GH-34051 - [C++] GcsFileSystem 延迟启动顺序读取 (#34052)
- GH-34053 - [C++][Parquet] 写入 parquet 页面索引 (#34054)
- GH-34055 - [Go][CI] 添加在 CI 中运行的测试,该测试使用 noasm 标记 (#34167)
- GH-34056 - [C++] 添加实用函数,以简化将任何基于行的结构转换为
arrow::RecordBatchReader
或arrow::Table
(#34057) - GH-34059 - [C++] 添加基于批处理索引的 fetch 节点 (#34060)
- GH-34063 - [C++] 避免在
GcsFileSystem::ReadAt()
中浪费 (#34065) - GH-34074 - [GLib][FlightRPC] 添加身份验证支持 (#34090)
- GH-34077 - [Go] 实现 RunEndEncoded Scalar (#34079)
- GH-34078 - [C++][Parquet] BloomFilter 的小 API 改进 (#33995)
- GH-34094 - [C++] 增加 clang >= 16 的 Boost 最低版本 (#34100)
- GH-34113 - [C++][Thirdparty] 将 zstd 升级到 v1.5.4 (#34114)
- GH-34118 - [C++][Python] 使 S3 事件循环线程数可配置 (#34134)
- GH-34119 - [C#] 运算符到 Schema (#34126)
- GH-34122 - [C++] 允许调用函数注册表函数而无需 Substrait 映射 (#34288)
- GH-34136 - [C++] 向 ExecPlan 添加排序的概念 (#34137)
- GH-34142 - [C++][Parquet] 修复记录跨多个页面 (#34193)
- GH-34147 - [C++][Parquet] 支持 DICTIONARY_PAGE 上的 crc 计数和检查 (#34254)
- GH-34154 - [Python] 向 Array 和 Expression 添加
is_nan
方法 (#34184) - GH-34157 - [C++] 配置捆绑的 AWS SDK 以使用 aws-lc 而不是 OpenSSL (#34159)
- GH-34171 - [Go][Compute] 实现 “Unique” 内核 (#34172)
- GH-34174 - [Docs][Release] 添加 Twitter 到发布后任务 (#34202)
- GH-34186 - [Go] 添加 arrow.MapOfWithMetadata 支持 (#34207)
- GH-34197 - [R][CI] 将以前的 R 包版本添加到向后兼容性 CI 作业 (#34198)
- GH-34199 - [R] 增加 NEWS.md 中的 R 包版本 (#34200)
- GH-34219 - [Go][FlightRPC] 将事务添加到 Sqlite FlightSQL 示例 (#34220)
- GH-34242 - [C++][Parquet] 优化 Parquet schema 中 shared_ptr 的注释和移动 (#34243)
- GH-34248 - [Python] 公开 order_by 节点 (#34654)
- GH-34248 - [C++] 添加 order_by 节点 (#34249)
- GH-34257 - [文档] 更新外部项目的 git 链接/分支,从 master 变为 main (#34502)
- GH-34262 - [C++][ORC] 支持 union 类型 (#34416)
- GH-34266 - [C++] 添加 pivot_longer 节点 (#34267)
- GH-34278 - [C++] 在命名表提供程序中公开 schema (#34279)
- GH-34280 - [C++][Python] 阐明 row_group_size 的含义,并将默认值更改为 1Mi (#34281)
- GH-34322 - [C++][Parquet] ByteArray 的编码微基准测试 (#34323)
- GH-34330 - [Go][Parquet] : 添加扩展类型支持 (#34631)
- GH-34332 - [Go][FlightRPC] 为
database/sql
框架添加驱动程序 (#34331) - GH-34334 - [Go][CSV] 支持 list 字段 (#34343)
- GH-34335 - [C++][Parquet] 优化 DELTA_LENGTH_BYTE_ARRAY 的解码 (#34955)
- GH-34339 - [R] 将
skip_rows_after_names
选项添加到read_csv_arrow
的选项中 (#34340) - GH-34359 - [Python] 将 select 方法添加到 pyarrow.RecordBatch (#34360)
- GH-34361 - [C++] 修复 Unions 和 Run-End Encoded 等没有位图的类型的逻辑 null 的处理 (#34408)
- GH-34382 - [C++] 在 run_end_encode 和 run_end_decode 函数中支持更多类型 (#34761)
- GH-34388 - [C++] 无条件构建核心计算内核 (#34295)
- GH-34398 - [R] 为 11.0.0.3 更新 NEWS.md (#34399)
- GH-34405 - [C++] 添加对 QueryOptions 中自定义名称的支持。将其连接到 Substrait (#34406)
- GH-34411 - [Python] 更改 array 构造函数以接受 pyarrow array (#34275)
- GH-34417 - [C++][Flight] 升级 OpenTelemetry SemanticConventions 标头 (#34419)
- GH-34421 - [R] 让 GcsFileSystem 接受 json_credentials 的路径 (#34524)
- GH-34422 - [R] 公开 GcsFileSystem$options (#34477)
- GH-34425 - [GLib] 添加 GArrowRankOptions (#34458)
- GH-34428 - [Python][Docs] 为
make_fragment
添加文档字符串 (#34429) - GH-34437 - [R] 使用 FetchNode 和 OrderByNode (#34685)
- GH-34440 - [Ruby] 添加对没有块的
RecordBatch{File,Stream}Reader#each
的支持 (#34441) - GH-34442 - [Ruby][FlightRPC] 添加
ArrowFlight::RecordBatchReader#each
(#34444) - GH-34453 - [Go] 支持用户定义的扩展的 Builders (#34454)
- GH-34481 - [CI] 将 ARM 作业从 Travis 迁移到自托管 runners (#34482)
- GH-34499 - [R] 在发布后增加 NEWS.md 中的版本号 (#34500)
- GH-34536 - [Parquet][C++] 覆盖 DeltaBitPackEncoder 的默认配置 (#34632)
- GH-34543 - [CI] 自托管 ARM 工作流程改进 (#34512)
- GH-34547 - [C++][ORC] 移除已弃用的 ORC_UNIQUE_PTR (#34548)
- GH-34552 - [C++][Parquet] 从上游同步 parquet.thrift (#34553)
- GH-34561 - [C++] 实现 RunEndEncodedBuilder::AppendEmptyValues() (#34562)
- GH-34564 - [Python][C++] 更新代码以使用 cython 3 编译 (#34726)
- GH-34565 - [C++] 教 dataset_writer 接受自定义文件名 functor (#34984)
- GH-34572 - [Go][CSV] 添加对 CSV 的二进制支持 (#34558)
- GH-34581 - [C++][Java] 将 Apache ORC 升级到 v1.8.3 (#34582)
- GH-34584 - [Go][CSV] 添加扩展类型支持 (#34585)
- GH-34590 - [C++][ORC] 修复 orc 和 arrow 之间的 timestamp 类型映射 (#34591)
- GH-34595 - [C++] 更新 google-cloud-cpp 到 v2.8.0 (#34707)
- GH-34615 - [CI][C++] 添加 CI 作业,用于在没有 ARROW_COMPUTE 的情况下进行基本格式支持 (#34617)
- GH-34626 - [C++] 添加有序/分段聚合 Substrait 扩展 (#34627)
- GH-34630 - [C++] 第二个重构块,将 acero 移出 libarrow (#34575)
- GH-34638 - [C++][Docs] 添加最小构建标志的文档 (#34693)
- GH-34644 - [C++] 默认情况下,在 Substrait 中首选不安全转换 (#34645)
- GH-34650 - [GLib] 添加 GArrowFilterNodeOptions (#34663)
- GH-34659 - [C++] 审查围绕 Run-End Encoded 数组的验证过程,以改进 Python 集成 (#34628)
- GH-34665 - [Parquet][C++] 允许读取 BloomFilter (#34728)
- GH-34669 - [Packaging][Conda] 更新 arrow feedstock 依赖项 (#34652)
- GH-34673 - [C++][Parquet] 为 parquet 添加 Boolean 编码基准测试 (#34676)
- GH-34686 - [Python] 添加 RunEndEncodedScalar 类 (#34924)
- GH-34687 - [CI][Python] 创建一个作业,从 gemfury 中删除旧的 nightly wheels (#34705)
- GH-34692 - [Java] 公开 Location.toSocketAddress (#34648)
- GH-34700 - [Packaging][RPM] 在 AlmaLinux 8+ 上使用 lz4-libs 而不是 lz4 (#34716)
- GH-34703 - [Python] 在创建 pandas Series 时显式设置 copy=False (#34593)
- GH-34737 - [C#] schemas 和 types 的 C Data 接口 (#34133)
- GH-34742 - [Java] 拆分 flight-sql-jdbc-driver 以方便重用 (#34678)
- GH-34768 - [C++][Gandiva] 移除 LLVM<16 pin (#34922)
- GH-34768 - [C++][Gandiva] 接受 LLVM 16 (#34916)
- GH-34778 - [Java] 仅将 ServerInterceptorAdapter 逻辑应用于 Flight 服务请求 (#34815)
- GH-34790 - [Go] : 添加 array.Edits.UnifiedDiff (#34827)
- GH-34790 - [Go] : 添加 array.Diff() (#34806)
- GH-34796 - [C++] 添加 FromTensor、ToTensor 和 strides 方法到 FixedShapeTensorArray (#34797)
- GH-34802 - [C++][Parquet] 允许将池传递给解码器 (#34803)
- GH-34805 - [CI][Python] Cython 测试在 conda packaging 构建中失败
- GH-34812 - [Packaging][Python] 使用自托管的 arm64 Linux runner 而不是 Travis CI 进行 Linux arm64 wheels (#34835)
- GH-34813 - [C++] 改进 GoogleTest 检测 (#34920)
- GH-34819 - [Ruby] 添加 Slicer::ColumnCondition#match_substring (#34902)
- GH-34821 - [DOC][ORC] 更新 ORC 的文档 (#34822)
- GH-34832 - [Go] 添加 Record SetColumn 方法 (#34794)
- GH-34837 - [GLib][Ruby] 添加 Arrow::{Sparse,Dense}UnionArray#get_value (#34838)
- GH-34839 - [Go] 为非 amd64 GOARCH 构建没有 noasm 的 compute (#34840)
- GH-34853 - [Go] 添加 TotalRecordSize, TotalArraySize (#34854)
- GH-34855 - [Go] 添加 GetValue 函数到 Metadata (#34856)
- GH-34863 - [Go] Decimal DataTypes 的 Pow 方法 (#34864)
- GH-34879 - [Python][CI] 使用最新 dask 的 nightly 集成测试失败 (test_null_partition_pyarrow)
- GH-34880 - [Python][CI] 修复 Windows 测试使用最新 pandas 2.0 失败的问题 (#34881)
- GH-34882 - [Python] FixedShapeTensorType 的绑定 (#34883)
- GH-34888 - [C++][Parquet] Writer 支持添加额外的 kv 元数据 (#34889)
- GH-34893 - [C++] 修复在向后迭代时出现的 run-end encoded 数组迭代器问题 (#34896)
- GH-34899 - [C++] 依赖项:将 zstd 提升到 v1.5.5 (#34900)
- GH-34914 - [Packaging][Linux] 添加对 Acero 的支持 (#34915)
- GH-34945 - [C++][Docs] 在示例中添加缺少的 cmake_minimum_required() (#34969)
- GH-34946 - [Ruby] 移除 DictionaryArrayBuilder 相关的省略 (#34947)
- GH-34951 - [Ruby] 添加使用 MatchSubStringFamilyCondition 的方法 (#34952)
- GH-34956 - [Docs][Python] 添加到 docs 中 FixedShapeTensorType 的用法 (#34957)
- GH-34962 - [Go] 使 Array 接口上的 GetOneForMarshal 公开 (#34964)
- GH-34968 - [C++] 添加 Equal Options 到 RecordBatch (#34970)
- GH-35025 - [Python] 移除已弃用的 pandas.Categorical fastpath 关键字的使用 (#35026)
- GH-35042 - [Go][FlightSQL driver] 添加 TLS 配置 (#35051)
- GH-35078 - [Python][CI] Windows 上的测试运行非常慢
- GH-35218 - [R] 更新 R 组件/版本 12.0.0 的 NEWS (#35219)
- PARQUET-2201 - [parquet-cpp] 为 RecordReader ReadRecords 和 SkipRecords 添加压力测试。 (#14879)
- PARQUET-2225 - [C++][Parquet] 允许使用 RecordReader 读取 dense 数据 (#17877)
- PARQUET-2232 - [C++] 添加一个 ColumnChunkMetaData 的 API,以指示列块是否使用 bloom filter (#33736)
- PARQUET-2250 - [C++][Parquet] 通过 RecordReader 公开列描述符 (#34318)