Apache Arrow 7.0.0 (2022年2月3日)
这是一个涵盖超过 3 个月开发的重大版本。
下载
贡献者
此版本包含来自 105 位不同贡献者的 650 个提交。
$ git shortlog -sn apache-arrow-6.0.0..apache-arrow-7.0.0
78 Antoine Pitrou
49 Sutou Kouhei
44 Krisztián Szűcs
39 David Li
35 Nic Crane
34 Alenka Frim
28 Carlos O'Ryan
27 Jonathan Keane
22 Weston Pace
21 Joris Van den Bossche
19 Dewey Dunnington
16 Matthew Topol
14 Dragos Moldovan-Grünfeld
14 Will Jones
12 Yibo Cai
12 Augusto Silva
12 Benson Muite
9 Alessandro Molina
7 Neal Richardson
6 Eduardo Ponce
5 Vibhatha Abeykoon
5 Dominik Moritz
5 Pradeep Garigipati
4 Johan Peltenburg
4 Ian Alexander Joiner
4 João Pedro
4 Matthijs Brobbel
4 Phillip Cloud
4 Sasha Krassovsky
4 liyafan82
3 Yuqi Gu
3 Sanjiban Sengupta
3 Kazuaki Ishizaki
3 Anthony Louis
3 jeszyb
3 Jedi18
3 Romain Francois
3 okadakk
2 Dhruv Vats
2 crystrix
2 Chenxi Li
2 Jayjeet Chakraborty
2 Danielle Navarro
2 Alex Şuhan
2 Projjal Chanda
2 Jeroen van Straten
2 Rok
2 Yue
2 Chris Casola
2 rodrigojdebem
2 Zixi
2 shanhuuang
2 Hongze Zhang
2 ArianaVillegas
2 Benjamin Kietzman
2 William Hyun
1 Vinicius Roque
1 Vitaly Buka
1 Andrew Lamb
1 Alvin Chunga
1 William Ayd
1 William Butler
1 ZMZ
1 [5~[5~David Li
1 [Paul Taylor
1 alvinj15
1 b41sh
1 bkmgit
1 c-jamie
1 daipom
1 frank400
1 liukun4515
1 Ákos Hadnagy
1 marlenezw
1 michalursa
1 notEvil
1 Diana Clarke
1 Dongjoon Hyun
1 Colin Sames
1 Dragoș Moldovan-Grünfeld
1 Eric Erhardt
1 James Duong
1 Jiayu Liu
1 Ahmet Uyar
1 Joost Hoozemans
1 Jorge C. Leitao
1 Jorge Leitao
1 Chathura Widanage
1 tomersolomon1
1 Konstantin Ilchenko
1 Chao Sun
1 Carl Boettiger
1 toppyy
1 Nate Clark
1 Nathaniel Bauernfeind
1 Benedikt Reinartz
1 Niyas Sait
1 wangzixuan.wzxuan
1 Attila Lendvai
1 Rafael Telles
1 zois
1 Stephanie Hazlitt
1 Terence Honles
1 Tim Paine
1 Vinicius Fraga
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-6.0.0..apache-arrow-7.0.0
149 Antoine Pitrou
85 Krisztián Szűcs
73 Sutou Kouhei
68 Jonathan Keane
64 David Li
52 Nic Crane
34 Joris Van den Bossche
24 Pindikura Ravindra
21 Weston Pace
14 GitHub
14 Matthew Topol
12 Neal Richardson
12 Yibo Cai
7 Benjamin Kietzman
5 Dominik Moritz
4 liyafan82
4 Eric Erhardt
3 Matt Topol
2 Ian Cook
1 Praveen
1 Micah Kornfield
1 Chao Sun
变更日志
Apache Arrow 7.0.0 (2022-02-03)
Bug 修复
- ARROW-8340 - [文档] 移除旧的 Sphinx 固定版本
- ARROW-9648 - [C++] 添加了 LZ4_FRAME 压缩编解码器的压缩级别参数
- ARROW-9688 - [C++][Python] 为 win/arm64 构建启用 c++ 库和 pyarrow 包的构建
- ARROW-10140 - [Python][C++] 添加从 pyarrow 和 pandas 创建的 parquet 文件中映射列的测试
- ARROW-10485 - [R] 当文件路径为 hive 样式时,在 open_dataset 中接受分区
- ARROW-10794 - [JS] Typescript Arrowjs 类 ‘RecordBatch<T>’ 错误地扩展了基类 ‘StructVector<T>’
- ARROW-11549 - [C++][Gandiva] 修复由 ToString() 无法区分 null 和 ‘null’ 导致的 FilterCacheKey 问题
- ARROW-12042 - [C++] 修复 chunked array 上的 array_sort_indices
- ARROW-12066 - [Python] 测试确保使用等于 null 进行过滤不会崩溃
- ARROW-12768 - [C++] 测试中更严格的有符号零比较
- ARROW-13294 - [C#] 创建 Flight 示例服务器和客户端
- ARROW-13412 - [C++] 修复 chunked array + 标量输入的 Kleene kernel
- ARROW-13462 - [C++] 修复 Compute API 文档中的示例代码存根
- ARROW-13628 - [Rust] 为 rust 激活 IPC month_day_nano_interval 集成测试
- ARROW-13735 - [C++][Python] 创建具有非默认字段名称的 Map array 会导致段错误
- ARROW-13756 - [Python] pandas 转换 datetimetz 列索引时出错
- ARROW-13780 - [Gandiva][UDF] 修复 udf space/rpad/lpad 中的错误
- ARROW-13861 - [JS] 使用 List 类型创建 Field 会抛出错误
- ARROW-13879 - [C++] regex 函数中对二进制类型的混合支持
- ARROW-13896 - [Python] 打印带时区的时间戳时出错
- ARROW-13947 - [C++] index kernel 支持更多类型
- ARROW-13948 - [C++] is_in/index_in 支持带时区的时间戳
- ARROW-13950 - [C++] min_element_wise/max_element_wise 缺少对某些类型的支持
- ARROW-13981 - [Java] VectorSchemaRootAppender 不适用于 BitVector
- ARROW-14029 - [R] 修复 map_batches()
- ARROW-14151 - [C++] ASCII 字符串函数中对二进制类型的混合支持
- ARROW-14238 - [Python] test_fs.py 中出现“could not run mc”错误
- ARROW-14253 - [R] 更新 lz4 测试,该测试因不同的错误消息而在本地失败
- ARROW-14318 - [文档] 修复 dataset 文档多次构建的问题
- ARROW-14374 - [Java] Java 中 C Data Interface 实现的集成测试
- ARROW-14389 - [C++][Gandiva] 修复包含保留字符的 LIKE 表达式的性能 bug
- ARROW-14395 - [R] 重新启用 duckdb 自动清理
- ARROW-14405 - [C++] 修复 clang 在 windows 上的构建错误
- ARROW-14419 - [R] 添加 filter + join 测试
- ARROW-14426 - [C++] 为 dataset 写入添加 minimum_row_group_size
- ARROW-14429 - [C++] RecordBatchFileReader 在 S3 中的性能非常差
- ARROW-14437 - [Python] 使 CSV 取消测试更健壮
- ARROW-14461 - [R] write_dataset() 允许用户传递无效的额外参数
- ARROW-14469 - [R] lubridate::month() 的绑定没有实现
label
参数 - ARROW-14475 - [C++] 不要遮蔽 enable_if 助手
- ARROW-14492 - [JS] 修复浏览器包的导出
- ARROW-14493 - [发布][Go] 向脚本添加主要版本的导入路径更新
- ARROW-14513 - [发布][Go] 使用 /v6 后缀更新 release-6.0.0
- ARROW-14516 - [CI] 禁用 Docker 运行的特权模式
- ARROW-14517 - [Python] CFeatherReader 的 CIpcReadOptions 中缺少 ampersand
- ARROW-14519 - [C++] 如果在不受支持的类型上连接,则正确报错
- ARROW-14522 - [C++] 修复带有 null 存储类型的 ExtensionType 验证
- ARROW-14523 - [C++] 修复 S3 分段上传中潜在的数据丢失
- ARROW-14529 - [GLib] 验证 Decimal{128,256}DataType 精度
- ARROW-14530 - [GLib] 对无效的十进制字符串返回错误
- ARROW-14538 - [R] 解决 Solaris 上空 tr 调用问题
- ARROW-14539 - [C++] Dataset scanner 测试 DCHECK 失败
- ARROW-14550 - [文档] 删除 JSON 许可证;它不是免费的。
- ARROW-14554 - [C++][CI] 修复 OSS-Fuzz 构建失败
- ARROW-14578 - [格式][文档] 更新 union-of-structs 文档
- ARROW-14582 - [CI] asan ubsan 作业在 60 分钟后超时
- ARROW-14583 - [C++] 处理 Take 中的空 chunked array,GroupByNode 中的空数据集
- ARROW-14584 - [Python][CI] 使用最新 setuptools 58.5 安装 Python sdist 失败
- ARROW-14586 - [R] 带有嵌套聚合表达式的 summarise() 存在令人困惑的错误
- ARROW-14589 - [CI][Go] 修复 CGO Windows 测试
- ARROW-14592 - [C++] list_parent_indices 的输出类型不应依赖于输入类型
- ARROW-14593 - [C++] 修复无效 IPC 文件上的崩溃 (OSS-Fuzz)
- ARROW-14594 - [R] 默认启用 snappy+lz4
- ARROW-14595 - [R] 清理设置 deps_source 为 auto
- ARROW-14598 - [C++][Flight] 修复示例的 protoc 生成依赖关系
- ARROW-14600 - [文档] 修复 Python 开发页面中的断开链接
- ARROW-14616 - [C++] 修复 master 分支上的构建错误
- ARROW-14620 - [Python] existing_data_behavior 缺少绑定,导致无法保留旧行为
- ARROW-14622 - [C++] 修复初始化顺序混乱报告
- ARROW-14625 - [Python][CI] 在 s390x 上启用 Python 测试
- ARROW-14627 - [C++] 修复使用 GCC 11.1 编译测试时的错误
- ARROW-14629 - [Python] 为 test_permutation_of_column_order 添加 pytest dataset 标记
- ARROW-14630 - [C++] 修复对标量键列的聚合
- ARROW-14640 - [R] 从 S3 读取数据
- ARROW-14642 - [C++] ScanNode 没有使用过滤表达式
- ARROW-14644 - [C++][R] open_dataset 不忽略 csv 文件中的 BOM
- ARROW-14659 - [R] 移除关于 if_else() 中因子转换为字符串的警告
- ARROW-14664 - [C++] 修复 Parquet 编码 DELTA_BYTE_ARRAY 的可接受类型
- ARROW-14667 - [C++] 添加了一个 dcheck 以确保在使用 s3 选项之前初始化 aws
- ARROW-14667 - [R][C++] 调用 arrow::S3FileSystem$create 时出现段错误
- ARROW-14682 - [开发] 在非 x86 架构上验证 go
- ARROW-14685 - [Python] 测试用例自动检测 numpy 对象的字节序
- ARROW-14693 - [R] 非整数传递给 chunk_size
- ARROW-14696 - [Java] 重用 vector schema root 时,在填充 JDBC 数据之前重置向量
- ARROW-14699 - [C++] 修复 lz4 未定义行为问题
- ARROW-14700 - [C++] 仅在偏移量存在时检查区域偏移符号
- ARROW-14701 - [Python][次要] 文档 parquet.write_table 的 row_group_size
- ARROW-14704 - [C++] 修复 parquet-arrow-test 中的 Valgrind 失败
- ARROW-14709 - [C++][Java] 将 ORC 升级到 1.7.1 并使用官方 Apache 分发站点
- ARROW-14710 - [R] 在 Linux arm64 上安装 cmake-X.X.X-Linux-x86_64 时出错
- ARROW-14717 - [Go] 在 messageReader 中使用 ipc.Reader 分配器
- ARROW-14721 - [C++] 加强 DELTA_BYTE_ARRAY 解码器
- ARROW-14722 - [R] 修复 altrep 向量否定修改原始向量的问题
- ARROW-14728 - [Go] 将 LICENSE.txt 向上移动到新的模块根目录
- ARROW-14739 - [JS] 确保文档指向正确的来源
- ARROW-14744 - [R] 当提供了
schema
参数,但未向CSVReadOptions
提供column_names
参数时,open_dataset() 出错 - ARROW-14749 - [Python][发布] 设置发布验证脚本使用目标源目录而非当前源目录
- ARROW-14765 - [Python] StructFieldOptions 未暴露
- ARROW-14766 - [Python] 将 compute 函数参数标记为 positional-only
- ARROW-14769 - [Go] 确保 MessageReader 错误得到报告
- ARROW-14773 - [JS] 修复 sourcemap 路径
- ARROW-14774 - [JS] 更正包导出
- ARROW-14778 - [C++] 小数类型除法后四舍五入
- ARROW-14783 - [C++][Python] 修复 BytesIO 中写入 ORC 的问题
- ARROW-14786 - [R] 在 6.0.1 补丁版本发布后提高 dev 版本
- ARROW-14788 - [C++] 修复 dataset/file_orc_test.cc 中的警告
- ARROW-14791 - [C++] 修复验证损坏 list array 时的崩溃
- ARROW-14792 - [C++] 修复读取 DELTA_BYTE_ARRAY Parquet 文件时的崩溃
- ARROW-14795 - [C++] 修复使用掩码替换 null 值的问题
- ARROW-14796 - [Python] 文档:更正默认值
- ARROW-14800 - [C++] 消除 MSVC 启用 C++17 时 std::launder 的歧义
- ARROW-14803 - [R] 函数未在作用域中声明
- ARROW-14839 - [R] test-fedora-r-clang-sanitizer 作业失败,原因是 snappy 导致 sanitizer 错误
- ARROW-14840 - [R][CI] test-ubuntu-20.10-docs 夜间构建失败,原因是 R 安装问题
- ARROW-14851 - [Archery] 不要在 stdout 上转储 JSON 基准测试输出
- ARROW-14853 - [C++][Python] 改进缺少函数选项的错误消息
- ARROW-14854 - [C++] 修复 struct_field 在无效索引上的崩溃
- ARROW-14894 - [R] write_parquet 块大小计算中的整数溢出
- ARROW-14898 - [C++][Compute] 修复如果 key 小于 int64 时 key_hash 中越界内存访问导致的崩溃
- ARROW-14919 - [R] write_parquet() 丢失分组 dataframe 的属性
- ARROW-14922 - [C++][Parquet] 修复 column-io-benchmark 抛出异常
- ARROW-14930 - [C++] 使 S3 目录检测更健壮
- ARROW-14931 - [Python] 一些 dataset 文档中缺少 csv/orc 格式字符串
- ARROW-14933 - [JS] 在检查类型时 apache-arrow 不会与 typescript 编译
- ARROW-14936 - [C++][Gandiva] 修复 gandiva 中的 split_part 函数
- ARROW-14937 - [文档] 确保 docs 目录作为卷挂载
- ARROW-14962 - [CI] 修复 s390x 上的 minio 安装问题
- ARROW-14966 - [R][CI] 为依赖项安装向 CRAN 镜像添加冗余
- ARROW-14979 - [C++] 修复 GCS 集成测试中的进程泄露
- ARROW-14980 - [C++] GCS 测试使用 PYTHON 环境变量
- ARROW-14991 - [打包][Python] Windows wheel 构建失败,原因是 vcpkg triplet 名称错误
- ARROW-15002 - [Python] 修复 interval 类型的 hypothesis strategy
- ARROW-15004 - [开发][Archery] 使用默认 simd 级别
- ARROW-15009 - [C++] 使用 TSan 使哈希连接测试变慢
- ARROW-15027 - [C++] 修复 OpenTelemetry CMake 定义
- ARROW-15028 - [C++] 修复 Unity 构建上 Gandiva 编译失败
- ARROW-15030 - [C++] CSV writer 测试失败
- ARROW-15031 - [C++] 修复无效 Parquet 文件上的崩溃 (OSS-Fuzz)
- ARROW-15041 - [R] 不稳定的 BOM 移除测试
- ARROW-15047 - [R][次要] 建议用于设置构建环境变量的 R 命令
- ARROW-15071 - [C#] 修复了 Column.cs ValidateArrayDataTypes 方法中的一个 bug
- ARROW-15076 - [C++][Gandiva] 修复 AES {en,de}cryption 结果的分配
- ARROW-15078 - [C++] 使用捆绑的 OpenTelemetry 时,忽略 CMake 错误“includes non-existent path”
- ARROW-15090 - [C++] 如果在还有任务运行时发生错误,SerializedAsyncTaskGroup 不会完成
- ARROW-15101 - [Python] 修复 CSV writer 的构建失败
- ARROW-15105 - [R] CSV 中带有 tz 元素的 timestamp cast 不受支持
- ARROW-15123 - [R] CSV dataset 文件头被读取为数据
- ARROW-15143 - [C++] 移除关于 StringBinaryTransformExecBase 的 Transform API 的不正确注释
- ARROW-15144 - [Java] 在 master 分支中无法读取 IPC 文件
- ARROW-15145 - [R][CI] test-r-minimal-build 失败,原因是错误消息已更新
- ARROW-15147 - [CI][C++][Gandiva] 修复与 boost 依赖相关的夜间构建失败
- ARROW-15171 - [C++][Java] 将 ORC 更新到 1.7.2
- ARROW-15181 - [C++][FlightRPC] 修复信号处理程序和关闭之间的竞争条件
- ARROW-15184 - [C++] 读取带 null 和不带 null 的 delta 编码 Parquet 文件的单元测试
- ARROW-15185 - [R] 使 arrow 构建选项检查不区分大小写
- ARROW-15194 - [C++] 合并 ChunkedArray 构造函数
- ARROW-15199 - [Java] 更新 protobuf-maven-plugin 以避免 'Text file busy' 失败
- ARROW-15200 - [C++][Gandiva] 使用 vcpkg 构建 LLVM 依赖项时启用 RTTI
- ARROW-15226 - [Python] 更新 ChunkedArray 构造函数的 Cython 绑定
- ARROW-15231 - [打包][deb] 添加缺失的 ArrowFlight-1.0.typelib
- ARROW-15234 - [Python] 修复自定义 CSV 无效行处理程序导致的崩溃
- ARROW-15241 - [C++] MakeArrayOfNull 在具有嵌套存储类型的扩展类型上失败
- ARROW-15243 - [CI][Python] 使 CI 中的 PyArrow 安装更健壮
- ARROW-15265 - [C++] 修复使用 kDeleteMatchingPartitions 且分区数 >= 8 时 dataset writer 的挂起
- ARROW-15266 - [R][CI] 测试重组触发 valgrind 错误
- ARROW-15286 - [Python] 将传递给 FileSystemDataset.take 的索引转换为 array 以避免段错误
- ARROW-15290 - [Python][文档] PyArrow 的文档页面超链接不正确
- ARROW-15306 - [C++] 如果未指定,S3FileSystem 应将 content-type 头设置为 application/octet-stream
- ARROW-15315 - [Java][FlightRPC] FlightSqlProducer#doAction 总是抛出 INVALID_ARGUMENT 错误
- ARROW-15318 - [C++][Python] 读取大型批次分区键时出现回归
- ARROW-15323 - [CI] 夜间 spark 集成构建失败
- ARROW-15324 - [C++] 避免 HDFS 文件关闭失败时崩溃
- ARROW-15325 - [R] 修复 CRAN 关于 map_batches collect 的注释
- ARROW-15326 - [C++] 修复 Gandiva 崩溃
- ARROW-15335 - [Java] 修复 UnionListReader 中空 List 的 setPosition 调用
- ARROW-15358 - [C++] 修复自定义匹配器编译问题
- ARROW-15360 - [Python] 在 Buffer.slice() 中检查切片边界
- ARROW-15362 - 将 OMP_NUM_THREADS 设置为 1 导致数据集挂起
- ARROW-15370 - [Python] 修复空表 to_pandas 转换中的回归
- ARROW-15371 - [C++][发布] 验证 docker 镜像中缺少 libsqlite-dev
- ARROW-15372 - [C++][Gandiva] Gandiva 现在依赖于 trimmed boost archive 中缺失的 boost/crc.hpp
- ARROW-15376 - [Go][发布] cpu_arm64 需要 +build 注释
- ARROW-15377 - [发布] 将 macOS 验证构建中的 nodejs 版本提高到 16
- ARROW-15378 - [C++][发布] windows 验证期间 GTest 链接错误
- ARROW-15380 - [Python][发布] 验证期间 NumPy ABI 不兼容
- ARROW-15385 - [集成] 在集成测试中将 duration 从 interval 分离
- ARROW-15388 - [C++] 避免从 flatbuffers 包含 absl
- ARROW-15393 - [发布][Crossbow] 回退到
dev0,当生成的 scm 版本号没有距离时 - ARROW-15394 - [CI][文档] 修复 env 变量以确保在文档构建中使用 doxygen
- ARROW-15395 - [发布][Ruby] Ruby 在 M1 上验证失败
- ARROW-15403 - [Python][打包] 使用捆绑的 ORC 构建 python wheels
- ARROW-15404 - [Java][打包] 使用捆绑的 ORC 构建 java JNI jars
- ARROW-15414 - [java] RangeEqualsVisitor 不适用于 BitVector
- ARROW-15417 - [Python][打包] 使用 vcpkg manifest 安装 wheel 依赖项;通过构建捆绑版本降级 AWS SDK
- ARROW-15420 - [Python] 如果未找到 GDB 脚本则跳过
- ARROW-15424 - [C++][GLib] 修复 CUDA 绑定
- ARROW-15427 - [C++][Gandiva] 使用 lock guard 持有 mutex
- ARROW-15433 - [文档] 修复构建时的警告
- ARROW-15437 - [Python][FlightRPC] 修复不稳定的测试 test_interrupt
- ARROW-15438 - [Python] 不稳定的测试 test_write_dataset_max_open_files
- ARROW-15441 - [C++][Compute] 修复 hash_count null 类型列的结果不正确问题
- ARROW-15442 - [C++][Python] 在非 debug 构建中跳过 GDB 测试
- ARROW-15447 - [C++] 避免 ORC options API 与 glibc 定义宏冲突
- ARROW-15451 - [C++] 修复 C++17 和 ARROW_GCS=ON 时的构建问题
- ARROW-15454 - [Python] 尝试使 CSV 取消测试更健壮
- ARROW-15461 - [C++] 避免 clang 在 ReverseBitmap 中的 bug
- ARROW-15467 - [Go][Parquet] 修复 s390x 上的 pqarrow 十进制测试
- ARROW-15485 - [发布][Java] 修复 java jars 上传脚本
- ARROW-15488 - [Go] 修复 ipc.Writer 损坏 null bitmap 的问题
- ARROW-15493 - [C++][Gandiva] 初始化 ExpressionCacheKey.mode_
- ARROW-15499 - [Python] 修复 pyarrow._orc 中的导入错误
- ARROW-15504 - [Python] 确保测试 ORC 绑定
- ARROW-15509 - [Go][Parquet] Parquet mainprogs 崩溃
- ARROW-15514 - [C++][Gandiva] 添加 flag 以启用 Gandiva Object Code
- PARQUET-1856 - [C++] 避免在禁用 Snappy 支持时测试失败
- PARQUET-2109 - [C++] 检查 Parquet 页面值是否过少
新特性和改进
- ARROW-1299 - [文档] 在某处发布针对 master 分支的夜间文档
- ARROW-1699 - [C++] forward, backward fill kernel 函数
- ARROW-2366 - [Python][C++][Parquet] 添加测试以确保支持读取列顺序发生变化的 Parquet 文件
- ARROW-3699 - [C++] 用于测试 32 位 C++ 构建的 Dockerfile
- ARROW-4975 - [C++] 支持 UnionArrays 的连接
- ARROW-5599 - [Go] 将 array.{Interface,Record,Column,Chunked,Table} 迁移到 arrow.{Array,Record,Column,Chunked,Table}
- ARROW-6001 - [Python] : 在 pyarrow.Table 中添加 from_pylist() 和 to_pylist() 以转换记录列表
- ARROW-6276 - [C++] 用于某些 arrow 类
- ARROW-8285 - [Python][Dataset] 测试 ScalarExpression 接受 numpy 标量
- ARROW-8605 - [R] 将 brotli 添加到 Windows R 构建中
- ARROW-8823 - [C++] 将 batch buffer 的总大小添加到 IPC 写入统计信息中
- ARROW-9186 - [R] 允许指定 CSV 文件编码
- ARROW-9483 - [C++] 重组测试头文件
- ARROW-9630 - [Go] 实现公共 JSON 读取器/写入器
- ARROW-10209 - [Python] 在 compute 函数中支持位置选项
- ARROW-10220 - [JS] 缓存 javascript utf-8 字典键?
- ARROW-10317 - [Python] 文档计算函数选项
- ARROW-10456 - [R] 实现 MapType 和 MapArray
- ARROW-10998 - [C++] 检测预期为文件系统路径时的 URI
- ARROW-11297 - [C++][Python] 添加 ORC 写入器选项
- ARROW-11347 - [JS] 考虑使用 Object 而非 Map
- ARROW-11424 - [C++] StructType::{AddField,RemoveField,SetField} 成员函数
- ARROW-11475 - [C++] 升级 mimalloc 到 v1.7.3
- ARROW-11938 - [R] 使 R 构建过程能够在 Windows 上找到本地构建的 C++ 库
- ARROW-12053 - [C++] 实现针对 Decimal 数据类型的聚合计算函数
- ARROW-12060 - [Python] 允许在 Expression 上调用计算函数
- ARROW-12315 - [R] 向 write_dataset() 添加 max_partitions 参数
- ARROW-12404 - [C++] 实现生成 0 到 1 之间均匀随机数的“random”零元函数
- ARROW-12422 - [C++][Gandiva] 添加从日期毫秒转换到 VARCHAR 的函数
- ARROW-12480 - [Java][Dataset] FileSystemDataset: 支持从目录读取
- ARROW-12516 - [C++][Gandiva] 实现 castINTERVALDAY(varchar) 和 castINTERVALYEAR(varchar) 函数
- ARROW-12536 - [JS] 从 JavaScript 类型构造表
- ARROW-12538 - [JS] 在文档中显示 Vector
- ARROW-12545 - [Python][Docs] 填写关于自定义 Schema 和 Field Metadata 的部分
- ARROW-12548 - [JS] 移除列
- ARROW-12549 - [JS] Table 和 RecordBatch 不应继承 Vector,减小 JS 库体积
- ARROW-12595 - [C++][Gandiva][binary][string] 函数
- ARROW-12607 - [Website] Dataset Java 绑定的文档部分
- ARROW-12671 - [C++] 将 OpenTelemetry 添加到 ThirdpartyToolchain
- ARROW-12683 - [C++] 在 IPC 读取器中启用细粒度 I/O (合并)
- ARROW-12706 - [Python] 放弃 Python 3.6 支持
- ARROW-12712 - [C++] 字符串重复 kernel
- ARROW-12735 - [C++] 编写 GDB 插件
- ARROW-12803 - [C++] [Dataset] 使用 scanner 写入数据集不支持异步扫描
- ARROW-12820 - [C++] 支持 ISO8601、strptime 解析器中的时区偏移
- ARROW-12858 - [C++][Gandiva] 在 Gandiva 中添加 isNull, isTrue, isFalse, isNotTrue, IsNotFalse 和 NVL 函数
- ARROW-12880 - [C++][Gandiva] 添加 castTIME(int32), castTIMESTAMP(int64) 和 castTIME(utf8) 函数
- ARROW-12922 - [Java][FlightSQL] 为 Flight SQL 创建存根 API
- ARROW-12943 - [Gandiva][C++] 实现 MD5 Hive 函数
- ARROW-13016 - [C++][Compute] 在 Sum/Mean 聚合中支持 Null 类型
- ARROW-13035 - [C++] indices_nonzero 计算函数
- ARROW-13051 - [Release][Java] 使用 Crossbow 构建的构件
- ARROW-13081 - [C++] 禁止比较带时区和不带时区的时间戳
- ARROW-13087 - [R] 公开 Parquet ArrowReaderProperties::coerce_int96_timestamp_unit
- ARROW-13111 - [R] ChunkedArray 的 altrep vector
- ARROW-13130 - [C++] 向算术 kernel 添加 decimal 支持
- ARROW-13156 - [R] str_count 的绑定
- ARROW-13208 - [Python][CI] 创建用于验证 Python 文档字符串的构建
- ARROW-13328 - [C++][Dataset] 对同步扫描使用 ExecPlan 或放弃同步扫描
- ARROW-13338 - [C++][Dataset] 将异步 Scanner 设为默认
- ARROW-13362 - [R] 清理 Arrow 的 in/by 消息
- ARROW-13371 - [R] make_struct -> StructArray$create() 的绑定
- ARROW-13373 - [C++][Gandiva] 在 Gandiva 中实现 CRC32 Hive 函数
- ARROW-13376 - [C++][Gandiva] 在 Gandiva 中实现 FACTORIAL Hive 函数
- ARROW-13377 - [C++][Gandiva] 在 Gandiva 中实现 PMOD Hive 函数
- ARROW-13383 - [R] 为没有示例的函数添加示例
- ARROW-13398 - [R] 更新 install.Rmd 小插曲
- ARROW-13400 - [R] 更新 fs.Rmd (使用 S3) 小插曲
- ARROW-13401 - [R] : 更新 python.Rmd 小插曲
- ARROW-13408 - [Packaging] 更新 crossbow 以检出特定的 git hash
- ARROW-13449 - [Format] 更新与 schema 线路格式相关的文档
- ARROW-13467 - [C++] 在 IPC 文件格式中支持 delta 字典
- ARROW-13494 - [C++] 重命名 BitUtil 和 LittleEndianArray 命名空间
- ARROW-13514 - [JS] 更新 flatbuffers
- ARROW-13536 - [C++] 使用 fast-float 进行小数点感知的转换
- ARROW-13553 - [Doc] 添加代码审查指南
- ARROW-13554 - [C++] 移除已废弃的 Scanner::Scan
- ARROW-13558 - [C++] 验证 decimal 数组/标量
- ARROW-13571 - [Python][ORC] 公开 stripe size ORCWriter API
- ARROW-13579 - 公开 Create EmptyArray, EmptyRecordBatch 和 EmptyTable 实用函数.
- ARROW-13589 - [C++] 协调 ValidateArray 和 ValidateArrayFull
- ARROW-13590 - [C++] 确保数据集写入应用反压
- ARROW-13598 - [C++] 移除 Datum::COLLECTION
- ARROW-13607 - [C++] 将 Skyhook 添加到 Arrow
- ARROW-13610 - [R] 取消 vendoring cpp11
- ARROW-13615 - [R] stringr::str_to_sentence 的绑定
- ARROW-13617 - [C++] 使 Decimal 表示一致
- ARROW-13623 - [R] write_csv_arrow 更新以遵循 readr::write_csv 的签名
- ARROW-13643 - [C++][Compute] 实现支持剩余谓词的外连接
- ARROW-13663 - [C++] RecordBatchReader 的 STL 风格迭代
- ARROW-13668 - [Python] 向
ParquetWriter
添加write_batch
和write
方法 - ARROW-13707 - [Doc] Cookbook 版本 2
- ARROW-13711 - [Doc][Cookbook] 使用 Arrow Flight RPC 服务器通过网络发送和接收数据 - R
- ARROW-13781 - [Python] 允许 parquet 写入器按列编码
- ARROW-13811 - [Java] 提供通用的 out-of-place 排序器
- ARROW-13826 - [C++][Gandiva] 在 Gandiva 中实现 QUOTE Hive 函数
- ARROW-13828 - [C++][Gandiva] 在 Gandiva 中实现 SOUNDEX Hive 函数
- ARROW-13829 - [C++][Gandiva] 在 Gandiva 中实现 GREATEST 和 LEAST Hive 函数
- ARROW-13830 - [C++][Gandiva] 在 Gandiva 中实现 CHR Hive 函数
- ARROW-13832 - [Doc] 改进 compute 文档
- ARROW-13834 - [R][Documentation] 文档化为 compute kernel 创建 R 绑定以及约定背后的原理
- ARROW-13841 - [Doc] 文档化构成 CI 的不同子组件及其如何协同工作
- ARROW-13886 - [R] 扩展 decimal() 的文档
- ARROW-13887 - [R] 捕获读取带头部的 CSV 文件并使用 schema 时产生的错误,并添加建议
- ARROW-13888 - [R] 重述 schema() 的省略号参数文档并重述错误消息
- ARROW-13923 - [C++] 更快的 CSV chunker,支持长 CSV 单元格
- ARROW-13943 - [Python] 从 compute 模块隐藏 hash_aggregate 函数
- ARROW-13984 - [Go][Parquet] 文件读取器
- ARROW-13984 - [Go][Parquet] go parquet 的文件处理,仅限读取器
- ARROW-13986 - [Go][Parquet] 添加文件写入器和测试
- ARROW-13987 - [C++] 支持嵌套字段引用
- ARROW-13988 - [C++] 在 hash_min_max 中支持基本二进制类型
- ARROW-13989 - [C++] 为 compute 函数添加对月-日-纳秒间隔的支持
- ARROW-14011 - [C++][Gandiva] 将 elt hive 函数添加到 gandiva
- ARROW-14022 - [Dev] 移除 arrow/dev/benchmarking
- ARROW-14032 - [C++][Gandiva] 将 concat_ws hive 函数添加到 gandiva
- ARROW-14039 - [C++][Docs] 说明构建所需的内存
- ARROW-14041 - [C++] 在 Parquet 解码器中替换 BitmapReader 的使用
- ARROW-14048 - [C++][Gandiva] 只在内存中缓存目标代码而非整个模块
- ARROW-14051 - [R] 处理包含聚合表达式的条件语句
- ARROW-14074 - [C++][Compute] compute IR 的 C++ 消费者
- ARROW-14092 - [C++] subtract(date, duration) -> timestamp kernel
- ARROW-14166 - [C++] 更新 vcpkg 内置基线
- ARROW-14167 - [C++][R] 在 coalesce 中直接支持字典
- ARROW-14171 - [C++][Python][Packaging] 升级 VCPKG 版本并添加 google-cloud-cpp 依赖
- ARROW-14174 - [C++] 删除一些重复的 Decimal/FixedSizeBinary kernel
- ARROW-14181 - [C++][Compute] 在 hash join 中支持字典
- ARROW-14189 - [Docs] 向 sphinx 文档添加版本下拉菜单
- ARROW-14193 - [C++][Gandiva] 实现 INSTR 函数
- ARROW-14205 - [C++] 添加 utf8_normalize 计算函数
- ARROW-14227 - [R] 实现 lubridate is.* 方法
- ARROW-14229 - [C++] 提升捆绑依赖的版本
- ARROW-14231 - [C++] 支持将带时区的时间戳转换为字符串
- ARROW-14242 - 在
to_string
中公开正确的indent
参数 - ARROW-14277 - R 教程 2021-Q4 倡议
- ARROW-14278 - [Doc] 新贡献者指南
- ARROW-14294 - [Doc][Python] 向 pyarrow 文档添加 Flight 教程
- ARROW-14297 - [R] 优化整数除法以更好地匹配 R
- ARROW-14306 - [C++][Compute] 添加二进制反转 kernel
- ARROW-14310 - [R] 使 expect_dplyr_equal() 更直观
- ARROW-14311 - [C++] 加快 GCS 文件系统测试速度
- ARROW-14315 - [C++][Gandiva] 实现 BROUND 函数
- ARROW-14336 - [C++] 在 Apache 管理的位置维护捆绑依赖 tarball
- ARROW-14338 - [Docs] 向 pkgdown (R) 文档添加版本下拉菜单
- ARROW-14346 - [C++] 实现 GcsFileSystem::OpenOutputStream
- ARROW-14347 - [C++] GcsFileSystem 的随机访问文件
- ARROW-14349 - [IR] 移除 RelBase
- ARROW-14350 - [IR] 向 Source 节点添加过滤表达式
- ARROW-14351 - [IR] 向 Source 节点添加投影列表
- ARROW-14352 - [IR] 从 Source 移除 schema 属性
- ARROW-14355 - [C++] 创建估计表/批次缓冲区大小的简单算法实现
- ARROW-14356 - [C++] 创建 kernel 以确定数组“引用”的缓冲区内存(即使存在偏移)
- ARROW-14365 - [R] 更新 README 示例以反映新功能
- ARROW-14384 - [Docs] 添加无需构建 pyarrow 即可构建 Sphinx 文档的文档
- ARROW-14385 - [C++] 更新 google-cloud-cpp
- ARROW-14388 - [Python] 为 pandas mask 添加单元测试
- ARROW-14390 - [Packaging][Ubuntu] 添加对 Ubuntu 21.10 的支持
- ARROW-14391 - [Docs] Archery 需要 docker
- ARROW-14398 - [CI] 不在所有 conda 构建中构建 doxygen 文档
- ARROW-14409 - [Packaging][Python] 更新 manylinux 平台标签
- ARROW-14412 - [R] 改进 flight_put() 在 data 参数对象类型错误时的错误处理
- ARROW-14413 - [C++][Gandiva] 实现 levenshtein 函数
- ARROW-14416 - [R] 修复 Raspberry Pi 上的软件包安装
- ARROW-14421 - [C++] 实现 Flight SQL
- ARROW-14430 - [Go] 基本 Expression, Field Reference 和 Datum 处理
- ARROW-14431 - [C++][Gandiva] 实现 AES ENCRYPT 和 AES DECRYPT 函数
- ARROW-14433 - [Release][APT] 跳过 arm64 Ubuntu 21.04 验证
- ARROW-14435 - [Release] 更新验证脚本以检查 Python 3.10 wheel
- ARROW-14436 - [C++] 使用 ccache 编译时禁用颜色诊断
- ARROW-14438 - [CI] 不取消 main 分支上的构建
- ARROW-14440 - [C++][FlightRPC] 添加 gRPC + Flight 示例
- ARROW-14441 - [R] 将我们的理念添加到 dev 小插曲
- ARROW-14446 - [Docs][Release] 更新有关发布候选版本验证的文档
- ARROW-14448 - [Python] 更新 pyarrow.array() docstring 中关于时间戳(时区)转换的说明
- ARROW-14449 - [Python] Cython 中的 RecordBatch 缺少 column_data 方法
- ARROW-14450 - [R] 旧版 macOS 构建错误
- ARROW-14451 - [Release][Ruby]
--path
标志已弃用 - ARROW-14452 - [Release][JS] 更新 JavaScript 测试
- ARROW-14454 - [Release] shasum 在 CentOS 8 上不可用
- ARROW-14459 - [Doc] 将固定的 sphinx 版本更新到 4.2
- ARROW-14462 - [Go][Parquet] 更新依赖
- ARROW-14464 - [R] 将 write_parquet() 的默认 chunk_size 从所有行更改
- ARROW-14470 - [Python] 在 Feather 读取函数中公开 use_threads 选项
- ARROW-14476 - [CI] Crossbow 应评论失败原因
- ARROW-14479 - [C++] Hash Join 微基准测试
- ARROW-14480 - [R] 向 R 公开 arrow::dataset::ExistingDataBehavior
- ARROW-14482 - [C++][Gandiva] 实现 MASK_FIRST_N 和 MASK_LAST_N 函数
- ARROW-14483 - [Release] 添加缺失的下载目标
- ARROW-14484 - [Crossbow] 添加通过环境变量指定队列路径的支持
- ARROW-14486 - [Packaging][deb] 添加缺失的 libthrift-dev 依赖
- ARROW-14489 - [Rust][CI] 在集成 docker 镜像中安装 stable Rust 工具链
- ARROW-14490 - [Doc] 重新生成 CHANGELOG.md 以包含所有版本
- ARROW-14491 - [CI] 添加 Debian 10 C++ 夜间构建
- ARROW-14496 - [Docs] 使用存根页面为 sphinx toctree 中的 R / JS / C/Glib 引用创建相对链接
- ARROW-14499 - [Docs] 版本下拉菜单与搜索框并排
- ARROW-14505 - [CI][Docs] 更频繁地执行文档构建
- ARROW-14510 - [R][CI] 确保 docker 运行不使用主机构建的构件
- ARROW-14514 - [C++][R] round kernel 上的 UBSAN 错误
- ARROW-14515 - [R] 向 crossbow 添加 clang sanitizer
- ARROW-14531 - [Ruby] 添加 Arrow::Table#join
- ARROW-14533 - [R] 关闭新行上大括号的 linter 检查
- ARROW-14551 - [Ruby] 接受 Arrow::Column 作为 Arrow::Datum 参数
- ARROW-14558 - [R] 澄清 Arrow 小插曲中 OOP 系统的措辞
- ARROW-14559 - [C++] 减少 GcsFileSystem::OpenInputStream 中的内存使用
- ARROW-14562 - [Ruby] 添加支持从 URI 加载 Arrow::Table
- ARROW-14577 - [C++] 为异步 IPC 读取器启用细粒度 IO
- ARROW-14580 - [Python] 更新 trove 分类器以包含 Python 3.10
- ARROW-14581 - [C++] 细粒度 IPC 读取器测试不稳定
- ARROW-14585 - [C++] 通过 pkg-config 查找 libgrpc++_reflection
- ARROW-14590 - [R] 实现 lubridate::week
- ARROW-14599 - [Release][Java] 将 .jar 上传到 Artifacts
- ARROW-14601 - [JAVA] 修复时间戳秒的注释
- ARROW-14602 - [Doc] 教程 - Python 功能 PR
- ARROW-14603 - [Doc] 教程 - R 绑定
- ARROW-14605 - [Doc] 总体大纲
- ARROW-14608 - [Python] 通过 Table.group_by 方法提供对 hash_aggregate 函数的访问
- ARROW-14609 - [R] left_join 的 by 参数错误消息不匹配
- ARROW-14610 - [Doc] 新贡献者指南: 介绍 + 框架
- ARROW-14615 - [C++] 重构嵌套字段引用并添加 union 支持
- ARROW-14617 - [R][CI] 将 clang sanitizer 上游到 rhub
- ARROW-14618 - [Release] 将缺失的 AlmaLinux 构件 URL 添加到投票邮件模板
- ARROW-14619 - [Ruby] 为 pkg-config 使用不带 @ 的 openssl Homebrew 软件包
- ARROW-14623 - [Packaging][Java] 不仅上传 .jar 还上传 .pom
- ARROW-14626 - [Website] 更新测试过的版本
- ARROW-14628 - [Release][Python] 使用 python -m pytest
- ARROW-14636 - [Ruby] 向文档添加 Cookbook 部分
- ARROW-14637 - [GLib][Ruby] 添加显式初始化 S3 API 的支持
- ARROW-14641 - [C++][Compute] 减少单元测试中的打印语句
- ARROW-14645 - [Go] 向 array.String 添加 ValueOffsets 函数
- ARROW-14650 - [JS] toArray 等效于 values/values64
- ARROW-14652 - [R] Dataset 小插曲下载脚本在使用默认选项时可能失败
- ARROW-14653 - [R] head() 在大于 600MB 的 CSV 数据集上挂起
- ARROW-14654 - [R][Docs] 在 dev 文档中添加如何在 C++ 调试器下运行 R 的文章
- ARROW-14657 - [R][Docs] R 文档中的断开链接
- ARROW-14658 - [C++] 在扫描中添加对嵌套字段引用的基本支持
- ARROW-14662 - [Docs] 添加关于链接 Flight/gRPC/Protobuf 的说明
- ARROW-14669 - [JS] 阐明 Perspective 对 apache arrow 的使用
- ARROW-14670 - [Release][Java] 构建缺失的 javadoc 和 source .jar
- ARROW-14671 - [Python][Doc] 关于如何集成 PyArrow 和 R 的文档
- ARROW-14675 - [R] 为 NEWS.md 启用按 union 合并
- ARROW-14676 - [R][Docs] 在 dev 文档中添加关于如何通过 docker 构建几种不同配置的文章
- ARROW-14678 - [C++] 添加合理的 CMake preset 以快速进行开发设置
- ARROW-14683 - [Release][Java] 构建缺失的 source-release.zip
- ARROW-14684 - [CI][C++] 在 macOS 上使用 aws-sdk-cpp 软件包
- ARROW-14686 - [Python][C++] 使 numpy 内置类型的字节序检测正确
- ARROW-14694 - [R] 允许我 dput 一个 schema
- ARROW-14712 - [R] 修复针对 dplyr 1.0.8 的 compare_dplyr_error()
- ARROW-14714 - [C++][Doc] 重做 CMake preset 并添加文档
- ARROW-14715 - [Doc] 提交你的第一个 PR 的步骤 - 查找问题
- ARROW-14716 - [R][CI] 提升 docker 测试中使用的 R 版本
- ARROW-14718 - [Java] 当输入不为空且仅包含 null 或非 null 值时,loadValidityBuffer 应避免分配内存
- ARROW-14732 - [Python] 改进向 compute 函数传递错误数量的位置参数时的错误消息
- ARROW-14733 - [R] 在调试器文档中添加关于如何获取程序挂起时的输出的部分
- ARROW-14737 - [C++][Dataset] 支持 URI 解码 partition key
- ARROW-14738 - [Python][Doc] 使返回类型可点击
- ARROW-14741 - [C++] 在 CSV writer 中添加对 RecordBatchReader 的支持
- ARROW-14743 - [C++] 当 schema 中有 partition 变量时,读取数据集出错
- ARROW-14746 - [CI] 允许(临时)禁用持续失败的夜间构建
- ARROW-14747 - [Release] 添加脚本以合并 release 分支中的更改
- ARROW-14748 - [C++][CI] 更新标志以对未使用结果发出警告
- ARROW-14750 - [Release] 更新针对 6.0.1 的 post-03-website.sh
- ARROW-14751 - [C++] 添加关于集合查找“元”计算函数的文档
- ARROW-14752 - [Doc] 提交你的第一个 PR 的步骤 - 设置
- ARROW-14753 - [Doc] 提交你的第一个 PR 的步骤 - 构建 C++
- ARROW-14754 - [Doc] 提交你的第一个 PR 的步骤 - 构建 R 包
- ARROW-14755 - [Doc] 提交你的第一个 PR 的步骤 - 构建 PyArrow
- ARROW-14756 - [Doc] 提交你的第一个 PR 的步骤 - Python 绑定
- ARROW-14757 - [Doc] 提交你的第一个 PR 的步骤 - R 绑定
- ARROW-14758 - [Doc] 提交你的第一个 PR 的步骤 - 在 Python 中测试
- ARROW-14759 - [Doc] 提交你的第一个 PR 的步骤 - 在 R 中测试
- ARROW-14760 - [Doc] 提交你的第一个 PR 的步骤 - PR 生命周期
- ARROW-14761 - [Doc] 协助文档工作
- ARROW-14762 - [Doc] 附加信息和资源
- ARROW-14763 - [Doc] Arrow 概述
- ARROW-14764 - [Website] 添加 Go 包安装说明
- ARROW-14768 - [C++] 验证 compute 函数 docstring 格式
- ARROW-14777 - [Release] 启用在 RHEL 衍生版上运行
- ARROW-14779 - [C++] 向 RoundMode 文档添加其他常见舍入模式名称
- ARROW-14784 - [GLib][Ruby] 将 GArrowSortKey::name 重命名为 ::target
- ARROW-14804 - [R] import_from_c() / export_to_c() 方法应接受外部指针
- ARROW-14807 - [R] 实现 lubridate am 和 pm 的绑定
- ARROW-14816 - [R] 实现 lubridate::mday 的绑定
- ARROW-14822 - [C++] 为时间对象实现 floor/ceil/round
- ARROW-14823 - [R] 实现 lubridate::leap_year 的绑定
- ARROW-14842 - [C++] 改进 Decimal 的精度范围错误消息
- ARROW-14843 - [R] 实现
decimal128()
(替换decimal()
) - ARROW-14844 - [R] 实现 decimal256()
- ARROW-14849 - [R] 更新安装脚本中的消息
- ARROW-14850 - [R] 将 ARROW_DEPENDENCY_SOURCE 更新为默认 AUTO
- ARROW-14857 - [CI][Homebrew] 添加 apache-arrow-glib formula
- ARROW-14858 - [R][CI] 不在 ubuntu 21.04 上构建额外依赖
- ARROW-14880 - [CI][C++] 在 macOS 构建上启用 ccache
- ARROW-14897 - [CI][C++] 将 Clang Tools 从 8 升级到 12
- ARROW-14899 - [C++] 实现 GcsInputStream::GetMetadata
- ARROW-14903 - [C++] 使 CSV Writer 能够控制用于缺失数据的字符串
- ARROW-14905 - [C++] 使 CSV Writer 能够处理引用
- ARROW-14907 - [C++] 使 CSV Writer 能够控制行尾字符
- ARROW-14910 - [R][CI] 使用开发版 duckdb 构建,支持内存小于 8GB
- ARROW-14912 - [C++] 实现 GcsFileSystem::CopyFile
- ARROW-14913 - [C++] 实现 GcsFileSystem::DeleteFile
- ARROW-14914 - [C++] gcsfs 不会实现 DeleteRootDirContents
- ARROW-14915 - [C++] 实现 GcsFileSystem::DeleteDirContents
- ARROW-14916 - [C++] GcsFileSystem 可以删除目录
- ARROW-14917 - [C++] 实现 GcsFileSystem::CreateDir
- ARROW-14918 - [C++] 实现 GcsFileSystem::GetFileInfo(FileSelector)
- ARROW-14920 - [C++] 使用字母顺序排序
- ARROW-14924 - [C++] GcsFileSystem 的通用文件系统测试
- ARROW-14926 - [Docs] 修复版本下拉菜单可见性的 CSS 问题
- ARROW-14929 - [CI] 修复 kartothek 集成构建(安装新的依赖)
- ARROW-14932 - [CI] 优先使用 mamba 而非 conda
- ARROW-14935 - [Ruby] 添加 GArrowTemporalDataType
- ARROW-14940 - [C++] 加速处理长 CSV 单元格的 CSV 解析器
- ARROW-14941 - [R] 实现 Duration R6 类以及 lubridate::duration() 的绑定
- ARROW-14957 - [C++] 将 OpenTelemetry 更新到 v1.1.0
- ARROW-14961 - [C++] 升级 google benchmark 版本
- ARROW-14968 - [Python] 使用 oldest-supported-numpy 固定 numpy 构建依赖
- ARROW-14969 - [C++][Python] 取消废弃 FileSystem::OpenAppendStream
- ARROW-14971 - [C++] 实现 GcsFileSystem::Move
- ARROW-14975 - [Docs] 修复 emit_dictionary_deltas 文档中的拼写错误
- ARROW-14976 - [Dev][Archery] 如果找不到基准测试则提前失败
- ARROW-14977 - [Python] 为指南教程添加一个“虚构”功能
- ARROW-14981 - [CI][Docs] 上传构建好的文档
- ARROW-14984 - [CI][Debian] 缺少 rsync
- ARROW-14985 - [CI][Go] 使用 Go 1.16
- ARROW-14986 - [Release][Docs] 使用 Crossbow 构建的产物
- ARROW-14990 - [CI] 修复每晚 dask 集成构建(确保 pandas 已安装)
- ARROW-14992 - [R] 在 Pop! OS 上安装时无法使用预构建的 Arrow 二进制文件
- ARROW-15005 - [C++] 使用 Neon 改进 csv 解析器
- ARROW-15010 - [R] 为我们的 NSE 函数创建函数注册表
- ARROW-15019 - [Python] 添加新的数据集写入选项的绑定
- ARROW-15022 - [R] 安装 vignette 和安装开发 vignette 需要图片的 alt 文本
- ARROW-15029 - [C++] 拆分 compute/kernels/scalar_string.cc
- ARROW-15032 - [C++] 添加 year_month_day 函数
- ARROW-15036 - [C++] 自动配置 S3 SDK 配置参数“maxConnections”
- ARROW-15038 - [Packaging][CentOS] 停止支持 CentOS 8
- ARROW-15043 - [Python][Docs] 在 pandas <-> arrow 类型转换表中包含 time64
- ARROW-15044 - [C++] 添加用于调试目的的 OpenTelemetry exporter
- ARROW-15049 - [R] 使用 glue 包 1.5.1 后 arrowExports.cpp 生成方式改变
- ARROW-15055 - [C++] 重构 GcsFileSystem 测试
- ARROW-15056 - [C++] 加速 GcsFileSystem 测试
- ARROW-15057 - [R][CI] 更改在 CI 中安装 DuckDB 的位置
- ARROW-15058 - [Java] 删除性能模块中的 log4j2 依赖
- ARROW-15070 - [Python][C++][R][Doc] 在数据集文档中添加关于缺乏 ACID 保证的通用说明
- ARROW-15074 - [Format] 澄清 LZ4 包含单个帧
- ARROW-15077 - [Python] 将 Expression 类从 _dataset 移动到 _compute cython 模块
- ARROW-15082 - [R] 清理另一个持续时间映射条目
- ARROW-15084 - [C++] GcsFileSystem 的公共工厂函数
- ARROW-15085 - [C++] GcsFileSystem 支持凭据类型
- ARROW-15087 - [Python][Docs] 文档化 MapArray 并将其父类更新为 ListArray
- ARROW-15091 - [C++][Doc] 文档化 C++ 流式执行引擎中的节点
- ARROW-15095 - [Dev][Website] 更新日志生成应使用提交消息
- ARROW-15096 - [R] 持续时间类型的 Sanitizer 故障
- ARROW-15099 - [C++] 改进 GcsFileSystem::GetFileInfo
- ARROW-15100 - [CI] 默认停止使用 Python 3.6
- ARROW-15103 - [Documentation][C++] 文档构建错误:“arrow/cpp/src/arrow/csv/options.h:182: error: Found unknown command ‘\r’ “
- ARROW-15109 - [Python] 添加 show_info() 函数以打印构建、组件和系统信息
- ARROW-15110 - [C++][Gandiva] 回退 Gandiva 缓存策略的更改
- ARROW-15112 - [C++][FlightRPC][Integration][Java] 实现 Flight RPC 集成测试
- ARROW-15113 - [C++] 加速 GcsFileSystem 测试
- ARROW-15114 - [C++] GcsFileSystem 使用元数据作为目录标记
- ARROW-15115 - [C++] GcsFileSystem 在使用已关闭流时返回错误
- ARROW-15116 - [Python] 为 CSV reader 暴露 invalid_row_handler
- ARROW-15119 - [C++] 在通用测试中允许将目录作为文件读取
- ARROW-15121 - [C++] 实现 GcsFileSystem 的最大递归深度
- ARROW-15122 - [R] 将 parquet 测试门控在 snappy 上
- ARROW-15126 - [C++] 支持 Null 类型作为分组键
- ARROW-15127 - [R] 更清晰地文档化 AWS_EC2_METADATA_DISABLED=TRUE
- ARROW-15133 - [CI] 删除 util_checkout.sh 和 util_cleanup.sh 脚本
- ARROW-15134 - [GLib] 添加 GArrow{Month,DayTime,MonthDayNano}IntervalDataType
- ARROW-15136 - [C++] 加速 S3FS 测试
- ARROW-15137 - [Dev] 更新 archery crossbow latest-prefix 以支持夜间构建日期
- ARROW-15138 - [C++] 使 ExecPlan::ToString 提供更多信息
- ARROW-15140 - [CI] GHA checkout 移动到 v2 版本
- ARROW-15150 - [Doc] 添加关于数据集分区的指南
- ARROW-15153 - [Python] 向 Python 暴露 ReferencedBufferSize
- ARROW-15154 - [R] 向 R 暴露 ReferencedBufferSize
- ARROW-15165 - [Python] 暴露用于解析 S3 存储桶区域的函数
- ARROW-15166 - [C++] 为 decimal256 启用过滤器
- ARROW-15169 - [Python][R] 避免不安全的 Python-R 指针传输
- ARROW-15172 - [Go] 为 Arrow-math 添加 Arm64 Neon 实现
- ARROW-15173 - [R] 为桥接到旧版本 pyarrow 提供向后兼容性
- ARROW-15187 - [Java][FlightRPC] 修复新 flight-sql 模块的 pom.xml
- ARROW-15188 - [C++] 升级捆绑的 re2 库版本
- ARROW-15189 - [C++] 升级捆绑的 utf8proc 版本
- ARROW-15190 - [C++] 升级捆绑的 zstd 版本
- ARROW-15193 - [R][Documentation] 更新 R 绑定文档
- ARROW-15198 - [C++][FlightRPC] 修复 Flight SQL 中的 unity 构建错误
- ARROW-15203 - [GLib] 来自 C++ 的 scalar 的 garrow_struct_scalar_get_value() 返回值
- ARROW-15204 - [GLib] 添加 Arrow::RoundOptions
- ARROW-15205 - [GLib] 添加 garrow_function_all()
- ARROW-15207 - [GLib] 使用 Meson 的默认 -Dwerror=
- ARROW-15216 - [GLib] 添加 Arrow::RoundToMultipleOptions
- ARROW-15218 - [C++] 向 indices_nonzero 计算函数添加 decimal 支持
- ARROW-15219 - [Python] 导出随机计算函数
- ARROW-15220 - [C++] 删除位块计数器操作的 bool 特化
- ARROW-15232 - [Packaging][deb] 为 libarrow.so 禁用 DWARF 优化
- ARROW-15235 - [R] 停止支持 R 3.3
- ARROW-15244 - [Format] 澄清二进制类型数组的偏移量是单调的
- ARROW-15245 - [Go] 解决大部分 staticcheck linting 问题
- ARROW-15248 - [C++][Docs] 改进关于 linting/格式化的文档
- ARROW-15249 - [R] Autobrew + AWS sdk 依赖
- ARROW-15267 - [GLib] 添加 garrow_function_get_default_options()
- ARROW-15268 - [Packaging][deb] 不使用 gi 快捷方式
- ARROW-15269 - [C++][Docs] 澄清并非所有计算函数都可以通过 CallFunction 调用
- ARROW-15273 - [GLib] 添加 garrow_function_get_options_type()
- ARROW-15274 - [Ruby] 改进 Arrow::Function#execute 的可用性
- ARROW-15279 - [R] 根据用户反馈更新“编写绑定”的开发文档
- ARROW-15288 - [GLib] 添加 garrow_execute_plan_build_hash_join_node()
- ARROW-15295 - [R] 将 6.0.0 添加到我们要检查的旧版本列表中
- ARROW-15300 - [C++] 更新 Skyhook 以支持异步数据集接口
- ARROW-15302 - [R] 停止支持 R 3.3 的后续处理
- ARROW-15303 - [R] linting 错误
- ARROW-15316 - [R] 创建一个单函数指针函数
- ARROW-15320 - [Go] 使用 Arm64 GoLang 汇编实现 memset_neon
- ARROW-15322 - [Docs][Go] 更新 Go 文档的侧边栏链接
- ARROW-15327 - [R] 更新 7.0.0 的新闻
- ARROW-15331 - [Go][Parquet] 添加 pqarrow 包,用于 Parquet <--> Arrow 直接转换
- ARROW-15332 - [C++] 在 IPC 读/写基准测试中添加新用例并修复问题
- ARROW-15334 - [CI][GLib][Windows] 使用 Ruby 3.1
- ARROW-15336 - [Go] 使用 Arm64 GoLang 汇编实现‘min_max_neon’
- ARROW-15337 - [Doc] 新贡献者指南更新
- ARROW-15338 - [Python] 添加
pyarrow.orc.read_table
API - ARROW-15339 - [Website] 添加 Skyhook 博客文章
- ARROW-15343 - [Doc][Guide] 简介和检查清单 - 小幅修正
- ARROW-15344 - [Doc][Guide] 沟通 - 小幅修正
- ARROW-15345 - [Doc][Guide] 查找 JIRA 问题 - 小幅修正
- ARROW-15355 - [Docs] 在文档更改时触发 sphinx 构建
- ARROW-15356 - [Ruby] 添加对 .arrows 扩展名的支持
- ARROW-15373 - [C++] 从 MemoryManager::AllocateBuffer 返回 unique_ptr
- ARROW-15374 - [C++][FlightRPC] 添加对替代 MemoryManager 的支持
- ARROW-15381 - [C#] 升级 C# Arrow.Flight 的依赖并允许 netstandard2.0
- ARROW-15383 - [Release] 添加脚本以更新 MSYS2 包
- ARROW-15387 - [R] 取消跳过 decimal256() 的 chunked array 测试
- ARROW-15390 - [Dev][C++][Doc] 文档化 GDB 扩展
- ARROW-15399 - [Release][JS] 将最低 NodeJS 版本提高到 16
- ARROW-15416 - [Python] 添加跳过 gdb 测试的选项
- ARROW-15423 - [C++][Dev] 使 GDB 插件易于自动加载
- ARROW-15435 - [C++][Doc] 提高 API 文档覆盖率
- ARROW-15436 - [Release][Python] 在 Apple M1 上禁用不稳定的 csv::test_cancellation 测试
- ARROW-15439 - [Release] 发布后更新 .deb/.rpm 更新日志
- ARROW-15448 - [C++] 使用 Apache 镜像系统下载 ORC 源码
- ARROW-15457 - [Packaging][deb] 显式指定 CUDAToolkit_ROOT
- ARROW-15463 - [GLib] 添加 arrow::compute::Utf8NormalizeOptions 绑定
- ARROW-15495 - [C++][FlightRPC] 要求 Protobuf/gRPC 源匹配
- ARROW-15505 - [C++][Compute] 在 product 聚合中支持 Null 类型
- PARQUET-492 - [C++][Parquet] 对读取 DELTA_BYTE_ARRAY 数据的基本支持