Apache Arrow 7.0.0 (2022 年 2 月 3 日)
这是一个涵盖超过3个月开发的大版本发布。
下载
贡献者
此版本包含来自 105 位不同贡献者的 650 次提交。
$ git shortlog -sn apache-arrow-6.0.0..apache-arrow-7.0.0
78 Antoine Pitrou
49 Sutou Kouhei
44 Krisztián Szűcs
39 David Li
35 Nic Crane
34 Alenka Frim
28 Carlos O'Ryan
27 Jonathan Keane
22 Weston Pace
21 Joris Van den Bossche
19 Dewey Dunnington
16 Matthew Topol
14 Dragos Moldovan-Grünfeld
14 Will Jones
12 Yibo Cai
12 Augusto Silva
12 Benson Muite
9 Alessandro Molina
7 Neal Richardson
6 Eduardo Ponce
5 Vibhatha Abeykoon
5 Dominik Moritz
5 Pradeep Garigipati
4 Johan Peltenburg
4 Ian Alexander Joiner
4 João Pedro
4 Matthijs Brobbel
4 Phillip Cloud
4 Sasha Krassovsky
4 liyafan82
3 Yuqi Gu
3 Sanjiban Sengupta
3 Kazuaki Ishizaki
3 Anthony Louis
3 jeszyb
3 Jedi18
3 Romain Francois
3 okadakk
2 Dhruv Vats
2 crystrix
2 Chenxi Li
2 Jayjeet Chakraborty
2 Danielle Navarro
2 Alex Şuhan
2 Projjal Chanda
2 Jeroen van Straten
2 Rok
2 Yue
2 Chris Casola
2 rodrigojdebem
2 Zixi
2 shanhuuang
2 Hongze Zhang
2 ArianaVillegas
2 Benjamin Kietzman
2 William Hyun
1 Vinicius Roque
1 Vitaly Buka
1 Andrew Lamb
1 Alvin Chunga
1 William Ayd
1 William Butler
1 ZMZ
1 [5~[5~David Li
1 [Paul Taylor
1 alvinj15
1 b41sh
1 bkmgit
1 c-jamie
1 daipom
1 frank400
1 liukun4515
1 Ákos Hadnagy
1 marlenezw
1 michalursa
1 notEvil
1 Diana Clarke
1 Dongjoon Hyun
1 Colin Sames
1 Dragoș Moldovan-Grünfeld
1 Eric Erhardt
1 James Duong
1 Jiayu Liu
1 Ahmet Uyar
1 Joost Hoozemans
1 Jorge C. Leitao
1 Jorge Leitao
1 Chathura Widanage
1 tomersolomon1
1 Konstantin Ilchenko
1 Chao Sun
1 Carl Boettiger
1 toppyy
1 Nate Clark
1 Nathaniel Bauernfeind
1 Benedikt Reinartz
1 Niyas Sait
1 wangzixuan.wzxuan
1 Attila Lendvai
1 Rafael Telles
1 zois
1 Stephanie Hazlitt
1 Terence Honles
1 Tim Paine
1 Vinicius Fraga
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-6.0.0..apache-arrow-7.0.0
149 Antoine Pitrou
85 Krisztián Szűcs
73 Sutou Kouhei
68 Jonathan Keane
64 David Li
52 Nic Crane
34 Joris Van den Bossche
24 Pindikura Ravindra
21 Weston Pace
14 GitHub
14 Matthew Topol
12 Neal Richardson
12 Yibo Cai
7 Benjamin Kietzman
5 Dominik Moritz
4 liyafan82
4 Eric Erhardt
3 Matt Topol
2 Ian Cook
1 Praveen
1 Micah Kornfield
1 Chao Sun
更新日志
Apache Arrow 7.0.0 (2022-02-03)
Bug 修复
- ARROW-8340 - [文档] 移除旧的 Sphinx 钉
- ARROW-9648 - [C++] 为 LZ4_FRAME 压缩编解码器添加了压缩级别参数
- ARROW-9688 - [C++][Python] 启用为 win/arm64 构建编译 c++ 库和 pyarrow 包
- ARROW-10140 - [Python][C++] 添加测试,用于测试从 pyarrow 和 pandas 创建的 parquet 文件的映射列
- ARROW-10485 - [R] 当文件路径为 Hive 风格时,接受 open_dataset 中的分区
- ARROW-10794 - [JS] Typescript Arrowjs 类 'RecordBatch<T>' 错误地扩展了基类 'StructVector<T>
- ARROW-11549 - [C++][Gandiva] 修复由 ToString() 不区分 null 和 'null' 导致的 FilterCacheKey 问题
- ARROW-12042 - [C++] 修复 chunked 数组上的 array_sort_indices
- ARROW-12066 - [Python] 测试以确保使用等于 null 进行过滤不会崩溃
- ARROW-12768 - [C++] 在测试中更严格地比较带符号的零
- ARROW-13294 - [C#] 创建 Flight 示例服务器和客户端
- ARROW-13412 - [C++] 修复 chunked 数组 + 标量输入上的 Kleene 内核
- ARROW-13462 - [C++] 修复 Compute API 文档中的示例代码存根
- ARROW-13628 - [Rust] 为 rust 激活 IPC month_day_nano_interval 集成测试
- ARROW-13735 - [C++][Python] 使用非默认字段名创建 Map 数组会导致段错误
- ARROW-13756 - [Python] datetimetz 列索引的 pandas 转换错误
- ARROW-13780 - [Gandiva][UDF] 修复 udf space/rpad/lpad 中的错误
- ARROW-13861 - [JS] 创建 List 类型字段会抛出错误
- ARROW-13879 - [C++] regex 函数对二进制类型的混合支持
- ARROW-13896 - [Python] 打印带时区的时间戳时出错
- ARROW-13947 - [C++] 支持 index 内核中的更多类型
- ARROW-13948 - [C++] 在 is_in/index_in 中支持带时区的时间戳
- ARROW-13950 - [C++] min_element_wise/max_element_wise 缺少对某些类型的支持
- ARROW-13981 - [Java] VectorSchemaRootAppender 不适用于 BitVector
- ARROW-14029 - [R] 修复 map_batches()
- ARROW-14151 - [C++] ASCII 字符串函数对二进制类型的混合支持
- ARROW-14238 - [Python] test_fs.py 中出现“could not run mc”错误
- ARROW-14253 - [R] 更新 lz4 测试,由于不同的错误消息而导致本地失败
- ARROW-14318 - [文档] 修复数据集文档多次构建的问题
- ARROW-14374 - [Java] Java C 数据接口实现的集成测试
- ARROW-14389 - [C++][Gandiva] 修复带有保留字符的 LIKE 表达式的性能错误
- ARROW-14395 - [R] 重新启用 duckdb 自动清理
- ARROW-14405 - [C++] 修复 clang for windows 的构建错误
- ARROW-14419 - [R] 添加过滤 + 连接测试
- ARROW-14426 - [C++] 为数据集写入添加 minimum_row_group_size
- ARROW-14429 - [C++] S3 中的 RecordBatchFileReader 性能非常差
- ARROW-14437 - [Python] 使 CSV 取消测试更健壮
- ARROW-14461 - [R] write_dataset() 允许用户传递无效的附加参数
-
ARROW-14469 - [R] lubridate::month() 的绑定没有实现
label参数 - ARROW-14475 - [C++] 不要隐藏 enable_if 助手
- ARROW-14492 - [JS] 修复浏览器捆绑包的导出
- ARROW-14493 - [发布][Go] 向脚本添加主版本导入路径更新
- ARROW-14513 - [发布][Go] 使用 /v6 后缀更新 release-6.0.0
- ARROW-14516 - [CI] 禁用 Docker 运行的特权模式
- ARROW-14517 - [Python] CFeatherReader 的 CIpcReadOptions 中缺少“&”符号
- ARROW-14519 - [C++] 如果连接的类型不受支持,则正确报错
- ARROW-14522 - [C++] 修复带空存储类型的 ExtensionType 的验证
- ARROW-14523 - [C++] 修复 S3 多部分上传中潜在的数据丢失
- ARROW-14529 - [GLib] 验证 Decimal{128,256}DataType 精度
- ARROW-14530 - [GLib] 对于无效的小数字符串返回错误
- ARROW-14538 - [R] 解决 Solaris 上空 tr 调用问题
- ARROW-14539 - [C++] 数据集扫描器测试未能通过 DCHECK
- ARROW-14550 - [文档] 删除 JSON 许可证;一个非免费许可证。
- ARROW-14554 - [C++][CI] 修复 OSS-Fuzz 构建失败
- ARROW-14578 - [格式][文档] 更新结构体联合文档
- ARROW-14582 - [CI] asan ubsan 作业超时 60 分钟
- ARROW-14583 - [C++] 处理 Take 中的空分块数组,GroupByNode 中的空数据集
- ARROW-14584 - [Python][CI] Python sdist 安装因最新的 setuptools 58.5 失败
- ARROW-14586 - [R] 带有嵌套聚合表达式的 summarise() 具有令人困惑的错误
- ARROW-14589 - [CI][Go] 修复 CGO Windows 测试
- ARROW-14592 - [C++] list_parent_indices 输出类型不应依赖于输入类型
- ARROW-14593 - [C++] 修复无效 IPC 文件上的崩溃 (OSS-Fuzz)
- ARROW-14594 - [R] 默认启用 snappy+lz4
- ARROW-14595 - [R] 从设置 deps_source 为 auto 后进行清理
- ARROW-14598 - [C++][Flight] 修复示例的 protoc 生成依赖
- ARROW-14600 - [文档] 修复 Python 开发页面中的断开链接
- ARROW-14616 - [C++] 修复 master 上的构建错误
- ARROW-14620 - [Python] 缺少 existing_data_behavior 的绑定,导致无法维护旧行为
- ARROW-14622 - [C++] 修复初始化顺序错误报告
- ARROW-14625 - [Python][CI] 在 s390x 上启用 Python 测试
- ARROW-14627 - [C++] 修复使用 GCC 11.1 编译测试的错误
- ARROW-14629 - [Python] 为 test_permutation_of_column_order 添加 pytest 数据集标记
- ARROW-14630 - [C++] 修复标量键列的聚合
- ARROW-14640 - [R] 从 S3 读取数据
- ARROW-14642 - [C++] ScanNode 未使用过滤表达式
- ARROW-14644 - [C++][R] open_dataset 不忽略 csv 文件中的 BOM
- ARROW-14659 - [R] 移除 if_else() 中将因子转换为字符串的警告
- ARROW-14664 - [C++] 修复 Parquet 编码 DELTA_BYTE_ARRAY 接受类型的错误
- ARROW-14667 - [C++] 添加了 DCHECK 以确保在使用 S3 选项之前初始化 aws
- ARROW-14667 - [R][C++] 调用 arrow::S3FileSystem$create 时发生段错误
- ARROW-14682 - [dev] 在非 x86 架构上验证 go
- ARROW-14685 - [Python] 测试用例自动检测 numpy 对象的字节顺序
- ARROW-14693 - [R] 非整数传递给 chunk_size
- ARROW-14696 - [Java] 在重用向量模式根时,在填充 JDBC 数据之前重置向量
- ARROW-14699 - [C++] 修复 lz4 未定义行为问题
- ARROW-14700 - [C++] 仅当存在偏移量时才检查区域偏移符号
- ARROW-14701 - [Python][次要] 文档 parquet.write_table row_group_size
- ARROW-14704 - [C++] 修复 parquet-arrow-test 中的 Valgrind 失败
- ARROW-14709 - [C++][Java] 将 ORC 升级到 1.7.1 并使用官方 Apache 分发站点
- ARROW-14710 - [R] Linux arm64 上使用 cmake-X.X.X-Linux-x86_64 的安装错误
- ARROW-14717 - [Go] 在 messageReader 中使用 ipc.Reader 分配器
- ARROW-14721 - [C++] 增强 DELTA_BYTE_ARRAY 解码器
- ARROW-14722 - [R] 修复 altrep 向量否定修改原始向量的问题
- ARROW-14728 - [Go] 将 LICENSE.txt 提升到新的模块根目录
- ARROW-14739 - [JS] 确保文档指向正确来源
-
ARROW-14744 - [R] 当提供
schema参数但未向CSVReadOptions提供column_names时,open_dataset() 出现错误 - ARROW-14749 - [Python][发布] 将发布验证脚本设置为使用目标源而不是当前源目录
- ARROW-14765 - [Python] StructFieldOptions 未公开
- ARROW-14766 - [Python] 将计算函数参数标记为仅位置参数
- ARROW-14769 - [Go] 确保报告 MessageReader 错误
- ARROW-14773 - [JS] 修复源映射路径
- ARROW-14774 - [JS] 更正包导出
- ARROW-14778 - [C++] 除法后对十进制类型平均值进行四舍五入
- ARROW-14783 - [C++][Python] 修复 BytesIO 中的 ORC 写入问题
- ARROW-14786 - [R] 在 6.0.1 补丁发布后提升开发版本
- ARROW-14788 - [C++] 修复 dataset/file_orc_test.cc 中的警告
- ARROW-14791 - [C++] 修复验证损坏的列表数组时的崩溃
- ARROW-14792 - [C++] 修复读取 DELTA_BYTE_ARRAY Parquet 文件时的崩溃
- ARROW-14795 - [C++] 修复替换带掩码的 null 值的问题
- ARROW-14796 - [Python] 文档:更正默认值
- ARROW-14800 - [C++] 启用 C++17 时在 MSVC 上消除 std::launder 的歧义
- ARROW-14803 - [R] 函数未在作用域中声明
- ARROW-14839 - [R] test-fedora-r-clang-sanitizer 作业由于 snappy 导致 sanitizer 错误而失败
- ARROW-14840 - [R][CI] test-ubuntu-20.10-docs 每夜构建由于 R 安装问题而失败
- ARROW-14851 - [Archery] 不将 JSON 基准测试输出转储到 stdout
- ARROW-14853 - [C++][Python] 改进缺少函数选项的错误消息
- ARROW-14854 - [C++] 修复 struct_field 在无效索引上的崩溃
- ARROW-14894 - [R] write_parquet 块大小计算中的整数溢出
- ARROW-14898 - [C++][Compute] 修复当键小于 int64 时 key_hash 中访问越界内存导致的崩溃
- ARROW-14919 - [R] write_parquet() 丢弃分组数据框的属性
- ARROW-14922 - [C++][Parquet] 修复 column-io-benchmark 抛出的异常
- ARROW-14930 - [C++] 使 S3 目录检测更健壮
- ARROW-14931 - [Python] 某些数据集文档中缺少 csv/orc 格式字符串
- ARROW-14933 - [JS] 当检查类型时 apache-arrow 不会用 typescript 编译
- ARROW-14936 - [C++][Gandiva] 修复 gandiva 中的 split_part 函数
- ARROW-14937 - [文档] 确保文档目录作为卷挂载
- ARROW-14962 - [CI] 修复 s390x 上的 minio 安装
- ARROW-14966 - [R][CI] 为依赖安装增加 CRAN 镜像的冗余
- ARROW-14979 - [C++] 修复 GCS 集成测试中的进程泄漏
- ARROW-14980 - [C++] GCS 测试使用 PYTHON 环境变量
- ARROW-14991 - [打包][Python] Windows wheel 构建因错误的 vcpkg triplet 名称而失败
- ARROW-15002 - [Python] 修复间隔类型的假设策略
- ARROW-15004 - [开发][Archery] 使用默认 simd 级别
- ARROW-15009 - [C++] 减少带 TSan 的哈希连接测试速度
- ARROW-15027 - [C++] 修复 OpenTelemetry CMake 定义
- ARROW-15028 - [C++] 修复 Gandiva 在 Unity 构建上的编译失败
- ARROW-15030 - [C++] CSV 写入器测试失败
- ARROW-15031 - [C++] 修复无效 Parquet 文件上的崩溃 (OSS-Fuzz)
- ARROW-15041 - [R] 不稳定的 BOM 移除测试
- ARROW-15047 - [R][次要] 建议 R 命令用于设置构建环境变量
- ARROW-15071 - [C#] 修复 Column.cs ValidateArrayDataTypes 方法中的 bug
- ARROW-15076 - [C++][Gandiva] 修复 AES {en,de}cryption 结果的分配
- ARROW-15078 - [C++] 使用捆绑的 OpenTelemetry 时,消除 CMake 错误“includes non-existent path”
- ARROW-15090 - [C++] 如果在仍有任务要运行时出现错误,SerializedAsyncTaskGroup 不会完成
- ARROW-15101 - [Python] 修复 CSV 写入器的构建失败
- ARROW-15105 - [R] CSV 中带有 tz 元素的时间戳不支持类型转换
- ARROW-15123 - [R] CSV 数据集文件头被读取为数据
- ARROW-15143 - [C++] 移除 Transform for StringBinaryTransformExecBase API 中不正确的注释
- ARROW-15144 - [Java] 无法在 master 中读取 IPC 文件
- ARROW-15145 - [R][CI] test-r-minimal-build 由于错误消息更新而失败
- ARROW-15147 - [CI][C++][Gandiva] 修复与 boost 依赖相关的损坏的夜间构建
- ARROW-15171 - [C++][Java] 将 ORC 更新到 1.7.2
- ARROW-15181 - [C++][FlightRPC] 修复信号处理程序和关闭之间的竞争条件
- ARROW-15184 - [C++] 读取带 null 和不带 null 的 delta 编码 Parquet 文件的单元测试
- ARROW-15185 - [R] 使 arrow 构建选项检查不区分大小写
- ARROW-15194 - [C++] 合并 ChunkedArray 构造函数
- ARROW-15199 - [Java] 更新 protobuf-maven-plugin 以避免“Text file busy”失败
- ARROW-15200 - [C++][Gandiva] 使用 vcpkg 构建 LLVM 依赖时启用 RTTI
- ARROW-15226 - [Python] 更新 ChunkedArray 构造函数的 Cython 绑定
- ARROW-15231 - [打包][deb] 添加缺少的 ArrowFlight-1.0.typelib
- ARROW-15234 - [Python] 修复自定义 CSV 无效行处理程序导致的崩溃
- ARROW-15241 - [C++] MakeArrayOfNull 在带嵌套存储类型的扩展类型上失败
- ARROW-15243 - [CI][Python] 使 CI 中的 PyArrow 安装更健壮
- ARROW-15265 - [C++] 修复数据集写入器在 kDeleteMatchingPartitions 和分区 >= 8 时挂起的问题
- ARROW-15266 - [R][CI] 测试重组导致 valgrind 错误
- ARROW-15286 - [Python] 将传递给 FileSystemDataset.take 的索引转换为数组以避免段错误
- ARROW-15290 - [Python][文档] PyArrow 的文档页面超链接不正确
- ARROW-15306 - [C++] S3FileSystem 如果未指定,应将 content-type 标头设置为 application/octet-stream
- ARROW-15315 - [Java][FlightRPC] FlightSqlProducer#doAction 总是抛出 INVALID_ARGUMENT
- ARROW-15318 - [C++][Python] 读取大型批次分区键的回归问题。
- ARROW-15323 - [CI] 每夜 spark 集成构建失败
- ARROW-15324 - [C++] 避免 HDFS 文件关闭失败时崩溃
- ARROW-15325 - [R] 修复 CRAN 对 map_batches 收集的注释
- ARROW-15326 - [C++] 修复 Gandiva 崩溃
- ARROW-15335 - [Java] 修复 UnionListReader 中空 List 的 setPosition 调用
- ARROW-15358 - [C++] 修复自定义匹配器编译
- ARROW-15360 - [Python] 检查 Buffer.slice() 中的切片边界
- ARROW-15362 - 将 OMP_NUM_THREADS 设置为 1 导致数据集挂起
- ARROW-15370 - [Python] 修复空表到 pandas 转换的回归
- ARROW-15371 - [C++][发布] 验证 docker 镜像中缺少 libsqlite-dev
- ARROW-15372 - [C++][Gandiva] Gandiva 现在依赖于 boost/crc.hpp,该文件在精简的 boost 存档中缺失
- ARROW-15376 - [Go][发布] cpu_arm64 需要 +build 注释
- ARROW-15377 - [发布] 在 macOS 验证构建中将 nodejs 版本提升到 16
- ARROW-15378 - [C++][发布] Windows 验证期间的 GTest 链接错误
- ARROW-15380 - [Python][发布] 验证期间的 NumPy ABI 不兼容性
- ARROW-15385 - [集成] 在集成测试中将持续时间与间隔分开
- ARROW-15388 - [C++] 避免从 flatbuffers 包含 absl
-
ARROW-15393 - [发布][Crossbow] 回退到
如果生成的 scm 版本号没有距离,则为 dev0 - ARROW-15394 - [CI][文档] 修复环境变量以确保在文档构建中使用 doxygen
- ARROW-15395 - [发布][Ruby] Ruby 验证在 M1 上失败
- ARROW-15403 - [Python][打包] 使用捆绑的 ORC 构建 python wheel
- ARROW-15404 - [Java][打包] 使用捆绑的 ORC 构建 java JNI jar
- ARROW-15414 - [java] RangeEqualsVisitor 不适用于 BitVector
- ARROW-15417 - [Python][打包] 使用 vcpkg manifest 安装 wheel 依赖项;通过构建捆绑版本降级 AWS SDK
- ARROW-15420 - [Python] 如果未找到 GDB 脚本,则跳过
- ARROW-15424 - [C++][GLib] 修复 CUDA 绑定
- ARROW-15427 - [C++][Gandiva] 使用锁守卫持有互斥锁
- ARROW-15433 - [文档] 修复构建时的警告
- ARROW-15437 - [Python][FlightRPC] 修复不稳定的 test_interrupt 测试
- ARROW-15438 - [Python] 不稳定的 test_write_dataset_max_open_files 测试
- ARROW-15441 - [C++][Compute] 修复哈希计数空类型列的不正确结果
- ARROW-15442 - [C++][Python] 在非调试构建上跳过 GDB 测试
- ARROW-15447 - [C++] 避免 ORC 选项 API 与 glibc 定义的宏冲突
- ARROW-15451 - [C++] 修复使用 C++17 和 ARROW_GCS=ON 的构建
- ARROW-15454 - [Python] 尝试使 CSV 取消测试更健壮
- ARROW-15461 - [C++] 避免 ReverseBitmap 中的 clang bug
- ARROW-15467 - [Go][Parquet] 修复 s390x 上的 pqarrow 十进制测试
- ARROW-15485 - [发布][Java] 修复 java jars 上传脚本
- ARROW-15488 - [Go] 修复 ipc.Writer 损坏 null 位图的问题
- ARROW-15493 - [C++][Gandiva] 初始化 ExpressionCacheKey.mode_
- ARROW-15499 - [Python] 修复 pyarrow._orc 中的导入错误
- ARROW-15504 - [Python] 确保测试 ORC 绑定
- ARROW-15509 - [Go][Parquet] Parquet 主程序崩溃
- ARROW-15514 - [C++][Gandiva] 添加标志以启用 Gandiva 对象代码
- PARQUET-1856 - [C++] 避免在禁用 Snappy 支持的情况下测试失败
- PARQUET-2109 - [C++] 检查 Parquet 页面值是否过少
新功能和改进
- ARROW-1299 - [文档] 在某处发布每夜文档针对 master
- ARROW-1699 - [C++] 向前、向后填充内核函数
- ARROW-2366 - [Python][C++][Parquet] 添加测试以确保支持读取具有列顺序置换的 Parquet 文件
- ARROW-3699 - [C++] 用于测试 32 位 C++ 构建的 Dockerfile
- ARROW-4975 - [C++] 支持 UnionArray 的连接
- ARROW-5599 - [Go] 将 array.{Interface,Record,Column,Chunked,Table} 迁移到 arrow.{Array,Record,Column,Chunked,Table}
- ARROW-6001 - [Python]:向 pyarrow.Table 添加 from_pylist() 和 to_pylist() 以转换记录列表
- ARROW-6276 - [C++] 对于某些 arrow 类
- ARROW-8285 - [Python][数据集] 测试 ScalarExpression 接受 numpy 标量
- ARROW-8605 - [R] 向 Windows R 构建添加 brotli
- ARROW-8823 - [C++] 将批次缓冲区总大小添加到 IPC 写入统计信息
- ARROW-9186 - [R] 允许指定 CSV 文件编码
- ARROW-9483 - [C++] 重组测试头文件
- ARROW-9630 - [Go] 实现公共 JSON 读取器/写入器
- ARROW-10209 - [Python] 支持计算函数中的位置选项
- ARROW-10220 - [JS] 缓存 javascript utf-8 字典键?
- ARROW-10317 - [Python] 文档计算函数选项
- ARROW-10456 - [R] 实现 MapType 和 MapArray
- ARROW-10998 - [C++] 检测预期文件系统路径的 URI
- ARROW-11297 - [C++][Python] 添加 ORC 写入器选项
- ARROW-11347 - [JS] 考虑使用对象而不是映射
- ARROW-11424 - [C++] StructType::{AddField,RemoveField,SetField} 成员函数
- ARROW-11475 - [C++] 将 mimalloc 升级到 v1.7.3
- ARROW-11938 - [R] 启用 R 构建过程以在 Windows 上查找本地构建的 C++ 库
- ARROW-12053 - [C++] 为十进制数据类型实现聚合计算函数
- ARROW-12060 - [Python] 启用对表达式调用计算函数
- ARROW-12315 - [R] 向 write_dataset() 添加 max_partitions 参数
- ARROW-12404 - [C++] 实现生成 0 到 1 之间均匀随机数的“随机”空函数
- ARROW-12422 - [C++][Gandiva] 添加从 date millis 转换 castVARCHAR 的函数
- ARROW-12480 - [Java][数据集] FileSystemDataset:支持从目录读取
- ARROW-12516 - [C++][Gandiva] 实现 castINTERVALDAY(varchar) 和 castINTERVALYEAR(varchar) 函数
- ARROW-12536 - [JS] 从 JavaScript 类型构建表
- ARROW-12538 - [JS] 在文档中显示向量
- ARROW-12545 - [Python][文档] 填写有关自定义 Schema 和字段元数据的部分
- ARROW-12548 - [JS] 摆脱列
- ARROW-12549 - [JS] Table 和 RecordBatch 不应扩展 Vector,使 JS 库更小
- ARROW-12595 - [C++][Gandiva][二进制][字符串] 函数
- ARROW-12607 - [网站] 数据集 Java 绑定的文档部分
- ARROW-12671 - [C++] 将 OpenTelemetry 添加到 ThirdpartyToolchain
- ARROW-12683 - [C++] 在 IPC 读取器中启用细粒度 I/O (合并)
- ARROW-12706 - [Python] 放弃 Python 3.6 支持
- ARROW-12712 - [C++] 字符串重复内核
- ARROW-12735 - [C++] 编写 GDB 插件
- ARROW-12803 - [C++] [数据集] 带扫描器的写入数据集不支持异步扫描
- ARROW-12820 - [C++] 支持 ISO8601、strptime 解析器中的区域偏移
- ARROW-12858 - [C++][Gandiva] 在 Gandiva 上添加 isNull, isTrue, isFalse, isNotTrue, IsNotFalse 和 NVL 函数
- ARROW-12880 - [C++][Gandiva] 添加 castTIME(int32), castTIMESTAMP(int64) 和 castTIME(utf8) 函数
- ARROW-12922 - [Java][FlightSQL] 为 Flight SQL 创建存根 API
- ARROW-12943 - [Gandiva][C++] 实现 MD5 Hive 函数
- ARROW-13016 - [C++][Compute] 支持 Sum/Mean 聚合中的 Null 类型
- ARROW-13035 - [C++] indices_nonzero 计算函数
- ARROW-13051 - [发布][Java] 使用 Crossbow 构建的 Artifact
- ARROW-13081 - [C++] 禁止比较带时区和不带时区的时间戳
- ARROW-13087 - [R] 公开 Parquet ArrowReaderProperties::coerce_int96_timestamp_unit_
- ARROW-13111 - [R] ChunkedArray 的 altrep 向量
- ARROW-13130 - [C++] 为算术内核添加十进制支持
- ARROW-13156 - [R] str_count 的绑定
- ARROW-13208 - [Python][CI] 创建一个用于验证 python docstring 的构建
- ARROW-13328 - [C++][数据集] 对同步扫描使用 ExecPlan 或放弃同步扫描
- ARROW-13338 - [C++][数据集] 将异步扫描器设为默认
- ARROW-13362 - [R] 清理 Arrow 消息中的 in/by
- ARROW-13371 - [R] make_struct -> StructArray$create() 的绑定
- ARROW-13373 - [C++][Gandiva] 在 Gandiva 上实现 CRC32 Hive 函数
- ARROW-13376 - [C++][Gandiva] 在 Gandiva 上实现 FACTORIAL Hive 函数
- ARROW-13377 - [C++][Gandiva] 在 Gandiva 上实现 PMOD Hive 函数
- ARROW-13383 - [R] 为没有示例的函数添加示例
- ARROW-13398 - [R] 更新 install.Rmd vignette
- ARROW-13400 - [R] 更新 fs.Rmd (使用 S3) vignette
- ARROW-13401 - [R]:更新 python.Rmd vignette
- ARROW-13408 - [打包] 更新 crossbow 以检出特定的 git 哈希
- ARROW-13449 - [格式] 更新与 schema 线格式相关的文档
- ARROW-13467 - [C++] 支持 IPC 文件格式中的增量字典
- ARROW-13494 - [C++] 重命名 BitUtil 和 LittleEndianArray 命名空间
- ARROW-13514 - [JS] 更新 flatbuffers
- ARROW-13536 - [C++] 使用 fast-float 进行小数点感知的转换
- ARROW-13553 - [文档] 添加代码审查指南
- ARROW-13554 - [C++] 移除已弃用的 Scanner::Scan
- ARROW-13558 - [C++] 验证十进制数组/标量
- ARROW-13571 - [Python][ORC] 公开 stripe size ORCWriter API
- ARROW-13579 - 公开 Create EmptyArray、EmptyRecordBatch 和 EmptyTable 实用函数。
- ARROW-13589 - [C++] 调和 ValidateArray 和 ValidateArrayFull
- ARROW-13590 - [C++] 确保数据集写入应用背压
- ARROW-13598 - [C++] 移除 Datum::COLLECTION
- ARROW-13607 - [C++] 将 Skyhook 添加到 Arrow
- ARROW-13610 - [R] 取消 cpp11 供应商化
- ARROW-13615 - [R] stringr::str_to_sentence 的绑定
- ARROW-13617 - [C++] 使 Decimal 表示一致
- ARROW-13623 - [R] write_csv_arrow 更新以遵循 readr::write_csv 的签名
- ARROW-13643 - [C++][Compute] 实现支持残余谓词的外连接
- ARROW-13663 - [C++] RecordBatchReader STL 样式的迭代
-
ARROW-13668 - [Python] 向
ParquetWriter添加write_batch和write方法 - ARROW-13707 - [文档] 食谱发布 2
- ARROW-13711 - [文档][食谱] 使用 Arrow Flight RPC 服务器通过网络发送和接收数据 - R
- ARROW-13781 - [Python] 允许 parquet 写入器中每列编码
- ARROW-13811 - [Java] 提供一个通用的就地排序器
- ARROW-13826 - [C++][Gandiva] 在 Gandiva 上实现 QUOTE Hive 函数
- ARROW-13828 - [C++][Gandiva] 在 Gandiva 上实现 SOUNDEX Hive 函数
- ARROW-13829 - [C++][Gandiva] 在 Gandiva 上实现 GREATEST 和 LEAST Hive 函数
- ARROW-13830 - [C++][Gandiva] 在 Gandiva 上实现 CHR Hive 函数
- ARROW-13832 - [文档] 改进计算文档
- ARROW-13834 - [R][文档] 记录为计算内核创建 R 绑定过程以及约定背后的原理
- ARROW-13841 - [文档] 记录构成 CI 的不同子组件以及它们如何协同工作
- ARROW-13886 - [R] 扩展 decimal() 的文档
- ARROW-13887 - [R] 捕获使用头文件和 schema 读取 CSV 文件时产生的错误,并添加建议
- ARROW-13888 - [R] 重述 schema() 省略号参数的文档并重述错误消息
- ARROW-13923 - [C++] 使用长 CSV 单元格的更快 CSV 分块器
- ARROW-13943 - [Python] 从计算模块隐藏 hash_aggregate 函数
- ARROW-13984 - [Go][Parquet] 文件读取器
- ARROW-13984 - [Go][Parquet] go parquet 的文件处理,仅限读取器
- ARROW-13986 - [Go][Parquet] 添加文件写入器和测试
- ARROW-13987 - [C++] 支持嵌套字段引用
- ARROW-13988 - [C++] 支持 hash_min_max 中的基本二进制类型
- ARROW-13989 - [C++] 添加对 month-day-nano 间隔的计算函数支持
- ARROW-14011 - [C++][Gandiva] 将 elt hive 函数添加到 gandiva
- ARROW-14022 - [开发] 移除 arrow/dev/benchmarking
- ARROW-14032 - [C++][Gandiva] 将 concat_ws hive 函数添加到 gandiva
- ARROW-14039 - [C++][文档] 指示构建所需的内存
- ARROW-14041 - [C++] 替换 Parquet 解码器中 BitmapReader 的使用
- ARROW-14048 - [C++][Gandiva] 仅在内存中缓存对象代码而不是整个模块
- ARROW-14051 - [R] 处理包含聚合表达式的条件
- ARROW-14074 - [C++][Compute] C++ 计算 IR 的消费者
- ARROW-14092 - [C++] 减去 (日期,持续时间) -> 时间戳内核
- ARROW-14166 - [C++] 更新 vcpkg 内置基线
- ARROW-14167 - [C++][R] 直接支持 coalesce 中的字典
- ARROW-14171 - [C++][Python][打包] 升级 VCPKG 版本并添加 google-cloud-cpp 依赖
- ARROW-14174 - [C++] 消除一些 Decimal/FixedSizeBinary 内核的重复
- ARROW-14181 - [C++][Compute] 支持哈希连接中的字典
- ARROW-14189 - [文档] 向 sphinx 文档添加版本下拉列表
- ARROW-14193 - [C++][Gandiva] 实现 INSTR 函数
- ARROW-14205 - [C++] 添加 utf8_normalize 计算函数
- ARROW-14227 - [R] 实现 lubridate is.* 方法
- ARROW-14229 - [C++] 提升捆绑依赖的版本
- ARROW-14231 - [C++] 支持带时区的时间戳转换为字符串
-
ARROW-14242 - 在
to_string中公开正确的indent参数 - ARROW-14277 - R 教程 2021-Q4 倡议
- ARROW-14278 - [文档] 新贡献者指南
- ARROW-14294 - [文档][Python] 向 pyarrow 文档添加 Flight 教程
- ARROW-14297 - [R] 平滑整数除法以更好地匹配 R
- ARROW-14306 - [C++][Compute] 添加二进制反转内核
- ARROW-14310 - [R] 使 expect_dplyr_equal() 更直观
- ARROW-14311 - [C++] 加速 GCS 文件系统测试
- ARROW-14315 - [C++][Gandiva] 实现 BROUND 函数
- ARROW-14336 - [C++] 在 Apache 管理的位置维护捆绑依赖的 tarball
- ARROW-14338 - [文档] 向 pkgdown (R) 文档添加版本下拉列表
- ARROW-14346 - [C++] 实现 GcsFileSystem::OpenOutputStream
- ARROW-14347 - [C++] GcsFileSystem 的随机访问文件
- ARROW-14349 - [IR] 移除 RelBase
- ARROW-14350 - [IR] 向 Source 节点添加过滤表达式
- ARROW-14351 - [IR] 向 Source 节点添加投影列表
- ARROW-14352 - [IR] 移除 Source 的 schema 属性
- ARROW-14355 - [C++] 创建估计表/批次缓冲区大小算法的朴素实现
- ARROW-14356 - [C++] 创建内核以确定数组“引用”的缓冲区内存(即使存在偏移量)
- ARROW-14365 - [R] 更新 README 示例以反映新功能
- ARROW-14384 - [文档] 添加构建 Sphinx 文档而无需构建 pyarrow 的文档
- ARROW-14385 - [C++] 更新 google-cloud-cpp
- ARROW-14388 - [Python] 为 pandas 掩码添加单元测试
- ARROW-14390 - [打包][Ubuntu] 添加对 Ubuntu 21.10 的支持
- ARROW-14391 - [文档] Archery 需要 docker
- ARROW-14398 - [CI] 不在所有 conda 构建中构建 doxygen 文档
- ARROW-14409 - [打包][Python] 更新 manylinux 平台标签
- ARROW-14412 - [R] 改进 flight_put() 中数据 arg 对象类型错误时的错误处理
- ARROW-14413 - [C++][Gandiva] 实现 levenshtein 函数
- ARROW-14416 - [R] 修复 Raspberry Pi 上的软件包安装
- ARROW-14421 - [C++] 实现 Flight SQL
- ARROW-14430 - [Go] 基本表达式、字段引用和 Datum 处理
- ARROW-14431 - [C++][Gandiva] 实现 AES ENCRYPT 和 AES DECRYPT 函数
- ARROW-14433 - [发布][APT] 跳过 arm64 Ubuntu 21.04 验证
- ARROW-14435 - [发布] 更新验证脚本以检查 python 3.10 wheel
- ARROW-14436 - [C++] 使用 ccache 编译时禁用颜色诊断
- ARROW-14438 - [CI] 不取消主分支上的构建
- ARROW-14440 - [C++][FlightRPC] 添加 gRPC + Flight 示例
- ARROW-14441 - [R] 在 dev vignette 中添加我们的理念
- ARROW-14446 - [文档][发布] 更新发布候选版本验证文档
- ARROW-14448 - [Python] 更新 pyarrow.array() docstring 中关于时间戳(时区)转换的注释
- ARROW-14449 - [Python] Cython 中的 RecordBatch 缺少 column_data 方法
- ARROW-14450 - [R] 旧 macos 构建错误
-
ARROW-14451 - [发布][Ruby]
--path标志已弃用 - ARROW-14452 - [发布][JS] 更新 JavaScript 测试
- ARROW-14454 - [发布] CentOS 8 上不可用 shasum
- ARROW-14459 - [文档] 将固定的 sphinx 版本更新到 4.2
- ARROW-14462 - [Go][Parquet] 更新依赖项
- ARROW-14464 - [R] 将 write_parquet() 的默认 chunk_size 从所有行更改
- ARROW-14470 - [Python] 在 Feather 读取函数中公开 use_threads 选项
- ARROW-14476 - [CI] Crossbow 应注释失败原因
- ARROW-14479 - [C++] 哈希连接微基准测试
- ARROW-14480 - [R] 向 R 公开 arrow::dataset::ExistingDataBehavior
- ARROW-14482 - [C++][Gandiva] 实现 MASK_FIRST_N 和 MASK_LAST_N 函数
- ARROW-14483 - [发布] 添加缺少的下载目标
- ARROW-14484 - [Crossbow] 添加对通过环境变量指定队列路径的支持
- ARROW-14486 - [打包][deb] 添加缺少的 libthrift-dev 依赖
- ARROW-14489 - [Rust][CI] 在集成 docker 镜像中安装 stable rust 工具链
- ARROW-14490 - [文档] 重新生成 CHANGELOG.md 以包含所有版本
- ARROW-14491 - [CI] 添加 Debian 10 C++ 每夜构建
- ARROW-14496 - [文档] 使用存根页面为 sphinx toctree 中的 R / JS / C/Glib 引用创建相对链接
- ARROW-14499 - [文档] 搜索框旁边版本下拉列表
- ARROW-14505 - [CI][文档] 更频繁地执行文档构建
- ARROW-14510 - [R][CI] 确保 docker 运行不使用主机构建的 artifact
- ARROW-14514 - [C++][R] round 内核上的 UBSAN 错误
- ARROW-14515 - [R] 将 clang sanitizer 添加到 crossbow
- ARROW-14531 - [Ruby] 添加 Arrow::Table#join
- ARROW-14533 - [R] 关闭新行上大括号的 linter
- ARROW-14551 - [Ruby] 接受 Arrow::Column 作为 Arrow::Datum 参数
- ARROW-14558 - [R] 澄清 Arrow vignette 中 OOP 系统的措辞
- ARROW-14559 - [C++] 减少 GcsFileSystem::OpenInputStream 中的内存使用
- ARROW-14562 - [Ruby] 添加从 URI 加载 Arrow::Table 的支持
- ARROW-14577 - [C++] 为异步 IPC 阅读器启用细粒度 IO
- ARROW-14580 - [Python] 更新 trove 分类器以包含 Python 3.10
- ARROW-14581 - [C++] 细粒度 IPC 阅读器测试不稳定
- ARROW-14585 - [C++] 通过 pkg-config 查找 libgrpc++_reflection
- ARROW-14590 - [R] 实现 lubridate::week
- ARROW-14599 - [发布][Java] 将 .jar 上传到 Artifacts
- ARROW-14601 - [JAVA] 修复时间戳秒的注释
- ARROW-14602 - [文档] 教程 - Python 功能 PR
- ARROW-14603 - [文档] 教程 - R 绑定
- ARROW-14605 - [文档] 概述
- ARROW-14608 - [Python] 通过 Table.group_by 方法提供对 hash_aggregate 函数的访问
- ARROW-14609 - [R] left_join by 参数错误消息不匹配
- ARROW-14610 - [文档] 新贡献者指南:介绍 + 骨架
- ARROW-14615 - [C++] 重构嵌套字段引用并添加联合支持
- ARROW-14617 - [R][CI] 将 clang sanitizer 上游到 rhub
- ARROW-14618 - [发布] 将缺失的 AlmaLinux artifacts URL 添加到投票电子邮件模板
- ARROW-14619 - [Ruby] 为 pkg-config 使用无 @ openssl Homebrew 包
- ARROW-14623 - [打包][Java] 不仅上传 .jar,还上传 .pom
- ARROW-14626 - [网站] 更新已测试版本
- ARROW-14628 - [发布][Python] 使用 python -m pytest
- ARROW-14636 - [Ruby] 在文档中添加 Cookbook 部分
- ARROW-14637 - [GLib][Ruby] 添加明确初始化 S3 API 的支持
- ARROW-14641 - [C++][计算] 减少单元测试中的打印语句
- ARROW-14645 - [Go] 为 array.String 添加 ValueOffsets 函数
- ARROW-14650 - [JS] toArray 等同于 values/values64
- ARROW-14652 - [R] 数据集 vignette 下载脚本可能在默认选项下失败
- ARROW-14653 - [R] head() 在大于 600MB 的 CSV 数据集上挂起
- ARROW-14654 - [R][文档] 将关于如何使用 C++ 调试器运行 R 的文章添加到开发文档
- ARROW-14657 - [R][文档] R 文档中的断开链接
- ARROW-14658 - [C++] 添加对扫描中嵌套字段引用的基本支持
- ARROW-14662 - [文档] 添加关于链接 Flight/gRPC/Protobuf 的说明
- ARROW-14669 - [JS] 澄清 Perspective 对 Apache Arrow 的使用
- ARROW-14670 - [发布][Java] 构建缺失的 javadoc 和 source .jar
- ARROW-14671 - [Python][文档] 关于如何整合 PyArrow 和 R 的文档
- ARROW-14675 - [R] 为 NEWS.md 启用按联合合并
- ARROW-14676 - [R][文档] 添加关于如何通过 docker 构建几种不同设置的文章到开发文档
- ARROW-14678 - [C++] 为快速开发设置添加合理的 CMake 预设
- ARROW-14683 - [发布][Java] 构建缺失的 source-release.zip
- ARROW-14684 - [CI][C++] 在 macOS 上使用 aws-sdk-cpp 包
- ARROW-14686 - [Python][C++] 使 numpy 内置类型的字节序检测正确
- ARROW-14694 - [R] 让我 dput 一个 schema
- ARROW-14712 - [R] 修复 dplyr 1.0.8 的 compare_dplyr_error()
- ARROW-14714 - [C++][文档] 重做 CMake 预设并添加文档
- ARROW-14715 - [文档] 第一次 PR 的步骤 - 查找问题
- ARROW-14716 - [R][CI] 提高 docker 测试中使用的 R 版本
- ARROW-14718 - [Java] 当输入不为空且只有空值或非空值时,loadValidityBuffer 应避免分配内存
- ARROW-14732 - [Python] 改进在传递错误数量的位置参数时计算函数中的错误消息
- ARROW-14733 - [R] 在调试器文档中添加关于当程序挂起时如何获取输出的部分
- ARROW-14737 - [C++][数据集] 支持 URI 解码分区键
- ARROW-14738 - [Python][文档] 使返回类型可点击
- ARROW-14741 - [C++] 在 CSV 写入器中添加对 RecordBatchReader 的支持
- ARROW-14743 - [C++] 当 schema 中存在分区变量时,数据集读取错误
- ARROW-14746 - [CI] 允许(临时)禁用持续失败的夜间构建
- ARROW-14747 - [发布] 添加脚本以合并发布分支中的更改
- ARROW-14748 - [C++][CI] 更新标志以警告未使用的结果
- ARROW-14750 - [发布] 更新 post-03-website.sh 以适应 6.0.1
- ARROW-14751 - [C++] 为集合查找“元”计算函数添加文档
- ARROW-14752 - [文档] 第一次 PR 的步骤 - 设置
- ARROW-14753 - [文档] 第一次 PR 的步骤 - 构建 C++
- ARROW-14754 - [文档] 第一次 PR 的步骤 - 构建 R 包
- ARROW-14755 - [文档] 第一次 PR 的步骤 - 构建 PyArrow
- ARROW-14756 - [文档] 第一次 PR 的步骤 - Python 绑定
- ARROW-14757 - [文档] 第一次 PR 的步骤 - R 绑定
- ARROW-14758 - [文档] 第一次 PR 的步骤 - 在 Python 中测试
- ARROW-14759 - [文档] 第一次 PR 的步骤 - 在 R 中测试
- ARROW-14760 - [文档] 第一次 PR 的步骤 - PR 生命周期
- ARROW-14761 - [文档] 协助文档编写
- ARROW-14762 - [文档] 附加信息和资源
- ARROW-14763 - [文档] Arrow 概述
- ARROW-14764 - [网站] 添加 Go 包安装说明
- ARROW-14768 - [C++] 验证计算函数文档字符串格式
- ARROW-14777 - [发布] 启用在 RHEL 派生版上运行
- ARROW-14779 - [C++] 将其他常见的舍入模式名称添加到 RoundMode 文档
- ARROW-14784 - [GLib][Ruby] 将 GArrowSortKey::name 重命名为 ::target
- ARROW-14804 - [R] import_from_c() / export_to_c() 方法应接受外部指针
- ARROW-14807 - [R] 实现 lubridate am 和 pm 的绑定
- ARROW-14816 - [R] 实现 lubridate::mday 的绑定
- ARROW-14822 - [C++] 实现时间对象的 floor/ceil/round
- ARROW-14823 - [R] 实现 lubridate::leap_year 的绑定
- ARROW-14842 - [C++] 改进 Decimal 的精度范围错误消息
-
ARROW-14843 - [R] 实现
decimal128()(替换decimal()) - ARROW-14844 - [R] 实现 decimal256()
- ARROW-14849 - [R] 更新安装脚本中的消息
- ARROW-14850 - [R] 将 ARROW_DEPENDENCY_SOURCE 更新为默认为 AUTO
- ARROW-14857 - [CI][Homebrew] 添加 apache-arrow-glib 公式
- ARROW-14858 - [R][CI] 不在 ubuntu 21.04 上构建额外的依赖项
- ARROW-14880 - [CI][C++] 在 MacOS 构建中启用 ccache
- ARROW-14897 - [CI][C++] 将 Clang Tools 从 8 升级到 12
- ARROW-14899 - [C++] 实现 GcsInputStream::GetMetadata
- ARROW-14903 - [C++] 启用 CSV 写入器控制用于缺失数据的字符串
- ARROW-14905 - [C++] 启用 CSV 写入器处理引用
- ARROW-14907 - [C++] 启用 CSV 写入器控制行尾字符
- ARROW-14910 - [R][CI] 使用 dev duckdb 构建小于 8GB 内存的系统
- ARROW-14912 - [C++] 实现 GcsFileSystem::CopyFile
- ARROW-14913 - [C++] 实现 GcsFileSystem::DeleteFile
- ARROW-14914 - [C++] gcsfs 不会实现 DeleteRootDirContents
- ARROW-14915 - [C++] 实现 GcsFileSystem::DeleteDirContents
- ARROW-14916 - [C++] GcsFileSystem 可以删除目录
- ARROW-14917 - [C++] 实现 GcsFileSystem::CreateDir
- ARROW-14918 - [C++] 实现 GcsFileSystem::GetFileInfo(FileSelector)
- ARROW-14920 - [C++] 使用字母顺序
- ARROW-14924 - [C++] GcsFileSystem 的通用 fs 测试
- ARROW-14926 - [文档] 修复 CSS 以显示版本下拉菜单
- ARROW-14929 - [CI] 修复 kartothek 集成构建(安装新依赖项)
- ARROW-14932 - [CI] 优先使用 mamba 而不是 conda
- ARROW-14935 - [Ruby] 添加 GArrowTemporalDataType
- ARROW-14940 - [C++] 使用长 CSV 单元格加速 CSV 解析器
- ARROW-14941 - [R] 实现 Duration R6 类和 lubridate::duration() 的绑定
- ARROW-14957 - [C++] 更新 OpenTelemetry 到 v1.1.0
- ARROW-14961 - [C++] 提高 google benchmark 版本
- ARROW-14968 - [Python] 使用 oldest-supported-numpy 锁定 numpy 构建依赖项
- ARROW-14969 - [C++][Python] 取消 FileSystem::OpenAppendStream 的弃用
- ARROW-14971 - [C++] 实现 GcsFileSystem::Move
- ARROW-14975 - [文档] 修复 emit_dictionary_deltas 文档中的拼写错误
- ARROW-14976 - [开发][Archery] 如果未找到基准测试,则尽早失败
- ARROW-14977 - [Python] 为指南教程添加一个“虚构”功能
- ARROW-14981 - [CI][文档] 上传已构建的文档
- ARROW-14984 - [CI][Debian] 缺少 rsync
- ARROW-14985 - [CI][Go] 使用 Go 1.16
- ARROW-14986 - [发布][文档] 使用 Crossbow 构建的 artifact
- ARROW-14990 - [CI] 修复夜间 dask 集成构建(确保安装 pandas)
- ARROW-14992 - [R] 在 Pop! OS 上安装无法使用预构建的 Arrow 二进制文件
- ARROW-15005 - [C++] 使用 Neon 改进 csv 解析器
- ARROW-15010 - [R] 为我们的 NSE 函数创建一个函数注册表
- ARROW-15019 - [Python] 为新的数据集写入选项添加绑定
- ARROW-15022 - [R] 安装 vignette 和安装开发 vignette 需要图像的 alt 文本
- ARROW-15029 - [C++] 拆分 compute/kernels/scalar_string.cc
- ARROW-15032 - [C++] 添加 year_month_day 函数
- ARROW-15036 - [C++] 自动配置 S3 SDK 配置参数 "maxConnections"
- ARROW-15038 - [打包][CentOS] 放弃对 CentOS 8 的支持
- ARROW-15043 - [Python][文档] 在 pandas <-> arrow 类型转换表中包含 time64
- ARROW-15044 - [C++] 添加 OpenTelemetry 导出器用于调试
- ARROW-15049 - [R] arrowExports.cpp 生成随 glue package 1.5.1 更改
- ARROW-15055 - [C++] 重构 GcsFileSystem 测试
- ARROW-15056 - [C++] 加速 GcsFileSystem 测试
- ARROW-15057 - [R][CI] 更改我们在 CI 中安装 DuckDB 的位置
- ARROW-15058 - [Java] 删除性能模块中的 log4j2 依赖项
- ARROW-15070 - [Python][C++][R][文档] 向数据集文档添加关于缺乏 ACID 保证的通用声明
- ARROW-15074 - [格式] 澄清 LZ4 包含单个帧
- ARROW-15077 - [Python] 将 Expression 类从 _dataset 移动到 _compute cython 模块
- ARROW-15082 - [R] 清理另一个持续时间映射条目
- ARROW-15084 - [C++] GcsFileSystem 的公共工厂函数
- ARROW-15085 - [C++] 支持 GcsFileSystem 中的凭证类型
- ARROW-15087 - [Python][文档] 文档 MapArray 并将父类更新为 ListArray
- ARROW-15091 - [C++][文档] 文档 C++ 流式执行引擎中的节点
- ARROW-15095 - [开发][网站] 变更日志生成应使用提交消息
- ARROW-15096 - [R] 持续时间类型的 sanitizer 失败
- ARROW-15099 - [C++] 改进 GcsFileSystem::GetFileInfo
- ARROW-15100 - [CI] 默认停止使用 Python 3.6
- ARROW-15103 - [文档][C++] 构建文档错误:"arrow/cpp/src/arrow/csv/options.h:182: error: Found unknown command '\r' "
- ARROW-15109 - [Python] 添加 show_info() 以打印构建、组件和系统信息
- ARROW-15110 - [C++][Gandiva] 恢复 Gandiva 缓存策略的更改
- ARROW-15112 - [C++][FlightRPC][集成][Java] 实现 Flight RPC 集成测试
- ARROW-15113 - [C++] 使 GcsFileSystem 测试更快
- ARROW-15114 - [C++] GcsFileSystem 使用元数据作为目录标记
- ARROW-15115 - [C++] 如果使用已关闭的流,GcsFileSystem 将返回错误
- ARROW-15116 - [Python] 为 CSV 阅读器公开 invalid_row_handler
- ARROW-15119 - [C++] 允许在通用测试中将目录读取为文件
- ARROW-15121 - [C++] 在 GcsFileSystem 上实现最大递归
- ARROW-15122 - [R] 在 snappy 上进行 parquet 测试
- ARROW-15126 - [C++] 支持 Null 类型作为分组键
- ARROW-15127 - [R] 更明显地文档化 AWS_EC2_METADATA_DISABLED=TRUE
- ARROW-15133 - [CI] 删除 util_checkout.sh 和 util_cleanup.sh 脚本
- ARROW-15134 - [GLib] 添加 GArrow{Month,DayTime,MonthDayNano}IntervalDataType
- ARROW-15136 - [C++] 使 S3FS 测试更快
- ARROW-15137 - [开发] 更新 archery crossbow latest-prefix 以适应夜间日期
- ARROW-15138 - [C++] 使 ExecPlan::ToString 提供一些额外信息
- ARROW-15140 - [CI] 迁移到 GHA 的 checkout v2
- ARROW-15150 - [文档] 添加数据集分区指南
- ARROW-15153 - [Python] 向 python 公开 ReferencedBufferSize
- ARROW-15154 - [R] 向 R 公开 ReferencedBufferSize
- ARROW-15165 - [Python] 公开解析 S3 存储桶区域的函数
- ARROW-15166 - [C++] 启用 decimal256 过滤器
- ARROW-15169 - [Python][R] 避免不安全的 Python-R 指针传输
- ARROW-15172 - [Go] 为 Arrow-math 添加 Arm64 Neon 实现
- ARROW-15173 - [R] 为旧版本 pyarrow 的桥接提供向后兼容性
- ARROW-15187 - [Java][FlightRPC] 修复新 flight-sql 模块的 pom.xml
- ARROW-15188 - [C++] 升级捆绑的 re2 库版本
- ARROW-15189 - [C++] 升级捆绑的 utf8proc 版本
- ARROW-15190 - [C++] 升级捆绑的 zstd 版本
- ARROW-15193 - [R][文档] 更新 R 绑定文档
- ARROW-15198 - [C++][FlightRPC] 修复 Flight SQL 中的 unity 构建错误
- ARROW-15203 - [GLib] 来自 C++ 的 garrow_struct_scalar_get_value() 返回值
- ARROW-15204 - [GLib] 添加 Arrow::RoundOptions
- ARROW-15205 - [GLib] 添加 garrow_function_all()
- ARROW-15207 - [GLib] 使用 Meson 的默认 -Dwerror=
- ARROW-15216 - [GLib] 添加 Arrow::RoundToMultipleOptions
- ARROW-15218 - [C++] 向 indices_nonzero 计算函数添加 decimal 支持
- ARROW-15219 - [Python] 导出随机计算函数
- ARROW-15220 - [C++] 移除位块计数操作的 bool 特化
- ARROW-15232 - [打包][deb] 禁用 libarrow.so 的 DWARF 优化
- ARROW-15235 - [R] 放弃对 R 3.3 的支持
- ARROW-15244 - [格式] 澄清二进制类似数组的偏移量是单调的
- ARROW-15245 - [Go] 解决大部分 staticcheck linting 问题
- ARROW-15248 - [C++][文档] 改进 linting/格式化文档
- ARROW-15249 - [R] Autobrew + AWS sdk 依赖
- ARROW-15267 - [GLib] 添加 garrow_function_get_default_options()
- ARROW-15268 - [打包][deb] 不使用 gi 快捷方式
- ARROW-15269 - [C++][文档] 澄清并非所有计算函数都可以通过 CallFunction 调用
- ARROW-15273 - [GLib] 添加 garrow_function_get_options_type()
- ARROW-15274 - [Ruby] 改进 Arrow::Function#execute 的可用性
- ARROW-15279 - [R] 根据用户反馈更新“编写绑定”开发文档
- ARROW-15288 - [GLib] 添加 garrow_execute_plan_build_hash_join_node()
- ARROW-15295 - [R] 将 6.0.0 添加到我们检查的旧版本中
- ARROW-15300 - [C++] 为异步数据集接口更新 Skyhook
- ARROW-15302 - [R] 放弃 R 3.3 支持的后续工作
- ARROW-15303 - [R] linting 错误
- ARROW-15316 - [R] 创建一个单函数指针函数
- ARROW-15320 - [Go] 使用 Arm64 GoLang 汇编实现 memset_neon
- ARROW-15322 - [文档][Go] 更新 Go 文档的侧边栏链接
- ARROW-15327 - [R] 更新 7.0.0 的新闻
- ARROW-15331 - [Go][Parquet] 添加 pqarrow 包用于直接 Parquet <--> Arrow 转换
- ARROW-15332 - [C++] 在 IPC 读/写基准测试中添加新用例并修复问题
- ARROW-15334 - [CI][GLib][Windows] 使用 Ruby 3.1
- ARROW-15336 - [Go] 使用 Arm64 GoLang 汇编实现 'min_max_neon'
- ARROW-15337 - [文档] 新贡献者指南更新
-
ARROW-15338 - [Python] 添加
pyarrow.orc.read_tableAPI - ARROW-15339 - [网站] 添加 Skyhook 博客文章
- ARROW-15343 - [文档][指南] 介绍和清单 - 小修改
- ARROW-15344 - [文档][指南] 交流 - 小修改
- ARROW-15345 - [文档][指南] 查找 JIRA 问题 - 小修改
- ARROW-15355 - [文档] 触发文档更改时的 sphinx 构建
- ARROW-15356 - [Ruby] 添加对 .arrows 扩展名的支持
- ARROW-15373 - [C++] 从 MemoryManager::AllocateBuffer 返回 unique_ptr
- ARROW-15374 - [C++][FlightRPC] 添加对替代 MemoryManagers 的支持
- ARROW-15381 - [C#] 提高 C# Arrow.Flight 的依赖项并允许 netstandard2.0
- ARROW-15383 - [发布] 添加脚本以更新 MSYS2 包
- ARROW-15387 - [R] 取消 decimal256() 的分块数组测试
- ARROW-15390 - [开发][C++][文档] 文档 GDB 扩展
- ARROW-15399 - [发布][JS] 将最低 NodeJS 版本提高到 16
- ARROW-15416 - [Python] 添加跳过 gdb 测试的选项
- ARROW-15423 - [C++][开发] 使 GDB 插件自动加载友好
- ARROW-15435 - [C++][文档] 改进 API 文档覆盖率
- ARROW-15436 - [发布][Python] 在 Apple M1 上禁用不稳定的 csv::test_cancellation 测试
- ARROW-15439 - [发布] 发布后更新 .deb/.rpm 变更日志
- ARROW-15448 - [C++] 使用 apache 镜像系统下载 ORC 源代码
- ARROW-15457 - [打包][deb] 明确指定 CUDAToolkit_ROOT
- ARROW-15463 - [GLib] 添加 arrow::compute::Utf8NormalizeOptions 绑定
- ARROW-15495 - [C++][FlightRPC] 要求 Protobuf/gRPC 源代码匹配
- ARROW-15505 - [C++][计算] 在乘积聚合中支持 Null 类型
- PARQUET-492 - [C++][Parquet] 读取 DELTA_BYTE_ARRAY 数据的基本支持