Apache Arrow 7.0.0 (2022 年 2 月 3 日)
这是一个涵盖了三个多月开发的重大版本。
下载
贡献者
此版本包含 105 位不同贡献者的 650 次提交。
$ git shortlog -sn apache-arrow-6.0.0..apache-arrow-7.0.0
78 Antoine Pitrou
49 Sutou Kouhei
44 Krisztián Szűcs
39 David Li
35 Nic Crane
34 Alenka Frim
28 Carlos O'Ryan
27 Jonathan Keane
22 Weston Pace
21 Joris Van den Bossche
19 Dewey Dunnington
16 Matthew Topol
14 Dragos Moldovan-Grünfeld
14 Will Jones
12 Yibo Cai
12 Augusto Silva
12 Benson Muite
9 Alessandro Molina
7 Neal Richardson
6 Eduardo Ponce
5 Vibhatha Abeykoon
5 Dominik Moritz
5 Pradeep Garigipati
4 Johan Peltenburg
4 Ian Alexander Joiner
4 João Pedro
4 Matthijs Brobbel
4 Phillip Cloud
4 Sasha Krassovsky
4 liyafan82
3 Yuqi Gu
3 Sanjiban Sengupta
3 Kazuaki Ishizaki
3 Anthony Louis
3 jeszyb
3 Jedi18
3 Romain Francois
3 okadakk
2 Dhruv Vats
2 crystrix
2 Chenxi Li
2 Jayjeet Chakraborty
2 Danielle Navarro
2 Alex Şuhan
2 Projjal Chanda
2 Jeroen van Straten
2 Rok
2 Yue
2 Chris Casola
2 rodrigojdebem
2 Zixi
2 shanhuuang
2 Hongze Zhang
2 ArianaVillegas
2 Benjamin Kietzman
2 William Hyun
1 Vinicius Roque
1 Vitaly Buka
1 Andrew Lamb
1 Alvin Chunga
1 William Ayd
1 William Butler
1 ZMZ
1 [5~[5~David Li
1 [Paul Taylor
1 alvinj15
1 b41sh
1 bkmgit
1 c-jamie
1 daipom
1 frank400
1 liukun4515
1 Ákos Hadnagy
1 marlenezw
1 michalursa
1 notEvil
1 Diana Clarke
1 Dongjoon Hyun
1 Colin Sames
1 Dragoș Moldovan-Grünfeld
1 Eric Erhardt
1 James Duong
1 Jiayu Liu
1 Ahmet Uyar
1 Joost Hoozemans
1 Jorge C. Leitao
1 Jorge Leitao
1 Chathura Widanage
1 tomersolomon1
1 Konstantin Ilchenko
1 Chao Sun
1 Carl Boettiger
1 toppyy
1 Nate Clark
1 Nathaniel Bauernfeind
1 Benedikt Reinartz
1 Niyas Sait
1 wangzixuan.wzxuan
1 Attila Lendvai
1 Rafael Telles
1 zois
1 Stephanie Hazlitt
1 Terence Honles
1 Tim Paine
1 Vinicius Fraga
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -csn apache-arrow-6.0.0..apache-arrow-7.0.0
149 Antoine Pitrou
85 Krisztián Szűcs
73 Sutou Kouhei
68 Jonathan Keane
64 David Li
52 Nic Crane
34 Joris Van den Bossche
24 Pindikura Ravindra
21 Weston Pace
14 GitHub
14 Matthew Topol
12 Neal Richardson
12 Yibo Cai
7 Benjamin Kietzman
5 Dominik Moritz
4 liyafan82
4 Eric Erhardt
3 Matt Topol
2 Ian Cook
1 Praveen
1 Micah Kornfield
1 Chao Sun
变更日志
Apache Arrow 7.0.0 (2022-02-03)
Bug 修复
- ARROW-8340 - [文档] 删除旧的 Sphinx pin
- ARROW-9648 - [C++] 为 LZ4_FRAME 压缩编解码器添加压缩级别参数
- ARROW-9688 - [C++][Python] 启用构建用于 win/arm64 版本的 c++ 库和 pyarrow 包
- ARROW-10140 - [Python][C++] 添加测试,用于测试由 pyarrow 和 pandas 创建的 parquet 文件的 map 列
- ARROW-10485 - [R] 当文件路径为 hive 样式时,在 open_dataset 中接受分区
- ARROW-10794 - [JS] Typescript Arrowjs 类 'RecordBatch<T>' 不正确地扩展了基类 'StructVector<T>'
- ARROW-11549 - [C++][Gandiva] 修复由 ToString() 无法区分 null 和 'null' 引起的 FilterCacheKey 问题
- ARROW-12042 - [C++] 修复分块数组的 array_sort_indices
- ARROW-12066 - [Python] 测试以确保使用等于 null 的筛选不会崩溃
- ARROW-12768 - [C++] 测试中更严格的有符号零比较
- ARROW-13294 - [C#] 创建 Flight 示例服务器和客户端
- ARROW-13412 - [C++] 修复分块数组 + 标量输入上的 Kleene 内核
- ARROW-13462 - [C++] 修复 Compute API 文档中的示例代码存根
- ARROW-13628 - [Rust] 激活 rust 的 IPC month_day_nano_interval 集成测试
- ARROW-13735 - [C++][Python] 使用非默认字段名称创建 Map 数组会导致段错误
- ARROW-13756 - [Python] datetimetz 列索引的 pandas 转换中出现错误
- ARROW-13780 - [Gandiva][UDF] 修复 udf space/rpad/lpad 中的 bug
- ARROW-13861 - [JS] 使用 List 类型创建 Field 会引发错误
- ARROW-13879 - [C++] 正则表达式函数中对二进制类型的混合支持
- ARROW-13896 - [Python] 带时区的打印时间戳出错
- ARROW-13947 - [C++] 在 index 内核中支持更多类型
- ARROW-13948 - [C++] 在 is_in/index_in 中支持带时区的时间戳
- ARROW-13950 - [C++] min_element_wise/max_element_wise 缺少对某些类型的支持
- ARROW-13981 - [Java] VectorSchemaRootAppender 不适用于 BitVector
- ARROW-14029 - [R] 修复 map_batches()
- ARROW-14151 - [C++] ASCII 字符串函数中对二进制类型的混合支持
- ARROW-14238 - [Python] test_fs.py 中出现“无法运行 mc”错误
- ARROW-14253 - [R] 更新 lz4 测试,该测试由于错误消息不同而在本地失败
- ARROW-14318 - [文档] 修复多次构建数据集文档的文档构建
- ARROW-14374 - [Java] Java 的 C 数据接口实现的集成测试
- ARROW-14389 - [C++][Gandiva] 修复包含保留字符的 LIKE 表达式的性能 bug
- ARROW-14395 - [R] 重新启用 duckdb 自动清理
- ARROW-14405 - [C++] 修复 windows 的 clang 编译错误
- ARROW-14419 - [R] 添加筛选器 + 连接测试
- ARROW-14426 - [C++] 为数据集写入添加 minimum_row_group_size
- ARROW-14429 - [C++] RecordBatchFileReader 在 S3 中性能非常差
- ARROW-14437 - [Python] 使 CSV 取消测试更加健壮
- ARROW-14461 - [R] write_dataset() 允许用户传递无效的额外参数
- ARROW-14469 - [R] lubridate::month() 的绑定没有实现
label
参数 - ARROW-14475 - [C++] 不要遮蔽 enable_if 帮助程序
- ARROW-14492 - [JS] 修复浏览器捆绑包的导出
- ARROW-14493 - [发布][Go] 将主版本的导入路径更新添加到脚本
- ARROW-14513 - [发布][Go] 使用 /v6 后缀更新 release-6.0.0
- ARROW-14516 - [CI] 禁用 Docker 运行的特权模式
- ARROW-14517 - [Python] CFeatherReader 的 CIpcReadOptions 中缺少 & 符号
- ARROW-14519 - [C++] 如果在不支持的类型上进行连接,则正确报错
- ARROW-14522 - [C++] 修复具有 null 存储类型的 ExtensionType 的验证
- ARROW-14523 - [C++] 修复 S3 多部分上传中潜在的数据丢失
- ARROW-14529 - [GLib] 验证 Decimal{128,256}DataType 的精度
- ARROW-14530 - [GLib] 为无效的小数字符串返回错误
- ARROW-14538 - [R] 解决 Solaris 上的空 tr 调用
- ARROW-14539 - [C++] 数据集扫描仪测试失败,出现 DCHECK
- ARROW-14550 - [文档] 删除 JSON 许可证;一个非免费的许可证。
- ARROW-14554 - [C++][CI] 修复 OSS-Fuzz 构建失败
- ARROW-14578 - [格式][文档] 更新结构体联合文档
- ARROW-14582 - [CI] 60m 后超时 asan ubsan 作业
- ARROW-14583 - [C++] 处理 Take 中的空分块数组,GroupByNode 中的空数据集
- ARROW-14584 - [Python][CI] Python sdist 安装在最新的 setuptools 58.5 版本中失败
- ARROW-14586 - [R] 使用嵌套聚合表达式的 summarise() 具有令人困惑的错误
- ARROW-14589 - [CI][Go] 修复 CGO Windows 测试
- ARROW-14592 - [C++] list_parent_indices 输出类型不应依赖于输入类型
- ARROW-14593 - [C++] 修复无效 IPC 文件上的崩溃(OSS-Fuzz)
- ARROW-14594 - [R] 默认启用 snappy+lz4
- ARROW-14595 - [R] 清理将 deps_source 设置为 auto 的操作
- ARROW-14598 - [C++][Flight] 修复示例的 protoc 生成依赖项
- ARROW-14600 - [文档] 修复 Python 开发页面中的损坏链接
- ARROW-14616 - [C++] 修复 master 上的构建错误
- ARROW-14620 - [Python] 缺少现有数据行为的绑定,使其无法维护旧行为
- ARROW-14622 - [C++] 修复初始化顺序故障报告
- ARROW-14625 - [Python][CI] 在 s390x 上启用 Python 测试
- ARROW-14627 - [C++] 修复使用 GCC 11.1 的测试编译错误
- ARROW-14629 - [Python] 将 pytest 数据集标记添加到 test_permutation_of_column_order
- ARROW-14630 - [C++] 修复标量键列上的聚合
- ARROW-14640 - [R] 从 S3 读取数据
- ARROW-14642 - [C++] ScanNode 未使用筛选器表达式
- ARROW-14644 - [C++][R] open_dataset 不会忽略 csv 文件中的 BOM
- ARROW-14659 - [R] 删除 if_else() 中关于因子转换为字符串的警告
- ARROW-14664 - [C++] 修复 Parquet 编码 DELTA_BYTE_ARRAY 的接受类型
- ARROW-14667 - [C++] 添加了一个 dcheck,以确保在使用 s3 选项之前初始化 aws
- ARROW-14667 - [R][C++] 调用 arrow::S3FileSystem$create 时发生段错误
- ARROW-14682 - [dev] 验证 go 在非 x86 架构上的运行
- ARROW-14685 - [Python] 测试用例自动检测 numpy 对象的字节序
- ARROW-14693 - [R] 将非整数传递给 chunk_size
- ARROW-14696 - [Java] 重用向量 schema root 时,在填充 JDBC 数据之前重置向量
- ARROW-14699 - [C++] 修复 lz4 未定义行为问题
- ARROW-14700 - [C++] 仅在存在偏移量时检查时区偏移符号
- ARROW-14701 - [Python][MINOR] 文档说明 parquet.write_table 的 row_group_size
- ARROW-14704 - [C++] 修复 parquet-arrow-test 中的 Valgrind 失败
- ARROW-14709 - [C++][Java] 将 ORC 升级到 1.7.1 并使用官方 Apache 发行站点
- ARROW-14710 - [R] 在 Linux arm64 上使用 cmake-X.X.X-Linux-x86_64 时安装错误
- ARROW-14717 - [Go] 在 messageReader 中使用 ipc.Reader 分配器
- ARROW-14721 - [C++] 加强 DELTA_BYTE_ARRAY 解码器
- ARROW-14722 - [R] 修复 altrep 向量取反修改原始向量的问题
- ARROW-14728 - [Go] 将 LICENSE.txt 提升到新的模块根目录
- ARROW-14739 - [JS] 确保文档指向正确的源
- ARROW-14744 - [R] 当提供了
schema
参数,但未向CSVReadOptions
提供column_names
时,open_dataset() 出现错误 - ARROW-14749 - [Python][Release] 设置发布验证脚本以使用目标源而不是当前源目录
- ARROW-14765 - [Python] StructFieldOptions 未暴露
- ARROW-14766 - [Python] 将计算函数参数标记为仅位置参数
- ARROW-14769 - [Go] 确保报告 MessageReader 错误
- ARROW-14773 - [JS] 修复 sourcemap 路径
- ARROW-14774 - [JS] 更正包导出
- ARROW-14778 - [C++] 除法后对十进制类型求平均值进行舍入
- ARROW-14783 - [C++][Python] 修复 BytesIO 中写入 ORC 的问题
- ARROW-14786 - [R] 在 6.0.1 修补程序发布后增加开发版本
- ARROW-14788 - [C++] 修复 dataset/file_orc_test.cc 中的警告
- ARROW-14791 - [C++] 修复验证损坏的列表数组时发生的崩溃
- ARROW-14792 - [C++] 修复读取 DELTA_BYTE_ARRAY Parquet 文件时发生的崩溃
- ARROW-14795 - [C++] 修复使用掩码替换空值时的问题
- ARROW-14796 - [Python] 文档:更正默认值
- ARROW-14800 - [C++] 在启用 C++17 的 MSVC 上消除 std::launder 的歧义
- ARROW-14803 - [R] 函数未在作用域中声明
- ARROW-14839 - [R] test-fedora-r-clang-sanitizer 作业由于 snappy 导致 sanitizer 错误而失败
- ARROW-14840 - [R][CI] test-ubuntu-20.10-docs 夜间构建由于 R 安装问题而失败
- ARROW-14851 - [Archery] 不要将 JSON 基准测试输出转储到 stdout
- ARROW-14853 - [C++][Python] 改进缺少函数选项的错误消息
- ARROW-14854 - [C++] 修复无效索引上的 struct_field 崩溃
- ARROW-14894 - [R] write_parquet 块大小计算中的整数溢出
- ARROW-14898 - [C++][Compute] 如果键小于 int64,修复 key_hash 中越界内存访问导致的崩溃
- ARROW-14919 - [R] write_parquet() 删除分组数据帧的属性
- ARROW-14922 - [C++][Parquet] 修复 column-io-benchmark 引发异常
- ARROW-14930 - [C++] 使 S3 目录检测更加健壮
- ARROW-14931 - [Python] 一些数据集文档中缺少 csv/orc 格式字符串
- ARROW-14933 - [JS] 当检查类型时,apache-arrow 不能使用 typescript 编译
- ARROW-14936 - [C++][Gandiva] 修复 gandiva 中的 split_part 函数
- ARROW-14937 - [Doc] 确保将 docs 目录作为卷挂载
- ARROW-14962 - [CI] 修复 s390x 上的 minio 安装
- ARROW-14966 - [R][CI] 为依赖项安装向 CRAN 镜像添加冗余
- ARROW-14979 - [C++] 修复 GCS 集成测试中的进程泄漏
- ARROW-14980 - [C++] GCS 测试使用 PYTHON 环境变量
- ARROW-14991 - [Packaging][Python] 由于 vcpkg 三元组名称错误,Windows 轮子构建失败
- ARROW-15002 - [Python] 修复间隔类型的 hypothesis 策略
- ARROW-15004 - [Dev][Archery] 使用默认的 simd 级别
- ARROW-15009 - [C++] 使用 TSan 使哈希连接测试速度更快
- ARROW-15027 - [C++] 修复 OpenTelemetry CMake 定义
- ARROW-15028 - [C++] 修复 Unity 构建上的 Gandiva 编译失败
- ARROW-15030 - [C++] CSV 写入器测试失败
- ARROW-15031 - [C++] 修复无效 Parquet 文件(OSS-Fuzz)导致的崩溃
- ARROW-15041 - [R] 不稳定的 BOM 删除测试
- ARROW-15047 - [R][MINOR] 建议使用 R 命令来设置构建环境变量
- ARROW-15071 - [C#] 修复 Column.cs ValidateArrayDataTypes 方法中的错误
- ARROW-15076 - [C++][Gandiva] 修复 AES {en,de}cryption 结果的分配
- ARROW-15078 - [C++] 使用捆绑的 OpenTelemetry 静默 CMake 错误“包含不存在的路径”
- ARROW-15090 - [C++] 如果在仍有任务要运行时发生错误,SerializedAsyncTaskGroup 不会完成
- ARROW-15101 - [Python] 修复 CSV 写入器上的构建失败
- ARROW-15105 - [R] CSV 中具有时区元素的未支持的时间戳转换
- ARROW-15123 - [R] CSV 数据集文件头被读取为数据
- ARROW-15143 - [C++] 删除 StringBinaryTransformExecBase 的 Transform API 上不正确的注释
- ARROW-15144 - [Java] 无法在 master 中读取 IPC 文件
- ARROW-15145 - [R][CI] test-r-minimal-build 由于更新的错误消息而失败
- ARROW-15147 - [CI][C++][Gandiva] 修复与 boost 依赖项相关的损坏的夜间构建
- ARROW-15171 - [C++][Java] 将 ORC 更新到 1.7.2
- ARROW-15181 - [C++][FlightRPC] 修复信号处理程序和关闭之间的竞争
- ARROW-15184 - [C++] 读取带和不带空值的增量编码 Parquet 文件的单元测试
- ARROW-15185 - [R] 使 arrow 构建选项检查不区分大小写
- ARROW-15194 - [C++] 合并 ChunkedArray 构造函数
- ARROW-15199 - [Java] 更新 protobuf-maven-plugin 以避免“文本文件忙”错误
- ARROW-15200 - [C++][Gandiva] 使用 vcpkg 构建 LLVM 依赖项时启用 RTTI
- ARROW-15226 - [Python] 更新 ChunkedArray 构造函数的 Cython 绑定
- ARROW-15231 - [Packaging][deb] 添加缺少的 ArrowFlight-1.0.typelib
- ARROW-15234 - [Python] 修复自定义 CSV 无效行处理程序的崩溃问题
- ARROW-15241 - [C++] MakeArrayOfNull 在具有嵌套存储类型的扩展类型上失败
- ARROW-15243 - [CI][Python] 使 PyArrow 安装在 CI 中更加健壮
- ARROW-15265 - [C++] 修复使用 kDeleteMatchingPartitions 且 #partitions >= 8 时数据集写入器挂起的问题
- ARROW-15266 - [R][CI] 测试重组触发 valgrind 错误
- ARROW-15286 - [Python] 将传递给 FileSystemDataset.take 的索引转换为数组,以避免段错误
- ARROW-15290 - [Python][Docs] PyArrow 的文档页面具有不正确的超链接
- ARROW-15306 - [C++] S3FileSystem 如果未指定,应将 content-type 标头设置为 application/octet-stream
- ARROW-15315 - [Java][FlightRPC] FlightSqlProducer#doAction 始终抛出 INVALID_ARGUMENT
- ARROW-15318 - [C++][Python] 读取大批量分区键时的回归
- ARROW-15323 - [CI] 夜间 spark 集成构建失败
- ARROW-15324 - [C++] 避免 HDFS 文件关闭失败时崩溃
- ARROW-15325 - [R] 修复 CRAN 对 map_batches collect 的评论
- ARROW-15326 - [C++] 修复 Gandiva 崩溃
- ARROW-15335 - [Java] 修复 UnionListReader 中针对空列表的 setPosition 调用
- ARROW-15358 - [C++] 修复自定义匹配器编译
- ARROW-15360 - [Python] 在 Buffer.slice() 中检查切片边界
- ARROW-15362 - 将 OMP_NUM_THREADS 设置为 1 会导致数据集挂起
- ARROW-15370 - [Python] 修复空表转换为 to_pandas 的回归问题
- ARROW-15371 - [C++][Release] 验证 docker 镜像中缺少 libsqlite-dev
- ARROW-15372 - [C++][Gandiva] Gandiva 现在依赖于 boost/crc.hpp,该文件在精简的 boost 存档中缺失
- ARROW-15376 - [Go][Release] cpu_arm64 需要 +build 注释
- ARROW-15377 - [Release] 在 macOS 验证版本中将 nodejs 版本提升到 16
- ARROW-15378 - [C++][发布] Windows 验证期间 GTest 链接错误
- ARROW-15380 - [Python][发布] 验证期间 NumPy ABI 不兼容
- ARROW-15385 - [集成] 在集成测试中将持续时间与间隔分开
- ARROW-15388 - [C++] 避免从 flatbuffers 包含 absl
- ARROW-15393 - [发布][Crossbow] 回退到
当生成的 scm 版本号没有距离时,使用 dev0 - ARROW-15394 - [CI][文档] 修复环境变量以确保在文档构建中使用 doxygen
- ARROW-15395 - [发布][Ruby] Ruby 验证在 M1 上失败
- ARROW-15403 - [Python][打包] 使用捆绑的 ORC 构建 python wheels
- ARROW-15404 - [Java][打包] 使用捆绑的 ORC 构建 java JNI jar 包
- ARROW-15414 - [java] RangeEqualsVisitor 不适用于 BitVector
- ARROW-15417 - [Python][打包] 使用 vcpkg 清单安装 wheel 依赖项;通过构建捆绑版本来降级 AWS SDK
- ARROW-15420 - [Python] 如果未找到 GDB 脚本则跳过
- ARROW-15424 - [C++][GLib] 修复 CUDA 绑定
- ARROW-15427 - [C++][Gandiva] 使用锁保护来持有互斥锁
- ARROW-15433 - [文档] 修复构建时的警告
- ARROW-15437 - [Python][FlightRPC] 修复不稳定的测试 test_interrupt
- ARROW-15438 - [Python] 不稳定的测试 test_write_dataset_max_open_files
- ARROW-15441 - [C++][计算] 修复 hash_count 空类型列的错误结果
- ARROW-15442 - [C++][Python] 在非调试版本上跳过 GDB 测试
- ARROW-15447 - [C++] 避免 ORC 选项 API 和 glibc 定义的宏之间的冲突
- ARROW-15451 - [C++] 修复 C++17 和 ARROW_GCS=ON 的构建
- ARROW-15454 - [Python] 尝试使 CSV 取消测试更加健壮
- ARROW-15461 - [C++] 避免 ReverseBitmap 中的 clang 错误
- ARROW-15467 - [Go][Parquet] 修复 s390x 上的 pqarrow 小数测试
- ARROW-15485 - [发布][Java] 修复 java jar 包上传脚本
- ARROW-15488 - [Go] 修复 ipc.Writer 损坏空位图
- ARROW-15493 - [C++][Gandiva] 初始化 ExpressionCacheKey.mode_
- ARROW-15499 - [Python] 修复 pyarrow._orc 中的导入错误
- ARROW-15504 - [Python] 确保测试 ORC 绑定
- ARROW-15509 - [Go][Parquet] Parquet mainprogs 崩溃
- ARROW-15514 - [C++][Gandiva] 添加标志以启用 Gandiva 对象代码
- PARQUET-1856 - [C++] 避免在禁用 Snappy 支持时测试失败
- PARQUET-2109 - [C++] 检查 Parquet 页面是否值太少
新功能和改进
- ARROW-1299 - [文档] 将针对 master 的每晚文档发布到某个地方
- ARROW-1699 - [C++] 前向、后向填充内核函数
- ARROW-2366 - [Python][C++][Parquet] 添加测试以确保支持读取具有列顺序排列的 Parquet 文件
- ARROW-3699 - [C++] 用于测试 32 位 C++ 构建的 Dockerfile
- ARROW-4975 - [C++] 支持连接 UnionArrays
- ARROW-5599 - [Go] 将 array.{Interface,Record,Column,Chunked,Table} 迁移到 arrow.{Array,Record,Column,Chunked,Table}
- ARROW-6001 - [Python] : 添加 from_pylist() 和 to_pylist() 到 pyarrow.Table 以转换记录列表
- ARROW-6276 - [C++] 用于一些 arrow 类
- ARROW-8285 - [Python][Dataset] 测试 ScalarExpression 接受 numpy 标量
- ARROW-8605 - [R] 向 Windows R 构建添加 brotli
- ARROW-8823 - [C++] 将批处理缓冲区总大小添加到 IPC 写入统计信息
- ARROW-9186 - [R] 允许指定 CSV 文件编码
- ARROW-9483 - [C++] 重新组织测试头文件
- ARROW-9630 - [Go] 实现公共 JSON 读取器/写入器
- ARROW-10209 - [Python] 支持计算函数中的位置选项
- ARROW-10220 - [JS] 缓存 javascript utf-8 字典键?
- ARROW-10317 - [Python] 记录计算函数选项
- ARROW-10456 - [R] 实现 MapType 和 MapArray
- ARROW-10998 - [C++] 检测期望文件系统路径的 URI
- ARROW-11297 - [C++][Python] 添加 ORC 写入器选项
- ARROW-11347 - [JS] 考虑使用对象而不是映射
- ARROW-11424 - [C++] StructType::{AddField,RemoveField,SetField} 成员函数
- ARROW-11475 - [C++] 将 mimalloc 升级到 v1.7.3
- ARROW-11938 - [R] 使 R 构建过程能够找到 Windows 上本地构建的 C++ 库
- ARROW-12053 - [C++] 为十进制数据类型实现聚合计算函数
- ARROW-12060 - [Python] 支持在表达式上调用计算函数
- ARROW-12315 - [R] 向 write_dataset() 添加 max_partitions 参数
- ARROW-12404 - [C++] 实现“随机”零元函数,该函数生成 0 到 1 之间的均匀随机数
- ARROW-12422 - [C++][Gandiva] 添加从日期毫秒的 castVARCHAR 函数
- ARROW-12480 - [Java][Dataset] FileSystemDataset:支持从目录读取
- ARROW-12516 - [C++][Gandiva] 实现 castINTERVALDAY(varchar) 和 castINTERVALYEAR(varchar) 函数
- ARROW-12536 - [JS] 从 JavaScript 类型构造表
- ARROW-12538 - [JS] 在文档中显示向量
- ARROW-12545 - [Python][文档] 填写关于自定义架构和字段元数据的部分
- ARROW-12548 - [JS] 摆脱列
- ARROW-12549 - [JS] Table 和 RecordBatch 不应扩展 Vector,使 JS 库更小
- ARROW-12595 - [C++][Gandiva][二进制][字符串] 函数
- ARROW-12607 - [网站] Dataset Java 绑定的文档部分
- ARROW-12671 - [C++] 将 OpenTelemetry 添加到 ThirdpartyToolchain
- ARROW-12683 - [C++] 在 IPC 读取器中启用细粒度 I/O(合并)
- ARROW-12706 - [Python] 删除 Python 3.6 支持
- ARROW-12712 - [C++] 字符串重复内核
- ARROW-12735 - [C++] 编写 GDB 插件
- ARROW-12803 - [C++] [Dataset] 使用扫描器写入数据集不支持异步扫描
- ARROW-12820 - [C++] 在 ISO8601、strptime 解析器中支持时区偏移
- ARROW-12858 - [C++][Gandiva] 在 Gandiva 上添加 isNull、isTrue、isFalse、isNotTrue、IsNotFalse 和 NVL 函数
- ARROW-12880 - [C++][Gandiva] 添加 castTIME(int32)、castTIMESTAMP(int64) 和 castTIME(utf8) 函数
- ARROW-12922 - [Java][FlightSQL] 为 Flight SQL 创建存根 API
- ARROW-12943 - [Gandiva][C++] 实现 MD5 Hive 函数
- ARROW-13016 - [C++][计算] 在 Sum/Mean 聚合中支持 Null 类型
- ARROW-13035 - [C++] indices_nonzero 计算函数
- ARROW-13051 - [发布][Java] 使用 Crossbow 构建的工件
- ARROW-13081 - [C++] 不允许比较带时区的时间戳和不带时区的时间戳
- ARROW-13087 - [R] 公开 Parquet ArrowReaderProperties::coerce_int96_timestamp_unit
- ARROW-13111 - [R] ChunkedArray 的 altrep 向量
- ARROW-13130 - [C++] 向算术内核添加十进制支持
- ARROW-13156 - [R] str_count 的绑定
- ARROW-13208 - [Python][CI] 创建用于验证 python 文档字符串的构建
- ARROW-13328 - [C++][Dataset] 对同步扫描使用 ExecPlan 或删除同步扫描
- ARROW-13338 - [C++][Dataset] 使异步 Scanner 成为默认值
- ARROW-13362 - [R] 清理 Arrow 消息中的 in/by
- ARROW-13371 - [R] make_struct 的绑定 -> StructArray$create()
- ARROW-13373 - [C++][Gandiva] 在 Gandiva 上实现 CRC32 Hive 函数
- ARROW-13376 - [C++][Gandiva] 在 Gandiva 上实现 FACTORIAL Hive 函数
- ARROW-13377 - [C++][Gandiva] 在 Gandiva 上实现 PMOD Hive 函数
- ARROW-13383 - [R] 向没有示例的函数添加示例
- ARROW-13398 - [R] 更新 install.Rmd 小插图
- ARROW-13400 - [R] 更新 fs.Rmd (使用 S3) 小插图
- ARROW-13401 - [R] : 更新 python.Rmd 小插图
- ARROW-13408 - [打包] 更新 crossbow 以检出特定的 git 哈希值
- ARROW-13449 - [格式] 更新与模式的线格式相关的文档
- ARROW-13467 - [C++] 在 IPC 文件格式中支持增量字典
- ARROW-13494 - [C++] 重命名 BitUtil 和 LittleEndianArray 命名空间
- ARROW-13514 - [JS] 更新 flatbuffers
- ARROW-13536 - [C++] 使用 fast-float 中能识别小数点的转换
- ARROW-13553 - [文档] 添加代码审查指南
- ARROW-13554 - [C++] 删除已弃用的 Scanner::Scan
- ARROW-13558 - [C++] 验证十进制数组/标量
- ARROW-13571 - [Python][ORC] 公开 stripe size ORCWriter API
- ARROW-13579 - 公开 Create EmptyArray、EmptyRecordBatch 和 EmptyTable 实用函数。
- ARROW-13589 - [C++] 协调 ValidateArray 和 ValidateArrayFull
- ARROW-13590 - [C++] 确保数据集写入应用背压
- ARROW-13598 - [C++] 删除 Datum::COLLECTION
- ARROW-13607 - [C++] 将 Skyhook 添加到 Arrow
- ARROW-13610 - [R] 取消绑定 cpp11
- ARROW-13615 - [R] stringr::str_to_sentence 的绑定
- ARROW-13617 - [C++] 使十进制表示形式保持一致
- ARROW-13623 - [R] 更新 write_csv_arrow 以遵循 readr::write_csv 的签名
- ARROW-13643 - [C++][Compute] 实现支持残余谓词的外连接
- ARROW-13663 - [C++] RecordBatchReader 类 STL 式迭代
- ARROW-13668 - [Python] 将
write_batch
和write
方法添加到ParquetWriter
- ARROW-13707 - [文档] 食谱发布 2
- ARROW-13711 - [文档][食谱] 使用 Arrow Flight RPC 服务器通过网络发送和接收数据 - R
- ARROW-13781 - [Python] 允许在 parquet writer 中按列编码
- ARROW-13811 - [Java] 提供一个通用的异地排序器
- ARROW-13826 - [C++][Gandiva] 在 Gandiva 上实现 QUOTE Hive 函数
- ARROW-13828 - [C++][Gandiva] 在 Gandiva 上实现 SOUNDEX Hive 函数
- ARROW-13829 - [C++][Gandiva] 在 Gandiva 上实现 GREATEST 和 LEAST Hive 函数
- ARROW-13830 - [C++][Gandiva] 在 Gandiva 上实现 CHR Hive 函数
- ARROW-13832 - [文档] 改进计算文档
- ARROW-13834 - [R][文档] 记录为计算内核创建 R 绑定的过程以及约定背后的基本原理
- ARROW-13841 - [文档] 记录构成 CI 的不同子组件以及它们如何组合在一起
- ARROW-13886 - [R] 扩展 decimal() 的文档
- ARROW-13887 - [R] 捕获使用标头读取 CSV 文件并使用模式时产生的错误,并添加建议
- ARROW-13888 - [R] 重述 schema() 的省略号参数的文档并重述错误消息
- ARROW-13923 - [C++] 具有长 CSV 单元格的更快 CSV 分块器
- ARROW-13943 - [Python] 从计算模块隐藏 hash_aggregate 函数
- ARROW-13984 - [Go][Parquet] 文件读取器
- ARROW-13984 - [Go][Parquet] go parquet 的文件处理,仅限读取器
- ARROW-13986 - [Go][Parquet] 添加文件写入器和测试
- ARROW-13987 - [C++] 支持嵌套字段引用
- ARROW-13988 - [C++] 在 hash_min_max 中支持基本二进制类型
- ARROW-13989 - [C++] 添加对月-日-纳秒间隔的支持以进行计算功能
- ARROW-14011 - [C++][Gandiva] 将 elt hive 函数添加到 gandiva
- ARROW-14022 - [Dev] 删除 arrow/dev/benchmarking
- ARROW-14032 - [C++][Gandiva] 将 concat_ws hive 函数添加到 gandiva
- ARROW-14039 - [C++][文档] 指示构建的内存需求
- ARROW-14041 - [C++] 替换 Parquet 解码器中 BitmapReader 的用法
- ARROW-14048 - [C++][Gandiva] 仅在内存中缓存目标代码而不是整个模块
- ARROW-14051 - [R] 处理包含聚合表达式的条件
- ARROW-14074 - [C++][Compute] 计算 IR 的 C++ 使用者
- ARROW-14092 - [C++] subtract(date, duration) -> timestamp 内核
- ARROW-14166 - [C++] 更新 vcpkg 内置基线
- ARROW-14167 - [C++][R] 直接支持 coalesce 中的字典
- ARROW-14171 - [C++][Python][打包] 升级 VCPKG 版本并添加 google-cloud-cpp 依赖项
- ARROW-14174 - [C++] 删除一些十进制/固定大小二进制内核的重复项
- ARROW-14181 - [C++][Compute] 支持哈希连接中的字典
- ARROW-14189 - [文档] 将版本下拉列表添加到 sphinx 文档中
- ARROW-14193 - [C++][Gandiva] 实现 INSTR 函数
- ARROW-14205 - [C++] 添加 utf8_normalize 计算函数
- ARROW-14227 - [R] 实现 lubridate is.* 方法
- ARROW-14229 - [C++] 升级捆绑的依赖项版本
- ARROW-14231 - [C++] 支持将带时区的 timestamp 转换为字符串
- ARROW-14242 - 在
to_string
中公开正确的indent
参数 - ARROW-14277 - R 教程 2021-Q4 计划
- ARROW-14278 - [文档] 新贡献者指南
- ARROW-14294 - [文档][Python] 在 pyarrow 文档中添加有关 Flight 的教程
- ARROW-14297 - [R] 平滑整数除法以更好地匹配 R
- ARROW-14306 - [C++][Compute] 添加二进制反向内核
- ARROW-14310 - [R] 使 expect_dplyr_equal() 更直观
- ARROW-14311 - [C++] 使 GCS FileSystem 测试更快
- ARROW-14315 - [C++][Gandiva] 实现 BROUND 函数
- ARROW-14336 - [C++] 在 Apache 管理的位置维护捆绑的依赖项 tarball
- ARROW-14338 - [文档] 将版本下拉列表添加到 pkgdown (R) 文档
- ARROW-14346 - [C++] 实现 GcsFileSystem::OpenOutputStream
- ARROW-14347 - [C++] GcsFileSystem 的随机访问文件
- ARROW-14349 - [IR] 删除 RelBase
- ARROW-14350 - [IR] 将筛选表达式添加到 Source 节点
- ARROW-14351 - [IR] 将投影列表添加到 Source 节点
- ARROW-14352 - [IR] 从 Source 中删除模式属性
- ARROW-14355 - [C++] 创建用于估计表/批次缓冲区大小的算法的简单实现
- ARROW-14356 - [C++] 创建一个内核,用于确定数组“引用”的缓冲区内存(即使存在偏移量)
- ARROW-14365 - [R] 更新 README 示例以反映新功能
- ARROW-14384 - [文档] 添加有关构建 Sphinx 文档而无需构建 pyarrow 的文档
- ARROW-14385 - [C++] 更新 google-cloud-cpp
- ARROW-14388 - [Python] 为 pandas 掩码添加单元测试
- ARROW-14390 - [打包][Ubuntu] 添加对 Ubuntu 21.10 的支持
- ARROW-14391 - [文档] Archery 需要 docker
- ARROW-14398 - [CI] 不要在所有的 conda 构建中构建 doxygen 文档
- ARROW-14409 - [打包][Python] 更新 manylinux 平台标签
- ARROW-14412 - [R] 当数据参数对象类型错误时,为 flight_put() 提供更好的错误处理
- ARROW-14413 - [C++][Gandiva] 实现 levenshtein 函数
- ARROW-14416 - [R] 修复 Raspberry Pi 上的软件包安装
- ARROW-14421 - [C++] 实现 Flight SQL
- ARROW-14430 - [Go] 基本表达式、字段引用和 Datum 处理
- ARROW-14431 - [C++][Gandiva] 实现 AES ENCRYPT 和 AES DECRYPT 函数
- ARROW-14433 - [发布][APT] 跳过 arm64 Ubuntu 21.04 验证
- ARROW-14435 - [发布] 更新验证脚本以检查 python 3.10 wheels
- ARROW-14436 - [C++] 使用 ccache 编译时禁用颜色诊断
- ARROW-14438 - [CI] 不要取消主分支上的构建
- ARROW-14440 - [C++][FlightRPC] 添加 gRPC + Flight 示例
- ARROW-14441 - [R] 将我们的理念添加到开发小插图
- ARROW-14446 - [文档][发布] 更新有关验证候选版本的文档
- ARROW-14448 - [Python] 更新 pyarrow.array() 文档字符串中关于时间戳(时区)转换的说明
- ARROW-14449 - [Python] Cython 中的 RecordBatch 缺少 column_data 方法
- ARROW-14450 - [R] 旧 macos 构建错误
- ARROW-14451 - [发布][Ruby]
--path
标志已弃用 - ARROW-14452 - [发布][JS] 更新 JavaScript 测试
- ARROW-14454 - [发布] shasum 在 CentOS 8 上不可用
- ARROW-14459 - [文档] 将固定的 sphinx 版本更新到 4.2
- ARROW-14462 - [Go][Parquet] 更新依赖
- ARROW-14464 - [R] 将 write_parquet() 的默认 chunk_size 从所有行更改
- ARROW-14470 - [Python] 在 Feather 读取函数中公开 use_threads 选项
- ARROW-14476 - [CI] Crossbow 应该注释失败的原因
- ARROW-14479 - [C++] 哈希连接微基准测试
- ARROW-14480 - [R] 将 arrow::dataset::ExistingDataBehavior 公开给 R
- ARROW-14482 - [C++][Gandiva] 实现 MASK_FIRST_N 和 MASK_LAST_N 函数
- ARROW-14483 - [发布] 添加缺失的下载目标
- ARROW-14484 - [Crossbow] 添加通过环境变量指定队列路径的支持
- ARROW-14486 - [打包][deb] 添加缺失的 libthrift-dev 依赖
- ARROW-14489 - [Rust][CI] 在集成 docker 镜像中安装稳定的 rust 工具链
- ARROW-14490 - [文档] 重新生成 CHANGELOG.md 以包含所有版本
- ARROW-14491 - [CI] 添加 Debian 10 C++ 夜间构建
- ARROW-14496 - [文档] 使用存根页面在 sphinx toctree 中为 R / JS / C/Glib 引用创建相对链接
- ARROW-14499 - [文档] 版本下拉列表与搜索框并排
- ARROW-14505 - [CI][文档] 更频繁地执行文档构建
- ARROW-14510 - [R][CI] 确保 docker 运行不使用主机构建的工件
- ARROW-14514 - [C++][R] round 内核上的 UBSAN 错误
- ARROW-14515 - [R] 将 clang sanitizer 添加到 crossbow
- ARROW-14531 - [Ruby] 添加 Arrow::Table#join
- ARROW-14533 - [R] 关闭新行上花括号的 linter
- ARROW-14551 - [Ruby] 接受 Arrow::Column 作为 Arrow::Datum 参数
- ARROW-14558 - [R] 在 Arrow vignette 中澄清 OOP 系统措辞
- ARROW-14559 - [C++] 减少 GcsFileSystem::OpenInputStream 中的内存使用
- ARROW-14562 - [Ruby] 添加从 URI 加载 Arrow::Table 的支持
- ARROW-14577 - [C++] 为异步 IPC 读取器启用细粒度 IO
- ARROW-14580 - [Python] 更新 trove 分类器以包含 Python 3.10
- ARROW-14581 - [C++] 细粒度 IPC 读取器测试不稳定
- ARROW-14585 - [C++] 通过 pkg-config 查找 libgrpc++_reflection
- ARROW-14590 - [R] 实现 lubridate::week
- ARROW-14599 - [发布][Java] 将 .jar 上传到 Artifacts
- ARROW-14601 - [JAVA] 修复时间戳秒的注释
- ARROW-14602 - [文档] 教程 - Python 功能 PR
- ARROW-14603 - [文档] 教程 - R 绑定
- ARROW-14605 - [文档] 总体纲要
- ARROW-14608 - [Python] 通过 Table.group_by 方法提供对 hash_aggregate 函数的访问
- ARROW-14609 - [R] left_join by 参数错误消息不匹配
- ARROW-14610 - [文档] 新贡献者指南:简介 + 框架
- ARROW-14615 - [C++] 重构嵌套字段引用并添加联合支持
- ARROW-14617 - [R][CI] 将 clang sanitizer 上游到 rhub
- ARROW-14618 - [发布] 将缺失的 AlmaLinux 工件 URL 添加到投票邮件模板
- ARROW-14619 - [Ruby] 为 pkg-config 使用没有 @ openssl Homebrew 包
- ARROW-14623 - [打包][Java] 不仅上传 .jar,还上传 .pom
- ARROW-14626 - [网站] 更新测试版本
- ARROW-14628 - [发布][Python] 使用 python -m pytest
- ARROW-14636 - [Ruby] 向文档添加 Cookbook 部分
- ARROW-14637 - [GLib][Ruby] 添加显式初始化 S3 API 的支持
- ARROW-14641 - [C++][Compute] 减少单元测试中的打印语句
- ARROW-14645 - [Go] 向 array.String 添加 ValueOffsets 函数
- ARROW-14650 - [JS] toArray 等效于 values/values64
- ARROW-14652 - [R] 数据集 vignette 下载脚本很可能因默认选项而失败
- ARROW-14653 - [R] head() 在 CSV 数据集 > 600MB 时挂起
- ARROW-14654 - [R][文档] 添加关于如何使用 C++ 调试器运行 R 的文章到开发文档
- ARROW-14657 - [R][文档] R 文档中的断开链接
- ARROW-14658 - [C++] 在扫描中添加对嵌套字段引用的基本支持
- ARROW-14662 - [文档] 添加关于链接 Flight/gRPC/Protobuf 的说明
- ARROW-14669 - [JS] 澄清 Perspective 对 apache arrow 的使用
- ARROW-14670 - [发布][Java] 构建缺失的 javadoc 和 source .jar
- ARROW-14671 - [Python][文档] 关于如何集成 PyArrow 和 R 的文档
- ARROW-14675 - [R] 启用 NEWS.md 的联合合并
- ARROW-14676 - [R][文档] 添加关于如何通过 docker 构建几种不同设置的文章到开发文档
- ARROW-14678 - [C++] 添加合理的 CMake 预设以进行快速开发设置
- ARROW-14683 - [发布][Java] 构建缺失的 source-release.zip
- ARROW-14684 - [CI][C++] 在 macOS 上使用 aws-sdk-cpp 包
- ARROW-14686 - [Python][C++] 使 numpy 内置类型的字节顺序检测正确
- ARROW-14694 - [R] 让我 dput 一个 schema
- ARROW-14712 - [R] 修复 dplyr 1.0.8 的 compare_dplyr_error()
- ARROW-14714 - [C++][文档] 重做 CMake 预设并添加文档
- ARROW-14715 - [文档] 首次 PR 的步骤 - 查找问题
- ARROW-14716 - [R][CI] 提升 docker 测试中使用的 R 版本
- ARROW-14718 - [Java] 当输入不是 null 并且只有 null 或非 null 值时,loadValidityBuffer 应避免分配内存
- ARROW-14732 - [Python] 改进在传递错误数量的位置参数时计算函数中的错误消息
- ARROW-14733 - [R] 将关于如何在事物挂起时获取输出的部分添加到调试器文档
- ARROW-14737 - [C++][Dataset] 支持 URI 解码分区键
- ARROW-14738 - [Python][文档] 使返回类型可点击
- ARROW-14741 - [C++] 在 CSV 写入器中添加对 RecordBatchReader 的支持
- ARROW-14743 - [C++] 在 schema 中对变量进行分区时,读取数据集时出错
- ARROW-14746 - [CI] 允许(临时)禁用不断失败的夜间构建
- ARROW-14747 - [发布] 添加一个脚本来合并发布分支中的更改
- ARROW-14748 - [C++][CI] 更新标志以警告未使用的结果
- ARROW-14750 - [发布] 为 6.0.1 更新 post-03-website.sh
- ARROW-14751 - [C++] 添加集合查找“元”计算函数的文档
- ARROW-14752 - [文档] 首次 PR 的步骤 - 设置
- ARROW-14753 - [文档] 首次 PR 的步骤 - 构建 C++
- ARROW-14754 - [文档] 首次 PR 的步骤 - 构建 R 包
- ARROW-14755 - [文档] 首次 PR 的步骤 - 构建 PyArrow
- ARROW-14756 - [文档] 首次 PR 的步骤 - Python 绑定
- ARROW-14757 - [文档] 首次 PR 的步骤 - R 绑定
- ARROW-14758 - [文档] 首次 PR 的步骤 - 在 Python 中测试
- ARROW-14759 - [文档] 首次 PR 的步骤 - 在 R 中测试
- ARROW-14760 - [文档] 首次 PR 的步骤 - PR 生命周期
- ARROW-14761 - [文档] 帮助编写文档
- ARROW-14762 - [文档] 附加信息和资源
- ARROW-14763 - [文档] Arrow 总体概述
- ARROW-14764 - [网站] 添加安装 Go 包的说明
- ARROW-14768 - [C++] 验证计算函数文档字符串格式
- ARROW-14777 - [发布] 启用在 RHEL 衍生版本上运行
- ARROW-14779 - [C++] 将其他常见的舍入模式名称添加到 RoundMode 文档中
- ARROW-14784 - [GLib][Ruby] 将 GArrowSortKey::name 重命名为 ::target
- ARROW-14804 - [R] import_from_c() / export_to_c() 方法应接受外部指针
- ARROW-14807 - [R] 实现 lubridate am 和 pm 的绑定
- ARROW-14816 - [R] 实现 lubridate::mday 的绑定
- ARROW-14822 - [C++] 为时间对象实现 floor/ceil/round
- ARROW-14823 - [R] 实现 lubridate::leap_year 的绑定
- ARROW-14842 - [C++] 改进 Decimal 的精度范围错误消息
- ARROW-14843 - [R] 实现
decimal128()
(替换decimal()
) - ARROW-14844 - [R] 实现 decimal256()
- ARROW-14849 - [R] 更新安装脚本中的消息传递
- ARROW-14850 - [R] 将 ARROW_DEPENDENCY_SOURCE 更新为默认 AUTO
- ARROW-14857 - [CI][Homebrew] 添加 apache-arrow-glib 公式
- ARROW-14858 - [R][CI] 不要在 ubuntu 21.04 上构建额外的依赖项
- ARROW-14880 - [CI][C++] 在 MacOS 构建上启用 ccache
- ARROW-14897 - [CI][C++] 将 Clang Tools 从 8 升级到 12
- ARROW-14899 - [C++] 实现 GcsInputStream::GetMetadata
- ARROW-14903 - [C++] 启用 CSV 编写器以控制用于缺失数据的字符串
- ARROW-14905 - [C++] 启用 CSV 编写器以处理引号
- ARROW-14907 - [C++] 启用 CSV 编写器以控制行尾字符
- ARROW-14910 - [R][CI] 使用 dev duckdb 在内存小于 8GB 的情况下构建
- ARROW-14912 - [C++] 实现 GcsFileSystem::CopyFile
- ARROW-14913 - [C++] 实现 GcsFileSystem::DeleteFile
- ARROW-14914 - [C++] gcsfs 将不实现 DeleteRootDirContents
- ARROW-14915 - [C++] 实现 GcsFileSystem::DeleteDirContents
- ARROW-14916 - [C++] GcsFileSystem 可以删除目录
- ARROW-14917 - [C++] 实现 GcsFileSystem::CreateDir
- ARROW-14918 - [C++] 实现 GcsFileSystem::GetFileInfo(FileSelector)
- ARROW-14920 - [C++] 使用字母顺序
- ARROW-14924 - [C++] GcsFileSystem 的通用 fs 测试
- ARROW-14926 - [文档] 修复版本下拉列表可见性的 CSS
- ARROW-14929 - [CI] 修复 kartothek 集成构建(安装新依赖项)
- ARROW-14932 - [CI] 优先使用 mamba 而不是 conda
- ARROW-14935 - [Ruby] 添加 GArrowTemporalDataType
- ARROW-14940 - [C++] 使用长 CSV 单元格加速 CSV 解析器
- ARROW-14941 - [R] 实现 Duration R6 类和 lubridate::duration() 的绑定
- ARROW-14957 - [C++] 将 OpenTelemetry 更新到 v1.1.0
- ARROW-14961 - [C++] 提升 google benchmark 版本
- ARROW-14968 - [Python] 使用 oldest-supported-numpy 固定 numpy 构建依赖项
- ARROW-14969 - [C++][Python] 取消弃用 FileSystem::OpenAppendStream
- ARROW-14971 - [C++] 实现 GcsFileSystem::Move
- ARROW-14975 - [文档] 修复 emit_dictionary_deltas 文档中的错别字
- ARROW-14976 - [开发][Archery] 如果未找到基准测试,则尽早失败
- ARROW-14977 - [Python] 为指南教程添加一个“虚构的”功能
- ARROW-14981 - [CI][文档] 上传构建的文档
- ARROW-14984 - [CI][Debian] 缺少 rsync
- ARROW-14985 - [CI][Go] 使用 Go 1.16
- ARROW-14986 - [发布][文档] 使用 Crossbow 构建的工件
- ARROW-14990 - [CI] 修复夜间 dask 集成构建(确保已安装 pandas)
- ARROW-14992 - [R] 安装无法在 Pop! OS 上使用预构建的 Arrow 二进制文件
- ARROW-15005 - [C++] 使用 Neon 改进 csv 解析器
- ARROW-15010 - [R] 为我们的 NSE 函数创建一个函数注册表
- ARROW-15019 - [Python] 为新的数据集写入选项添加绑定
- ARROW-15022 - [R] 安装小插图和安装开发小插图需要图像的替代文本
- ARROW-15029 - [C++] 分割 compute/kernels/scalar_string.cc
- ARROW-15032 - [C++] 添加 year_month_day 函数
- ARROW-15036 - [C++] 自动配置 S3 SDK 配置参数“maxConnections”
- ARROW-15038 - [打包][CentOS] 放弃对 CentOS 8 的支持
- ARROW-15043 - [Python][文档] 在 pandas <-> arrow 的类型转换表中包含 time64
- ARROW-15044 - [C++] 添加用于调试的 OpenTelemetry 导出器
- ARROW-15049 - [R] arrowExports.cpp 生成随 glue 包 1.5.1 发生更改
- ARROW-15055 - [C++] 重构 GcsFileSystem 测试
- ARROW-15056 - [C++] 加速 GcsFileSystem 测试
- ARROW-15057 - [R][CI] 将我们在 CI 中安装 DuckDB 的位置移动
- ARROW-15058 - [Java] 删除性能模块中的 log4j2 依赖项
- ARROW-15070 - [Python][C++][R][文档] 在数据集文档中添加关于缺乏 ACID 保证的通用声明
- ARROW-15074 - [格式] 阐明 LZ4 包含单个帧
- ARROW-15077 - [Python] 将 Expression 类从 _dataset 移动到 _compute cython 模块
- ARROW-15082 - [R] 清理一个额外的 duration 映射条目
- ARROW-15084 - [C++] GcsFileSystem 的公共工厂函数
- ARROW-15085 - [C++] 支持 GcsFileSystem 中的凭据类型
- ARROW-15087 - [Python][文档] 记录 MapArray 并将父类更新为 ListArray
- ARROW-15091 - [C++][文档] 记录 C++ 流式执行引擎中的节点
- ARROW-15095 - [开发][网站] 更改日志生成应使用提交消息
- ARROW-15096 - [R] 持续时间类型的 Sanitizer 失败
- ARROW-15099 - [C++] 改进 GcsFileSystem::GetFileInfo
- ARROW-15100 - [CI] 默认停止使用 Python 3.6
- ARROW-15103 - [文档][C++] 构建文档时出错:“arrow/cpp/src/arrow/csv/options.h:182: error: Found unknown command ‘\r’ ”
- ARROW-15109 - [Python] 添加 show_info() 以打印构建、组件和系统信息
- ARROW-15110 - [C++][Gandiva] 恢复 Gandiva 缓存策略的更改
- ARROW-15112 - [C++][FlightRPC][集成][Java] 实现 Flight RPC 集成测试
- ARROW-15113 - [C++] 使 GcsFileSystem 测试更快一些
- ARROW-15114 - [C++] GcsFileSystem 使用元数据作为目录标记
- ARROW-15115 - [C++] 如果使用关闭的流,则 GcsFileSystem 返回错误
- ARROW-15116 - [Python] 为 CSV 阅读器公开 invalid_row_handler
- ARROW-15119 - [C++] 允许在通用测试中将目录作为文件读取
- ARROW-15121 - [C++] 在 GcsFileSystem 上实现最大递归
- ARROW-15122 - [R] 在 snappy 上限定 parquet 测试
- ARROW-15126 - [C++] 支持 Null 类型作为分组键
- ARROW-15127 - [R] AWS_EC2_METADATA_DISABLED=TRUE 的更可见的文档
- ARROW-15133 - [CI] 删除 util_checkout.sh 和 util_cleanup.sh 脚本
- ARROW-15134 - [GLib] 添加 GArrow{Month,DayTime,MonthDayNano}IntervalDataType
- ARROW-15136 - [C++] 使 S3FS 测试更快
- ARROW-15137 - [开发] 更新 archery crossbow latest-prefix 以使用夜间日期
- ARROW-15138 - [C++] 使 ExecPlan::ToString 提供一些其他信息
- ARROW-15140 - [CI] 移动到 GHA 的 checkout v2
- ARROW-15150 - [文档] 添加有关分区数据集的指南
- ARROW-15153 - [Python] 将 ReferencedBufferSize 公开给 python
- ARROW-15154 - [R] 将 ReferencedBufferSize 公开给 R
- ARROW-15165 - [Python] 暴露函数以解析 S3 存储桶区域
- ARROW-15166 - [C++] 为 decimal256 启用过滤器
- ARROW-15169 - [Python][R] 避免不安全的 Python-R 指针传递
- ARROW-15172 - [Go] 为 Arrow-math 添加 Arm64 Neon 实现
- ARROW-15173 - [R] 为桥接到旧版本 pyarrow 提供向后兼容性
- ARROW-15187 - [Java][FlightRPC] 修复新 flight-sql 模块的 pom.xml 文件
- ARROW-15188 - [C++] 升级捆绑的 re2 库版本
- ARROW-15189 - [C++] 升级捆绑的 utf8proc 版本
- ARROW-15190 - [C++] 升级捆绑的 zstd 版本
- ARROW-15193 - [R][文档] 更新 R 绑定文档
- ARROW-15198 - [C++][FlightRPC] 修复 Flight SQL 中的 unity 构建错误
- ARROW-15203 - [GLib] garrow_struct_scalar_get_value() 从 C++ 返回标量值
- ARROW-15204 - [GLib] 添加 Arrow::RoundOptions
- ARROW-15205 - [GLib] 添加 garrow_function_all()
- ARROW-15207 - [GLib] 使用 Meson 的默认 -Dwerror=
- ARROW-15216 - [GLib] 添加 Arrow::RoundToMultipleOptions
- ARROW-15218 - [C++] 为 indices_nonzero 计算函数添加 decimal 支持
- ARROW-15219 - [Python] 导出 random 计算函数
- ARROW-15220 - [C++] 删除位块计数器操作的 bool 特化
- ARROW-15232 - [打包][deb] 对 libarrow.so 禁用 DWARF 优化
- ARROW-15235 - [R] 放弃对 R 3.3 的支持
- ARROW-15244 - [格式] 澄清二进制类数组的偏移量是单调的
- ARROW-15245 - [Go] 解决大部分 staticcheck linting 问题。
- ARROW-15248 - [C++][文档] 改进有关 linting/格式化的文档
- ARROW-15249 - [R] Autobrew + AWS sdk 依赖
- ARROW-15267 - [GLib] 添加 garrow_function_get_default_options()
- ARROW-15268 - [打包][deb] 不要使用 gi 快捷方式
- ARROW-15269 - [C++][文档] 澄清并非所有计算函数都可以通过 CallFunction 调用
- ARROW-15273 - [GLib] 添加 garrow_function_get_options_type()
- ARROW-15274 - [Ruby] 提高 Arrow::Function#execute 的可用性
- ARROW-15279 - [R] 基于用户反馈更新“编写绑定”开发文档
- ARROW-15288 - [GLib] 添加 garrow_execute_plan_build_hash_join_node()
- ARROW-15295 - [R] 将 6.0.0 添加到我们要检查的旧版本中
- ARROW-15300 - [C++] 为异步数据集接口更新 Skyhook
- ARROW-15302 - [R] 放弃 R 3.3 支持的后续工作
- ARROW-15303 - [R] linting 错误
- ARROW-15316 - [R] 创建一个单函数指针函数
- ARROW-15320 - [Go] 使用 Arm64 GoLang 程序集实现 memset_neon
- ARROW-15322 - [文档][Go] 更新 Go 文档的侧边栏链接。
- ARROW-15327 - [R] 更新 7.0.0 的新闻
- ARROW-15331 - [Go][Parquet] 添加 pqarrow 包以进行直接 Parquet <–> Arrow 转换
- ARROW-15332 - [C++] 在 IPC 读取/写入基准测试中添加新案例并修复问题
- ARROW-15334 - [CI][GLib][Windows] 使用 Ruby 3.1
- ARROW-15336 - [Go] 使用 Arm64 GoLang 程序集实现 'min_max_neon'
- ARROW-15337 - [文档] 新的贡献者指南更新
- ARROW-15338 - [Python] 添加
pyarrow.orc.read_table
API - ARROW-15339 - [网站] 添加 Skyhook 博客文章
- ARROW-15343 - [文档][指南] 简介和清单 - 小的更正
- ARROW-15344 - [文档][指南] 通信 - 小的更正
- ARROW-15345 - [文档][指南] 查找 JIRA 问题 - 小的更正
- ARROW-15355 - [文档] 在文档更改时触发 sphinx 构建
- ARROW-15356 - [Ruby] 添加对 .arrows 扩展名的支持
- ARROW-15373 - [C++] 从 MemoryManager::AllocateBuffer 返回 unique_ptr
- ARROW-15374 - [C++][FlightRPC] 添加对替代 MemoryManagers 的支持
- ARROW-15381 - [C#] 提升 C# Arrow.Flight 的依赖项并允许 netstandard2.0
- ARROW-15383 - [发布] 添加用于更新 MSYS2 包的脚本
- ARROW-15387 - [R] 取消对 decimal256() 的 chunked array 测试的跳过
- ARROW-15390 - [开发][C++][文档] 文档化 GDB 扩展
- ARROW-15399 - [发布][JS] 将最低 NodeJS 版本提高到 16
- ARROW-15416 - [Python] 添加跳过 gdb 测试的选项
- ARROW-15423 - [C++][开发] 使 GDB 插件自动加载友好
- ARROW-15435 - [C++][文档] 改进 API 文档覆盖率
- ARROW-15436 - [发布][Python] 在 apple M1 上禁用不稳定的 csv::test_cancellation 测试
- ARROW-15439 - [发布] 在发布后更新 .deb/.rpm 更新日志
- ARROW-15448 - [C++] 使用 Apache 镜像系统下载 ORC 的源代码
- ARROW-15457 - [打包][deb] 显式指定 CUDAToolkit_ROOT
- ARROW-15463 - [GLib] 添加 arrow::compute::Utf8NormalizeOptions 绑定
- ARROW-15495 - [C++][FlightRPC] 要求 Protobuf/gRPC SOURCEs 匹配
- ARROW-15505 - [C++][Compute] 支持产品聚合中的 Null 类型
- PARQUET-492 - [C++][Parquet] 对读取 DELTA_BYTE_ARRAY 数据提供基本支持。