Apache Arrow 6.0.0 (2021 年 10 月 26 日)
这是一个主要的版本发布,涵盖了 3 个多月的开发工作。
下载
贡献者
此版本包含来自 88 位不同贡献者的 592 次提交。
58 David Li
56 Antoine Pitrou
46 Neal Richardson
42 Sutou Kouhei
38 Jonathan Keane
34 Krisztián Szűcs
27 Matthew Topol
26 Nic Crane
23 Andrew Lamb
22 Joris Van den Bossche
21 Weston Pace
16 Alessandro Molina
15 Yibo Cai
10 Eduardo Ponce
9 Benson Muite
9 Rok
9 Micah Kornfield
8 liyafan82
8 michalursa
8 Benjamin Kietzman
8 Carlos O'Ryan
8 Ben Chambers
8 Navin
7 Alexander
7 Jiayu Liu
6 Phillip Cloud
5 Dominik Moritz
5 Percy Camilo Triveño Aucahuasi
5 Ian Cook
5 karldw
5 Wakahisa
4 Ruihang Xia
4 Nate Clark
4 Bryan Cutler
4 Dragos Moldovan-Grünfeld
4 Romain Francois
3 Daniël Heres
3 Matthew Turner
3 Sumit
3 Alenka Frim
3 okadakk
3 Laurent Goujon
3 Keith Kraus
3 Rommel Quintanilla
3 Roee Shlomo
2 Boaz
2 Chojan Shang
2 Ilya Biryukov
2 Markus Westerlind
2 Sergii Mikhtoniuk
2 Wang Fenjin
2 baishen
2 Fernando Rodriguez
2 João Pedro
2 Junwang Zhao
2 Takashi Hashida
2 William Butler
2 christian
2 darion.yaphet
2 frank400
2 jreid
2 rvernica
2 Jorge C. Leitao
1 Pachamaltese
1 Itamar Turner-Trauring
1 Projjal Chanda
1 Qingping Hou
1 Hongze Zhang
1 Eric Erhardt
1 ElenaHenderson
1 Sasha Krassovsky
1 Shoichi Kagawa
1 Eduard Tudenhoefner
1 Tahsin Hassan
1 niranda perera
1 Ted Dunning
1 Tim Swast
1 Wes McKinney
1 Dongjoon Hyun
1 Carol (Nichols || Goulding)
1 Christian Williams
1 Felix Yan
1 Andrey Klochkov
1 William Hyun
1 William Malpica
1 Dmitry Kalinkin
1 rodrigojdebem
1 czxrrr
1 wuzhuoming
1 seidl
1 jeremyd2019
1 shanhuuang
1 Dewey Dunnington
1 kharoc
1 lixiang.li
1 Daniel Rodriguez
1 Anthony Louis
1 neil
1 Matt Peterson
1 Kevin Gurney
1 Nathanaël Leaute
1 Kazuaki Ishizaki
1 Jiajun Yao
1 James Bourbeau
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
159 Antoine Pitrou
81 Neal Richardson
73 Sutou Kouhei
73 Andrew Lamb
49 Krisztián Szűcs
49 Jonathan Keane
43 David Li
24 Benjamin Kietzman
21 Matt Topol
18 Joris Van den Bossche
17 Micah Kornfield
16 Wakahisa
13 Weston Pace
13 Yibo Cai
7 Praveen
6 Nic Crane
6 Daniël Heres
4 Ian Cook
3 Phillip Cloud
3 Eric Erhardt
3 Bryan Cutler
3 Dominik Moritz
3 QP Hou
2 liyafan82
2 Chao Sun
更新日志
Apache Arrow 6.0.0 (2021-10-26)
新功能和改进
- ARROW-1565 - [C++][计算] 实现 TopK/BottomK
- ARROW-1568 - [C++] 实现返回不包含 null 值的数组的 “drop null” 内核
- ARROW-4333 - [C++] 在计算层中勾勒出内核和“查询”执行的设计
- ARROW-4700 - [C++] 向 arrow::json::TableReader 添加 DecimalType 支持
- ARROW-5002 - [C++] 实现哈希聚合查询执行节点
- ARROW-5244 - [C++] 审查实验性/不稳定的 API
- ARROW-6072 - [C++] 实现 List <-> LargeList 的转换
- ARROW-6607 - [Python] 从 Pandas 转换时支持 set/list 列
- ARROW-6626 - [Python] 将嵌套的“set”值作为列表转换为 Arrow 时进行处理
- ARROW-6870 - [C#] 添加对字典数组和字典编码的支持
- ARROW-7102 - [Python] 使文件系统与 fsspec 兼容
- ARROW-7179 - [C++][计算] 合并 fill_null 和 coalesce
- ARROW-7901 - [集成][Go] 添加 null 类型(和集成测试)
- ARROW-8022 - [C++] 提供或供应商一个 small_vector 实现
- ARROW-8147 - [C++] 将 google-cloud-cpp 添加到 ThirdpartyToolchain
- ARROW-8379 - [R] 调查/修复线程安全问题(尤其是 Windows)
- ARROW-8621 - [发布][Go] 通过创建标签添加模块支持
- ARROW-8780 - [Python] pyarrow.fs 文件系统的 fsspec 兼容包装器
- ARROW-8928 - [C++] 测量与 ExecBatchIterator 相关的微性能
- ARROW-9226 - [Python] pyarrow.fs.HadoopFileSystem - 如果可用,从 core-site.xml 或 hdfs-site.xml 中检索选项
- ARROW-9434 - [C++] 将 type_code 信息存储在 UnionScalar::value 中
- ARROW-9719 - [文档][Python] 更好地记录新的 pa.fs.HadoopFileSystem
- ARROW-10094 - [Python][文档] 更新 pandas 文档
- ARROW-10415 - [R] 支持 dplyr::distinct()
- ARROW-10898 - [C++] 调查表排序性能
- ARROW-11238 - [Python] 使 SubTreeFileSystem 打印方法更具信息性
- ARROW-11243 - [C++] 从字符串解析 time32 并在 CSV 读取器中推断
- ARROW-11460 - [R] 如果 Linux 上存在系统库,则使用它们
- ARROW-11691 - [开发][CI] 为与基准测试相关的环境变量提供一个统一的 .env 文件
- ARROW-11748 - [C++] 确保 Decimal128 和 Decimal256 的字段采用本机字节序
- ARROW-11828 - [C++] 在 api 中公开 CSVWriter 对象
- ARROW-11885 - [R] 当 LIBARROW_MINIMAL=true 时关闭某些功能
- ARROW-11981 - [C++][数据集][计算] 用 Union ExecNode 替换 UnionDataset
- ARROW-12063 - [C++] 向排序函数添加 null 位置选项
- ARROW-12181 - [C++][R] test-dataset.R 中的“CSV 数据集”在 RTools 3.5 上失败
- ARROW-12216 - [R] 在 RTools3.5 (32 位?) 上主动禁用多线程
- ARROW-12359 - [C++] 弃用或删除 FileSystem::OpenAppendStream
- ARROW-12388 - [C++][Gandiva] 在 Gandiva 中实现从 varbinary 函数转换数字
- ARROW-12410 - [C++][Gandiva] 在 Gandiva 上实现 regexp_replace 函数
- ARROW-12479 - [C++][Gandiva] 实现 castBigInt、castInt、castIntervalDay 和 castIntervalYear 额外函数
- ARROW-12563 - 添加用于字符串的 space、add_months 和 datediff 函数
- ARROW-12615 - [C++] 为 stddev 和 variance 添加处理 NA 的选项
- ARROW-12650 - [文档][Python] 改进有关处理内存映射文件的文档
- ARROW-12657 - [C++][Python][计算] 字符串十六进制到数字的转换和位移
- ARROW-12669 - [C++] 返回 ListArray 中列表索引处的元素数组的内核
- ARROW-12673 - [C++] 为列计数不正确的行配置自定义处理程序
- ARROW-12688 - [R] 使用 DuckDB 查询 Arrow 数据集
- ARROW-12714 - [C++] 字符串标题大小写内核
- ARROW-12725 - [C++][计算] GroupBy:仅当将键插入哈希表时才通过行格式编码键来提高性能
- ARROW-12728 - [C++][计算] 实现 count_distinct/distinct 哈希聚合内核
- ARROW-12744 - [C++][计算] 添加舍入内核
- ARROW-12759 - [C++][计算] 将分组聚合包装在 ExecNode 中
- ARROW-12763 - [R] 优化在 arrange 之后使用 head/tail 的 dplyr 查询
- ARROW-12846 - [发布] 改进二进制文件的上传
- ARROW-12866 - [C++][Gandiva] 在 Gandiva 上实现 STRPOS 函数
- ARROW-12871 - [R] 升级到 testthat 3e
- ARROW-12876 - [R] 修复 Raspberry Pi 上的构建标志
- ARROW-12944 - [C++] 字符串首字母大写内核
- ARROW-12946 - [C++] 字符串交换大小写内核
- ARROW-12953 - [C++][计算] 重构 CheckScalar* 以接受 Datum 参数
- ARROW-12959 - [C++][R] 将 is_null(NaN) 的选项评估为 true
- ARROW-12965 - [Java] Arrow C 数据接口的 Java 实现
- ARROW-12980 - [C++] 用于提取日期时间组件的内核应了解时区
- ARROW-12981 - [R] 仅从 CRAN 安装源包
- ARROW-13033 - [C++] 将朴素时间戳本地化到时区(保留时钟时间)的内核
- ARROW-13056 - [开发][MATLAB] 为支持的语言扩展 PR 标签器
- ARROW-13067 - [C++][计算] 实现整数到十进制的转换
- ARROW-13089 - [Python] 允许从 Python dict 创建 RecordBatch
- ARROW-13112 - [R] 用于字符串和其他类型的 altrep 向量
- ARROW-13132 - [C++] 添加标量验证
- ARROW-13138 - [C++] 实现从日期类型对象中提取日期时间组件(年、月、日等)的内核
- ARROW-13141 - [C++][Python] HadoopFileSystem:根据 HADOOP_HOME 环境变量自动设置 CLASSPATH?
- ARROW-13163 - [C++][Gandiva] 在 Gandiva 上实现 REPEAT 函数
- ARROW-13164 - [R] 来自具有 null 值的数组的 altrep 向量
- ARROW-13172 - [Java] 使 Vector 中的 TYPE_WIDTH 公开
- ARROW-13174 - [C++][计算] 添加 strftime 内核
- ARROW-13202 - [MATLAB] 在 Linux 上为 MATLAB 接口启用 GitHub Actions CI
- ARROW-13218 - [文档] 记录/阐明时间戳存储的约定
- ARROW-13220 - [C++] 添加一个 ‘choose’ 内核/标量计算函数
- ARROW-13222 - [C++] 在 case_when 函数中支持可变宽度类型
- ARROW-13227 - [C++][计算] 记录 ExecNode、ExecPlan
- ARROW-13257 - [Java][数据集] 允许传递用于投影的空列
- ARROW-13260 - [文档] 托管不同发布的文档版本 + 版本切换器
- ARROW-13268 - [C++][计算] 为半连接和反半连接添加 ExecNode
- ARROW-13279 - [R] 在 wday 实现中使用 C++ DayOfWeekOptions,而不是通过 Expression 手动计算
- ARROW-13287 - [C++] [Dataset] FileSystemDataset::Write 应该使用异步扫描
- ARROW-13295 - [C++] 实现 hash_aggregate 平均值/标准差/方差内核
- ARROW-13298 - [C++] 实现 hash_aggregate any/all 布尔内核
- ARROW-13307 - [C++] 移除基于反射的枚举(原:为计算选项使用基于反射的枚举)
- ARROW-13311 - [C++][文档] 在某处列出哈希聚合内核
- ARROW-13317 - [Python] 改进 ‘read_feather’ 中 ‘use_threads’ 的作用的文档
- ARROW-13326 - [R] [Archery] 添加 linting 到 dev CI
- ARROW-13327 - [Python] 提高 PyArrow 文件中显式 C++ 类型的一致性
- ARROW-13330 - [Go][Parquet] 添加编码包第二部分
- ARROW-13344 - [R] ExecPlan/ExecNode 的初始绑定
- ARROW-13345 - [C++] 实现 logN 计算函数
- ARROW-13358 - [C++] 扩展 if_else 内核的类型支持
- ARROW-13379 - [Dev][文档] 改进 archery 文档
- ARROW-13390 - [C++] 改进 ‘coalesce’ 内核的类型支持
- ARROW-13397 - [R] 更新 arrow.Rmd 小插曲
- ARROW-13399 - [R] 更新 dataset.Rmd 小插曲
- ARROW-13402 - [R] 更新 flight.Rmd 小插曲
- ARROW-13403 - [R] 更新 developing.Rmd 小插曲
- ARROW-13404 - [Python] [文档] 使 Python 登录页面与 arrow 文档的其余部分解耦
- ARROW-13405 - [文档] 使“库”成为文档的入口点
- ARROW-13416 - [C++] 实现 mod 计算函数
- ARROW-13420 - [JS] 更新依赖
- ARROW-13421 - [C++] 添加功能,用于从以逗号作为小数分隔符的定界文件中读取列为浮点数
- ARROW-13433 - [R] 从 Valgrind 测试中移除 CLI hack
- ARROW-13434 - [R] 使用未命名表达式的 group_by()
- ARROW-13435 - [R] 添加函数 arrow_table() 作为 Table$create() 的别名
- ARROW-13444 - [C++] 通过将 std::result_of 更新为 std::invoke_result 来实现 C++20 兼容性
- ARROW-13448 - [R] strftime 的绑定
- ARROW-13453 - [R] DuckDB 尚未发布 0.2.8
- ARROW-13455 - [C++][文档] RecordBatch::SetColumn 中的拼写错误
- ARROW-13458 - [C++][文档] RecordBatch::schema 中的拼写错误
- ARROW-13459 - [C++][文档] RecordBatch::SetColumn 缺少参数文档
- ARROW-13461 - [Python][打包] 为 python 3.8 构建 M1 wheels
- ARROW-13463 - [Release][Python] 验证 python 3.8 macOS arm64 wheel
- ARROW-13465 - [R] 从 duckdb 到 to_arrow()
- ARROW-13466 - [R] 如果无法安装 Arrow C++ 依赖项,则使安装失败
- ARROW-13468 - [Release] 修复二进制下载/上传失败
- ARROW-13472 - [R] 删除 .engine = “duckdb” 参数
- ARROW-13475 - [Release] 清理旧版本时不要考虑 rust tarballs
- ARROW-13476 - [文档][Python] 确保 ipc/io 文档使用上下文管理器而不是手动关闭流
- ARROW-13478 - [Release] 版本提升发布后脚本不必要的 rc-number 参数
- ARROW-13480 - [C++] [R] [Python] Dataset SyncScanner 可能在错误时冻结
- ARROW-13482 - [C++][Compute] 为 ExecNode 实现提供注册表
- ARROW-13485 - [Release] 在 r/NEWS.md 中将 ${PREVIOUS_RELEASE}.9000 替换为 post-12-bump-versions.sh
- ARROW-13488 - [网站] 更新 5.0.0 的 Linux 软件包安装信息
- ARROW-13489 - [R] 在 5.0.0 之后提升 CI 作业
- ARROW-13501 - [R] 计数聚合的绑定
- ARROW-13502 - [R] 最小/最大聚合的绑定
- ARROW-13503 - [GLib][Ruby][Flight] 添加对 DoGet 的支持
- ARROW-13506 - 将 ORC 升级到 1.6.9
- ARROW-13508 - [C++] 允许将自定义 RetryStrategy 对象传递给 S3FileSystem
- ARROW-13510 - [CI][R][C++] 将 -Wall 添加到 fedora-clang-devel as-cran 检查
- ARROW-13511 - [CI][R] 如果 R 依赖项未安装,则在 docker 构建步骤中失败
- ARROW-13516 - [C++] Mingw-w64 + Clang (lld) 不支持 –version-script
- ARROW-13519 - [R] 使文档示例减少噪音
- ARROW-13520 - [C++] 实现 hash_aggregate 近似分位数内核
- ARROW-13521 - [C++][文档] 在计算函数文档中添加关于 tdigest 的说明
- ARROW-13525 - [Python] 在 ParquetDataset 属性的弃用消息中提及替代方案
- ARROW-13528 - [R] 平均值、方差、标准差聚合的绑定
- ARROW-13532 - [C++][Compute] Join:向分组器添加集合成员测试方法
- ARROW-13534 - [C++] 改进 csv 分块器
- ARROW-13540 - [C++][Compute] 添加 OrderByNode 以在 ExecPlan 中对行进行排序
- ARROW-13541 - [C++][Python] 实现 ExtensionScalar
- ARROW-13542 - [C++][Compute][Dataset] 添加 dataset::WriteNode,用于将 ExecPlan 中的行写入磁盘
- ARROW-13544 - [Java] 删除长期弃用的 API
- ARROW-13544 - [Java] 删除长期弃用的 API
- ARROW-13544 - [Java] 删除长期弃用的 API
- ARROW-13548 - [C++] 实现 datediff 内核
- ARROW-13549 - [C++] 实现提取值的 timestamp 到 date/time 的转换
- ARROW-13550 - [R] 支持 dplyr::summarize() 的 .groups 参数
- ARROW-13552 - [C++] 删除已弃用的 API
- ARROW-13557 - [打包][Python] 在 M1 上跳过 test_cancellation 测试用例
- ARROW-13561 - [C++] 实现接受 WeekOptions 的 week 内核
- ARROW-13562 - [R] Styler 后续工作
- ARROW-13565 - [打包][Ubuntu] 放弃对 20.10 的支持
- ARROW-13572 - [C++][Python] 向 pyarrow.datasets API 添加基本的 ORC 支持
- ARROW-13573 - [C++] 在 case_when 内核中直接支持字典
- ARROW-13574 - [C++] 向 count(哈希)聚合内核添加“计数所有”选项
- ARROW-13575 - [C++] 实现 product 聚合 & 哈希聚合内核
- ARROW-13576 - [C++][Compute] 将 ExecNode::InputReceived 替换为 ::MakeTask
- ARROW-13577 - [Python][FlightRPC] pyarrow 客户端 do_put 在 write_table 之后未抛出 flight 错误
- ARROW-13585 - [GLib] 添加对 C ABI 接口的支持
- ARROW-13587 - [R] 处理 –use-LTO 覆盖
- ARROW-13595 - [C++] 添加用于计算内核输出类型的调试模式检查
- ARROW-13604 - [Java] 删除代表不支持操作的 API 的弃用注释
- ARROW-13606 - [R] 实际禁用 LTO
- ARROW-13613 - [C++] 实现小数的求和/平均值聚合
- ARROW-13614 - [C++] 实现小数的最小/最大聚合
- ARROW-13618 - [R] 默认情况下对 summarize() 使用 Arrow 引擎
- ARROW-13620 - [R] n_distinct() 的绑定
- ARROW-13626 - [R] log base b 的绑定
- ARROW-13627 - [C++] ScalarAggregateOptions 没有意义(在哈希聚合中)
- ARROW-13629 - [Ruby] 添加对构建/转换 map 的支持
- ARROW-13633 - [打包][Debian] 添加对 bookworm 的支持
- ARROW-13634 - [R] 更新 nixlibs.R 中的 distro(),将“bookworm”映射到 12
- ARROW-13635 - [打包][Python] 在 arm manylinux 构建中为 jemalloc 定义 –with-lg-page
- ARROW-13637 - [Python][文档] 使文档字符串符合相同的样式
- ARROW-13642 - [C++][Compute] 实现多对多内部哈希连接
- ARROW-13645 - [Java] 允许 NullVectors 具有不同的字段名称
- ARROW-13646 - [Go][Parquet] 添加元数据包
- ARROW-13648 - [Dev] 尽可能使用 #!/usr/bin/env 而不是 #!/bin
- ARROW-13650 - [C++] 创建数据集编写器以封装数据集编写器逻辑
- ARROW-13651 - [Ruby] 添加对将 [Symbol] 转换为 Arrow 数组的支持
- ARROW-13652 - [Python] 在 Python 中公开 CopyFiles 实用程序
- ARROW-13660 - [C++][Compute] 删除 `seq` 作为 ExecNode::InputReceived 的参数
- ARROW-13670 - [C++] 进行一轮编译器警告清理
- ARROW-13674 - [开发][CI] PR 检查工作流应该检查 JIRA 组件
- ARROW-13675 - [文档][Python] 在 Cookbook 中添加如何保存分区数据集的配方
- ARROW-13679 - [GLib][Ruby] 添加对分组聚合的支持
- ARROW-13680 - [C++] 创建一个异步 nursery 以简化捕获逻辑
- ARROW-13682 - [C++] 添加 TDigest::Merge(const TDigest&)
- ARROW-13684 - [C++][Compute] Strftime 内核后续
- ARROW-13686 - [Python] 更新已弃用的 pytest yield_fixture 函数
- ARROW-13687 - [Ruby] 添加通过 Arrow Dataset 加载表的支持
- ARROW-13691 - [C++] 向 VarianceOptions 添加处理 NA 的选项
- ARROW-13693 - [网站] arrow-site 应该固定一个特定的 Ruby 版本并利用 rbenv 等工具
- ARROW-13696 - [Python] 支持带字段的 MapType
- ARROW-13699 - [Python][文档] 重构 FileSystem 接口文档
- ARROW-13700 - [文档][C++] 澄清 DayOfWeekOptions 参数
- ARROW-13702 - [Python] test_parquet_dataset_deprecated_properties 缺少数据集标记
- ARROW-13704 - [C#] 添加读取流式格式增量字典的支持
- ARROW-13705 - [网站] 固定 node 版本
- ARROW-13721 - [文档][Cookbook] 指定 Schema - Python
- ARROW-13733 - [Java] 允许 JDBC 适配器重用向量模式根
- ARROW-13734 - [格式] 澄清时间类型允许的值
- ARROW-13736 - [C++] 协调 PrettyPrint 和 StringFormatter
- ARROW-13737 - [C++] 支持哈希聚合中的标量列(原:标量列上的 hash_sum 导致段错误)
- ARROW-13739 - [R] 支持 dplyr::count() 和 tally()
- ARROW-13740 - [R] summarize() 不应过早求值
- ARROW-13757 - [R] 修复 CRAN 补丁版本 C++ 源代码的下载
- ARROW-13759 - [C++] 更新 linting 和格式化脚本以在 shebang 行中指定 python3
- ARROW-13760 - [C++] 当启用 Flight 时,将 Protobuf 版本提升至 3.15
- ARROW-13764 - [C++] 为 count_distinct (分组) 实现 ScalarAggregateOptions
- ARROW-13768 - [R] 允许 JSON 作为可选组件
- ARROW-13772 - [R] median() 和 quantile() 聚合函数的绑定
- ARROW-13776 - [C++] 离线 thirdparty versions.txt 缺少某些文件的扩展名
- ARROW-13777 - [R] group_by 后的 mutate 只要只有标量函数就可以
- ARROW-13778 - [R] 处理复杂的 summarize 表达式
- ARROW-13782 - [C++] 向 TDigest、Index、Mode、Quantile 聚合添加处理 NA 的选项
- ARROW-13783 - [Python] 改进 Table.to_string (以及可能 __repr__) 以预览表的数据
- ARROW-13785 - [C++] ExecPlan 和 ExecNode 的打印方法
- ARROW-13787 - [C++] 验证第三方下载
- ARROW-13789 - [Go] 为 Go 实现 Arrow 标量值
- ARROW-13793 - [C++] 将 ORCFileReader 迁移到 Result<T>
- ARROW-13794 - [C++] 弃用 Parquet 伪版本 “2.0”
- ARROW-13797 - [C++] 在 Datasets API 中实现列投影下推到 ORC 读取器
- ARROW-13803 - [C++] 过滤出租车数据集时发生段错误
- ARROW-13804 - [Go] 添加对 Interval 类型 Month, Day, Nano 的支持
- ARROW-13806 - [Python] 添加 Month, Day Nano Interval 类型与 Pandas/Python 的相互转换
- ARROW-13809 - [C ABI] 为 C-ABI 添加对 Month, Day, Nanosecond interval 类型的支持
- ARROW-13810 - [C++][Compute] Predicate IsAsciiCharacter 允许无效类型和值
- ARROW-13815 - [R] 适应 rlang 中新的调用堆栈更改
- ARROW-13816 - [Go] 为 C 数据接口实现 Consumer API
- ARROW-13820 - [R] 将 na.min_count 重命名为 min_count,将 na.rm 重命名为 skip_nulls
- ARROW-13821 - [R] 在 sd, var 绑定中处理 na.rm
- ARROW-13823 - 从 git 和 RAT 插件中排除 .factorypath
- ARROW-13824 - [C++][Compute] 使 BooleanToNumber 内核成为 constexpr
- ARROW-13831 - [GLib][Ruby] 添加通过 Arrow Dataset 写入的支持
- ARROW-13835 - [Python] 文档化统一 schema 的实用工具
- ARROW-13842 - [C++] 提升 vendored date 库版本
- ARROW-13843 - [C++][CI] 在模糊测试设置中练习 ToString / PrettyPrint
- ARROW-13845 - [C++] 协调 RandomArrayGenerator::ArrayOf 变体
- ARROW-13847 - 避免不必要的集合副本
- ARROW-13849 - [C++] 添加 min 和 max 聚合函数
- ARROW-13852 - [R] 在 ExecPlan 中处理 Dataset schema 元数据
- ARROW-13853 - [R] 字符串 to_title, to_lower, to_upper 内核
- ARROW-13855 - [C++] [Python] 添加导出扩展类型的支持
- ARROW-13857 - [R][CI] 删除 checkbashisms 下载
- ARROW-13859 - [Java] 添加代码覆盖率支持
- ARROW-13866 - [R] 为所有可通过 list_compute_functions 获取的计算内核实现选项
- ARROW-13869 - [R] 为非绑定的 MatchSubstringOptions 内核实现选项
- ARROW-13871 - [C++] 如果列表数组键在一个块中存在但在后面的块中不存在,JSON 读取器可能会失败
- ARROW-13874 - [R] 实现 TrimOptions
- ARROW-13883 - [Python] 允许使用 numpy.array 之外的更多类型作为创建数组时的掩码
- ARROW-13890 - [R] 分割 test-dataset.R 和 test-dplyr.R
- ARROW-13893 - [R] 使 head/tail 在数据集和查询上懒惰执行
- ARROW-13897 - [Python] TimestampScalar.as_py() 和 DurationScalar.as_py() 文档不准确地描述了返回类型
- ARROW-13898 - [C++][Compute] 添加对字符串二进制转换的支持
- ARROW-13899 - [Ruby] 通过计算内核实现 slicer
- ARROW-13901 - [R] 实现 IndexOptions
- ARROW-13904 - [R] 实现 ModeOptions
- ARROW-13905 - [R] 实现 ReplaceSliceOptions
- ARROW-13906 - [R] 实现 PartitionNthOptions
- ARROW-13908 - [R] 实现 ExtractRegexOptions
- ARROW-13909 - [GLib] 添加 GArrowVarianceOptions
- ARROW-13909 - [GLib] 添加 GArrowVarianceOptions
- ARROW-13910 - [Ruby] Arrow::Table#[]/Arrow::RecordBatch#[] 接受 Range 和选择器
- ARROW-13919 - [GLib] 添加 GArrowFunctionDoc
- ARROW-13924 - [R] stringr::str_starts, stringr::str_ends, base::startsWith 和 base::endsWith 的绑定
- ARROW-13925 - [R] 删除系统安装 devdocs 任务
- ARROW-13927 - [R] 将 Karl 添加到软件包的贡献者列表中
- ARROW-13928 - [R] 重命名 version(s) 任务,使其更清楚哪个是哪个
- ARROW-13937 - [C++][Compute] 向 sign 函数添加显式输出值并修复一元类型检查
- ARROW-13942 - [开发] cmake_format autotune 不工作
- ARROW-13944 - [C++] 将 xsimd 升级到最新版本
- ARROW-13958 - [Python] 迁移 Python ORC 绑定以使用新的基于 Result 的 API
- ARROW-13959 - [R] 更新测试,以从 date32 对象中提取组件
- ARROW-13962 - [R] 赶上 NEWS
- ARROW-13963 - [Go] 将位图读取器/写入器实现从 Parquet 转移到 Arrow bituil 包
- ARROW-13964 - [Go] 删除 Parquet 位图读取器/写入器实现,并使用共享的 arrow bitutils 版本
- ARROW-13965 - [C++] parquet TypedColumnWriterImpl 中的 dynamic_casts 影响性能
- ARROW-13966 - [C++] 十进制数的比较内核
- ARROW-13967 - [Go] 为数组实现 Concatenate 函数
- ARROW-13973 - [C++] 添加一个 SelectKSinkNode
- ARROW-13974 - [C++] 解决 TopK/BottomK 的后续审查
- ARROW-13975 - [C++][Compute] 添加对 round 函数的十进制支持
- ARROW-13977 - [格式] 澄清 interval 类型的闰秒和闰日
- ARROW-13979 - [Go] 为 Go 测试启用 -race 参数
- ARROW-13990 - [R] round 内核的绑定
- ARROW-13994 - [文档][C++] 构建文档缺少 git 子模块更新
- ARROW-13995 - [R] 连接节点的绑定
- ARROW-13999 - [C++][CI] 必须安装 make 才能在 MinGW 上构建 LZ4
- ARROW-14002 - [Python] unify_schema 应该也接受元组
- ARROW-14003 - [C++][Python] 在 “select_k_unstable” 内核中不提供 sort_key 会导致崩溃
- ARROW-14005 - [R] 修复 PartitionNthOptions 的测试,使其可以在各种平台上运行
- ARROW-14006 - [C++][Python] 支持将朴素时间戳转换为字符串
- ARROW-14007 - [C++] 修复十进制提升机制中的编译器警告
- ARROW-14008 - [R][Compute] ExecPlan_run 应该返回 RecordBatchReader 而不是 Table
- ARROW-14009 - [C++] 确保 SourceNode 真正并行地向计划馈送批次
- ARROW-14012 - [Python] 更新 compute 文档中的内核类别以匹配 C++
- ARROW-14013 - [C++][文档] 关于在 Fedora Linux 上安装的说明
- ARROW-14016 - [C++] 目录分区使用了错误的 type_name
- ARROW-14019 - [R] expect_dplyr_equal() 测试辅助函数忽略分组
- ARROW-14023 - [Ruby] Arrow::Table#slice 接受 Hash
- ARROW-14025 - [R][C++] 当通过 exec 节点扫描 parquet 时,未启用 PreBuffer
- ARROW-14030 - [GLib] 使用基于 arrow::Result 的 ORC API
- ARROW-14031 - [Ruby] 分别使用 min 和 max
- ARROW-14033 - [Ruby][文档] 为 Red Arrow 添加 macOS 开发指南
- ARROW-14033 - [Ruby][文档] 为 Red Arrow 添加 macOS 开发指南
- ARROW-14035 - [C++][Compute] 实现非哈希 count_distinct 聚合内核
- ARROW-14036 - [R] n_distinct() 在没有分组情况下的绑定
- ARROW-14043 - [Python] 在字典数组中添加对无符号索引的支持?
- ARROW-14044 - [R] 处理 summarize 中的 group_by .drop 参数
- ARROW-14049 - [C++][Java] 将 ORC 升级到 1.7.0
- ARROW-14050 - [C++] 当不跳过空值时,tdigest、quantile 返回空数组
- ARROW-14052 - [C++] 添加 appx_median、hash_appx_median 函数
- ARROW-14054 - [C++][文档] 提高 row_conversion_example.cpp 的清晰度
- ARROW-14055 - [文档] 将规范 URL 添加到文档中
- ARROW-14056 - [C++][文档] 提及 ArrayData
- ARROW-14061 - [Go] 添加 Cgo Arrow 内存池分配器
- ARROW-14062 - [Format] 计算 IR 的初始 arrow-internal 规范
- ARROW-14064 - [CI] 使用 Debian 11
- ARROW-14069 - [R] 默认情况下,在 list_compute_functions() 中过滤掉哈希函数
- ARROW-14070 - [C++][CI] 删除对 VisualStudio 2015 的支持
- ARROW-14072 - [GLib][Parquet] 添加对通过元数据获取行数的支持
- ARROW-14073 - [C++] 对排序键进行去重
- ARROW-14084 - [GLib][Ruby][Dataset] 添加对从目录扫描的支持
- ARROW-14088 - [GLib][Ruby][Dataset] 添加对过滤器的支持
- ARROW-14106 - [Go][C] 实现导出 C 数据接口
- ARROW-14107 - [R][CI] 并行化 Windows CI 作业
- ARROW-14111 - [C++] 添加对 time32/time64 的提取函数支持
- ARROW-14116 - [C++][文档] 在 WriteCSV 示例中使用一致的变量名
- ARROW-14127 - [C++][文档] 使用计算函数和输出的示例
- ARROW-14128 - [Go] 为嵌套类型实现 MakeArrayFromScalar
- ARROW-14132 - [C++] 在 CSV 分块器测试中测试混合引用和转义
- ARROW-14135 - [Python] 计算内核缺少 Python 测试
- ARROW-14140 - [R] 从 R 元数据中跳过 arrow_binary/arrow_large_binary 类
- ARROW-14143 - [IR] [C++] 向 IR 添加显式转换节点
- ARROW-14146 - [Dev] 更新合并脚本以在 shebang 行中指定 python3
- ARROW-14150 - [C++] 如果引用为 false,则在 CSV 分块器中跳过分隔符检查
- ARROW-14155 - [Go] 添加用于创建数据类型和标量的指纹/哈希的函数
- ARROW-14157 - [C++] 在 ThirdpartyToolchain 中重构 Abseil 构建
- ARROW-14165 - [C++] 提高表排序性能 #2
- ARROW-14178 - [C++] Boost 下载位置已移动
- ARROW-14180 - [Packaging] 添加对 AlmaLinux 8 的支持
- ARROW-14189 - [文档] 将版本下拉菜单添加到 sphinx 文档中
- ARROW-14191 - [C++][Dataset] 数据集写入应尊重背压
- ARROW-14194 - [文档] 改进 sphinx API 文档中的垂直间距
- ARROW-14198 - [Java] 升级 Netty 和 gRPC 依赖项
- ARROW-14207 - [C++] 为捆绑的 Boost 目标添加缺失的依赖项
- ARROW-14212 - [GLib][Ruby] 添加 GArrowTableConcatenateOptions
- ARROW-14217 - [Python][CI] 添加对 python 3.10 的支持
- ARROW-14222 - [C++] 创建 GcsFileSystem 骨架
- ARROW-14228 - [R] 允许创建可为空的字段
- ARROW-14230 - [C++] 弃用 ArrayBuilder::Advance
- ARROW-14232 - [C++] 将 crc32c 依赖项更新到 1.1.2
- ARROW-14235 - [C++][Compute] 如果未提供标签,则使用节点计数器作为标签
- ARROW-14236 - [C++] 为 CI 构建安装 GCS 测试台
- ARROW-14239 - [R] 不要使用 rlang::as_label
- ARROW-14241 - [C++] Dataset ORC 在 java-jars 每晚构建中构建失败
- ARROW-14243 - [C++] 分割 vector_sort.cc
- ARROW-14244 - [C++] 调查 scalar_temporal.cc 编译速度
- ARROW-14258 - [R] 如果 SF 列被转换为表,则发出警告
- ARROW-14259 - [R] 当 R 向量是 altrep 时,从 R 向量转换为 Array
- ARROW-14261 - [C++] 包含应按字母顺序排列
- ARROW-14269 - [C++] 合并 utf8 基准测试
- ARROW-14274 - [C++] 升级供应商提供的 base64 代码
- ARROW-14284 - [C++][Python] 改进当尝试使用需要异步的 SyncScanner 时出现的错误消息
- ARROW-14291 - [CI][C++] 将 cpp/examples/ 文件添加到 lint 目标
- ARROW-14295 - [文档] 指示 archery 的位置
- ARROW-14296 - [Go] 更新 flatbuf 生成的代码
- ARROW-14304 - [R] 更新 6.0.0 的新闻
- ARROW-14309 - [Python] CompressedInputStream 不支持 str 或文件对象
- ARROW-14317 - [文档] 更新实现状态
- ARROW-14326 - [文档] 将 C/GLib 和 Ruby 添加到 C 数据/流接口支持的库中
- ARROW-14327 - [Release] 从打包组中删除 conda-*
- ARROW-14335 - [GLib][Ruby] 添加对表达式的支持
- ARROW-14337 - [C++] 当启用 SIMD 加速时,Arrow 无法在 M1 上构建
- ARROW-14341 - [C++] 改进十进制基准测试
- ARROW-14343 - [Packaging][Python] 为 M1 wheels 启用 NEON SIMD 优化
- ARROW-14345 - [C++] 为 GCS FileSystem 实现流式读取
- ARROW-14348 - [R] 添加 group_vars.RecordBatchReader 方法
- ARROW-14349 - [IR] 删除 RelBase
- ARROW-14358 - 更新文档中的 CMake 选项
- ARROW-14361 - [C++] 为 ARROW_SIMD_LEVEL 定义 DEFAULT 值
- ARROW-14364 - [CI][C++] 支持 LLVM 13
- ARROW-14368 - [CI] ubuntu-16.04 在 Azure Pipelines 上不可用
- ARROW-14369 - [C++][Python] 无法使用 g++ 4.8.5 构建
- ARROW-14386 - [Packaging][Java] 在 manylinux2014 镜像中,devtoolset 升级到 10
- ARROW-14387 - [Release][Ruby] 在发布之前检查 Homebrew/MSYS2 包版本
- ARROW-14396 - [R][文档] 删除 write_dataset 中关于列无法重命名的过时注释
- ARROW-14400 - [Go] 表和分块数组的 Equals 和 ApproxEquals
- ARROW-14401 - [C++] 捆绑的 crc32c 的包含路径错误
- ARROW-14402 - [Release][Yum] RPM 签名失败
- ARROW-14404 - [Release][APT] 跳过 arm64 Debian GNU/Linux bookwarm 验证
- ARROW-14408 - [Packaging][Crossbow] 用于跳过工件模式验证的选项
- ARROW-14410 - [Python][Packaging] 使用 numpy 1.21.3 为 macOS 和 windows 构建 python 3.10 wheels
- ARROW-14452 - [Release][JS] 更新 Javascript 测试
- PARQUET-490 - [C++] 将 DELTA_BINARY_PACKED 值编码器合并到库中并添加单元测试
错误修复
- ARROW-6946 - [Go] 启用 assert 构建标签运行测试
- ARROW-8452 - [Go][Integration] Go JSON 生成器为嵌套类型生成不正确的 nullable 标志
- ARROW-8453 - [集成][Go] 不支持递归嵌套类型
- ARROW-8999 - [Python][C++] “AMD64 MacOS 10.15 Python 3.7” 构建中出现不确定的段错误
- ARROW-9948 - [C++] Decimal128 在重新缩放时不检查刻度范围;可能导致缓冲区溢出
- ARROW-10213 - [C++] 从时间戳到日期的临时转换会进行舍入,而不是提取日期分量
- ARROW-10373 - [C++] ValidateFull() 不验证 null_count
- ARROW-10773 - [R] 在 Windows 上并行 as.data.frame.Table 无限期挂起
- ARROW-11518 - [C++] [Parquet] 读取布尔列时 Parquet 读取器崩溃
- ARROW-11579 - [R] 在 Windows 上 read_feather 挂起
- ARROW-11634 - [C++][Parquet] 字典列的 Parquet 统计信息(最小值/最大值)不正确
- ARROW-11729 - [R] 将示例添加到数据集文档中
- ARROW-12011 - [C++][Python] 将大整数转换为日期时发生崩溃和错误结果
- ARROW-12072 - (ipc.Writer).Write 抛出 `arrow/array: 索引超出范围` 的 panic
- ARROW-12087 - [C++] 修复 sort_indices,array_sort_indices 时间戳支持差异
- ARROW-12513 - [C++][Parquet] 对于带有 null 值的字典编码数组,Parquet 写入器始终将 null_count=0 放入 Parquet 统计信息中
- ARROW-12540 - [C++] 实现从 date32[day] 到 utf8 的转换
- ARROW-12636 - [JS] ESM Tree-Shaking 生成损坏的代码
- ARROW-12700 - [R] 错误写入后,Read/Write_feather 永远卡住,R,Win32
- ARROW-12837 - [C++] Array::ToString() 在 null 缓冲区中出现段错误。
- ARROW-13134 - [C++] 使用 aws-sdk-cpp 1.9.51 时,与 SSL 相关的 arrow-s3fs-test 失败
- ARROW-13151 - [Python] 无法从 Parquet 中读取结构列的单个子字段
- ARROW-13198 - [C++][Dataset] 异步扫描器在 CI 中偶尔出现段错误
- ARROW-13293 - [R] open_dataset 后跟 collect 挂起(而 compute 工作)
- ARROW-13304 - [C++] 由于星期几选项,无法在 Ubuntu 21.04 上安装 nightly
- ARROW-13336 - [Doc][Python] make clean 不会清理“生成”的文档
- ARROW-13422 - [R] 澄清关于 Windows 上 S3 支持的 README
- ARROW-13424 - [C++] conda-forge 基准库被拒绝
- ARROW-13425 - [Dev][Archery] Archery 导入 pandas,而 pandas 导入 pyarrow
- ARROW-13429 - [C++][Gandiva] 使用二进制类型编译 If-else 表达式时,Gandiva 崩溃
- ARROW-13430 - [集成][Go] 集成测试中的各种错误
- ARROW-13436 - [Python][Doc] 澄清如果将空列列表传递给 read_table 会发生什么
- ARROW-13437 - [C++] FixedSizeList 的切片无法通过 ValidateFull
- ARROW-13441 - [CSV] 流式读取器转换应跳过空块
- ARROW-13443 - [C++] 修复从 flatbuf::MetadataVersion 到 arrow::ipc::MetadataVersion 的不正确映射
- ARROW-13445 - [Java][打包] 修复 Java jar 的工件模式
- ARROW-13446 - [发布] 修复 amazon linux 上的验证
- ARROW-13447 - [发布] arm64 和 universal2 macOS wheel 的验证脚本
- ARROW-13450 - [Python][打包] 将 universal2 wheel 的部署目标设置为 10.13
- ARROW-13469 - [C++] 在 DayMilliseconds arrow/type.h 中禁止 -Wmissing-field-initializers
- ARROW-13474 - [C++][Python] 筛选/获取空扩展数组时,PyArrow 崩溃
- ARROW-13477 - [发布] 将 ARTIFACTORY_API_KEY 传递给上传脚本
- ARROW-13484 - [发布] Amazon Linux 2 的软件包不可用
- ARROW-13490 - [R] [CI] 需要根据 duckdb 版本对 duckdb 示例进行门控
- ARROW-13492 - [R] [CI] 将 r tools 35 构建移回每次提交/预 PR
- ARROW-13493 - [C++] 匿名联合中的匿名结构是 GNU 扩展
- ARROW-13495 - [C++] 写入数据集时,BitUtil 中出现 UBSAN 错误
- ARROW-13496 - [CI][R] 修复 r-sanitizer 作业
- ARROW-13497 - [C++][R] 聚合节点不使用 FunctionOptions
- ARROW-13499 - [R] 对表达式进行聚合时 NSE 不正确
- ARROW-13500 - [C++] 使用 gcc 9.3 构建时出现警告:无法识别的命令行选项“-Wno-unknown-warning-option”
- ARROW-13504 - [Python] 使用 pytest 标记无法跳过 s3 或 hdfs 测试
- ARROW-13507 - [R] CRAN 上的 LTO 作业失败
- ARROW-13509 - [C++] Take compute 函数应传递 ChunkedArray 类型以处理空输入数组
- ARROW-13522 - [C++] macOS 上 compute `utf8_*trim` 函数的回归。
- ARROW-13523 - 统一测试用例名称
- ARROW-13524 - [C++] 修复 ApplicationVersion::VersionEq 的描述
- ARROW-13529 - 写入切片时,IPC 写入器中的版本过多
- ARROW-13538 - [R] [CI] 不在最小构建中测试 DuckDB
- ARROW-13543 - [R] 处理带有 0 个参数或无聚合函数的 summarize()
- ARROW-13556 - [C++] 在带有系统库的 Ubuntu 21.04 上,flight 未链接 libprotobuf
- ARROW-13559 - [CI][C++] test-conda-cpp-valgrind nightly 构建失败
- ARROW-13560 - [R] 允许 Scanner$create() 接受 filter / project,即使带有 arrow_dplyr_querys
- ARROW-13580 - [C++] quoted_strings_can_be_null 仅应用于字符串列
- ARROW-13597 - [C++] [R] 注册表中不存在名为 source 的 ExecNode 工厂
- ARROW-13600 - [C++] 可能未初始化的警告
- ARROW-13602 - [C++] 测试取消引用类型双关指针的编译器警告
- ARROW-13603 - [GLib] GARROW_VERSION_CHECK() 始终返回 false
- ARROW-13605 - [C++] ThreadSanitizer 发现 GroupByNode 中的数据竞争
- ARROW-13608 - [R] 符号初始化似乎依赖于未定义的行为
- ARROW-13611 - [C++] 扫描数据集不强制执行背压
- ARROW-13624 - [R] readr 短类型映射的 T 和 t 向后
- ARROW-13628 - [格式] 添加 MonthDayNano 间隔类型。
- ARROW-13630 - [CI][C++] Travis s390x CI 作业失败并阻止了与字节序相关的代码验证
- ARROW-13632 - [Python] 筛选切片时,筛选掩码始终应用于 FixedSizeListArray 开头的元素
- ARROW-13638 - [C++][R] 在 Init/ExecNode_Aggregate keep_alives 未被保留之后,GroupByNode 访问 FunctionOptions
- ARROW-13639 - [C++] 与空字典连接会发生段错误(TestFilterKernelWithString/0.FilterDictionary 中的 ASan 失败)
- ARROW-13654 - [C++][Parquet] 将 FileMetaData 对象附加到自身会使内存爆炸
- ARROW-13655 - [C++][Parquet] 读取大型 Parquet 文件可能会因 Thrift 0.14 而出现“达到 MaxMessageSize”错误
- ARROW-13662 - [CI] 使用 pandas 0.24 时,test_extract_datetime_components 测试失败
- ARROW-13662 - [CI] 使用 pandas 0.24 时,test_extract_datetime_components 测试失败
- ARROW-13669 - [C++] Variant emplace 方法似乎缺少大括号。
- ARROW-13671 - [Dev] 修复 Arm 64K 页面系统上的 conda 配方
- ARROW-13676 - [C++] 将 Arrow 表写入 Parquet 文件时出现 CoreDump
- ARROW-13681 - [C++] list_parent_indices 仅计算第一个块
- ARROW-13685 - [C++] 如果存储桶已存在,则无法将数据集写入 S3FileSystem
- ARROW-13689 - [C#] 初始 C# 集成测试
- ARROW-13694 - [R] Arrow 筛选器崩溃(R 会话中止)
- ARROW-13743 - [CI] 由于 git 和 libcurl 不兼容,OSX 作业失败
- ARROW-13744 - [CI] c++14 和 17 nightly 作业失败
- ARROW-13747 - [CI][C++] conda-python-pandas nightly 作业中 s3fs 测试失败
- ARROW-13755 - [Python] 保存数据集时允许在分区中使用 field_names
- ARROW-13761 - [R] arrow::filter() 崩溃(中止 R 会话)
- ARROW-13784 - [Python] 当数组为空但名称不为空时,Table.from_arrays 应引发错误
- ARROW-13786 - [R] [CI] 如果 arrow 未构建,则不要使 RCHK 构建失败
- ARROW-13788 - [C++] 临时分量提取函数不支持 date32/64
- ARROW-13792 - [Java] 无符号整数向量的 toString 表示形式不正确
- ARROW-13799 - [R] case_when 错误处理正在捕获字符串
- ARROW-13800 - [R] 使用 divide 而不是 divide_checked
- ARROW-13812 - [C++] Grouper.BooleanKey 中 Valgrind 失败(未初始化的值)
- ARROW-13814 - [CI] 具有 spark master 的 nightly 集成构建无法编译 spark
- ARROW-13819 - [C++] 构建失败,并提示“此函数中可能使用未初始化的 ‘subseconds’”
- ARROW-13846 - [C++] 修复无效 IPC 文件时的崩溃(OSS-Fuzz)
- ARROW-13850 - [C++] 修复无效 Parquet 文件时的崩溃(OSS-Fuzz)
- ARROW-13860 - [R] arrow 5.0.0 write_parquet 在写入分组的 data.frame 时抛出错误
- ARROW-13872 - [Java] ExtensionTypeVector 不适用于 RangeEqualsVisitor
- ARROW-13876 - [C++] 计算函数中的统一 null 处理
- ARROW-13877 - [C++] 添加了对处理列表的计算函数的固定大小列表的支持
- ARROW-13878 - [C++] 将 fixed_size_binary 支持添加到计算函数
- ARROW-13880 - [C++] 计算函数 sort_indices 不支持带时区的时间戳
- ARROW-13881 - [Python] 错误消息提示“请使用使用 gRPC 1.27 或更高版本构建的 Arrow Flight 版本。” 虽然我正在使用 gRPC 1.39
- ARROW-13882 - [C++] 为更多类型添加计算函数 min_max 支持
- ARROW-13884 - Arrow 5.0.0 无法使用 Typescript 4.2.2 编译
- ARROW-13912 - [R] TrimOptions 的实现由于依赖关系导致 test-r-minimal-build 构建失败
- ARROW-13913 - [C++] 如果在未提供选项的情况下调用计算函数索引,则会发生段错误
- ARROW-13915 - [R][CI] R UCRT C++ 包不完整
- ARROW-13916 - [C++] 在 date32/64 类型上实现 strftime
- ARROW-13921 - [Python][Packaging] 为 macos wheels 固定最低 setuptools 版本
- ARROW-13940 - [R] 使用 Arrow 引擎查询时启用多线程
- ARROW-13961 - [C++] iso_calendar 可能未初始化
- ARROW-13976 - 在 hdfs_internal.cc 中适配 arm 架构 CPU
- ARROW-13978 - [C++] 将 gtest 升级到 1.11 以修复使用最新 clang 的构建问题
- ARROW-13981 - [Java] VectorSchemaRootAppender 不适用于 BitVector
- ARROW-13982 - [C++] 如果一个片段不生成任何批次,则异步扫描器会停滞
- ARROW-13983 - [C++] fcntl(…, F_RDADVISE, …) 在 macOS 上使用 NFS 挂载时可能会失败
- ARROW-13996 - [Go][Parquet] 修复行组的文件偏移量
- ARROW-13997 - [C++] 恢复基于执行节点的查询性能
- ARROW-14001 - [Go] BitmapWriter 中的 AppendBooleans 损坏
- ARROW-14004 - [Python] to_pandas() 转换为 float,而不是使用 pandas 可空类型
- ARROW-14014 - FlightClient.ClientStreamListener 在解析无效 trailers 时未收到错误通知
- ARROW-14017 - [C++] NULLPTR 未包含在 type_fwd.h 中
- ARROW-14020 - [R] 使用列表列写入数据帧速度慢,并且随着嵌套级别的增加而性能下降
- ARROW-14024 - [C++] ScanOptions::batch_size 在 parquet/IPC 读取器中未被遵守
- ARROW-14026 - [C++] 批量预读在 Parquet 扫描器中工作不正确
- ARROW-14027 - [C++][R] 确保分组器接受标量输入(原为:允许我使用分区字段进行 group_by + summarise())
- ARROW-14040 - [C++] ScanNode.MinimalGroupedAggEndToEnd 中出现虚假的测试失败
- ARROW-14053 - [C++] AsyncReaderTests.InvalidRowsSkipped 不稳定
- ARROW-14057 - [C++] 升级 aws-c-common 版本
- ARROW-14063 - [R] open_dataset() 不适用于没有标题行的 CSV 文件
- ARROW-14076 - 无法在 Heroku/Ubuntu 20.04 (focal) 上使用 `red-arrow` gem
- ARROW-14090 - [C++][Parquet] rows_written_ 应该是 int64_t 而不是 int
- ARROW-14103 - [R] [C++] 允许在分组聚合中使用 min/max
- ARROW-14109 - 读取具有重复键的 JSON 时发生段错误
- ARROW-14124 - [R] R <= 3.4 中的时区支持
- ARROW-14129 - [C++] 空字典数组在 `unique` 和 `value_counts` 上崩溃。
- ARROW-14139 - [IR] [C++] Table flatbuffer 对象在较旧的 GCC 上编译失败
- ARROW-14141 - [IR] [C++] RelationImpl 中缺少 Join
- ARROW-14156 - [C++] StructArray::Flatten 在某些情况下不正确
- ARROW-14162 - [R] 简单的 arrange %>% head 不遵守排序
- ARROW-14173 - [IR] 允许表示类型化的空字面量
- ARROW-14179 - [C++] C 数据接口中 UnionArray 的导入/导出具有错误的缓冲区计数
- ARROW-14192 - [C++][Dataset] 有序扫描上的反压损坏
- ARROW-14195 - [R] 修复 ExecPlan 绑定注释
- ARROW-14197 - [C++] Hashjoin + 数据集挂起
- ARROW-14200 - [R] 日期上的 strftime 不应使用或被时区混淆
- ARROW-14203 - [C++] 修复聚合内核中标量的 ExecBatch.length 描述
- ARROW-14204 - [C++] 由于 MatchLike 中缺少 ifdef 保护,导致在没有 RE2 的情况下无法编译 Arrow
- ARROW-14206 - [Go] 修复 ARM 和 s390x 的构建
- ARROW-14206 - [Go] 修复 ARM 和 s390x 的构建
- ARROW-14208 - [C++] 使用 Visual Studio 2019 时出现构建错误
- ARROW-14210 - [C++] CMAKE_AR 未传递给 bzip2 第三方依赖项
- ARROW-14211 - [C++] arrow-compute-hash-join-node-test 中的 Valgrind 和 TSAN 错误
- ARROW-14214 - [Python][CI] wheel-windows-cp36-amd64 夜间构建失败
- ARROW-14216 - [R] 禁用 duckdb 表的自动清理
- ARROW-14219 - [R] [CI] DuckDB valgrind 失败
- ARROW-14220 - [C++] thirdpartyversions 中缺少结束引号
- ARROW-14221 - [R] [CI] DuckDB 测试在 R < 4.0 上失败
- ARROW-14223 - [C++] 将 google_cloud_cpp_storage 添加到 ARROW_THIRDPARTY_DEPENDENCIES
- ARROW-14224 - [R] [CI] R sanitizer 构建失败
- ARROW-14226 - [R] 处理 args != 1 的 n_distinct()
- ARROW-14237 - [R] [CI] 在 R <= 3.5 中禁用 altrep
- ARROW-14240 - [C++] nlohmann_json_ep 总是重新构建
- ARROW-14246 - [C++] build_google_cloud_cpp_storage 中的 find_package(CURL) 失败
- ARROW-14247 - [C++] parquet-arrow-test 中的 Valgrind 错误
- ARROW-14249 - [R] dataframe-to-table 基准测试速度减慢
- ARROW-14252 - [R] 参数部分匹配警告
- ARROW-14255 - [Python] FlightClient.do_action 是一个生成器,而不是返回一个生成器。
- ARROW-14257 - [Doc][Python] 数据集文档构建失败
- ARROW-14260 - [C++] 使用 vcpkg 和 Visual Studio 2019 时出现 GTest 链接器错误
- ARROW-14283 - [C++][CI] LLVM 13 不能用于 macOS GHA 构建
- ARROW-14285 - [C++] 修复从有效的 IPC 文件漂亮打印数据时的崩溃问题 (OSS-Fuzz)
- ARROW-14299 - [Dev][CI] “linux-apt-r” dockerfile 重新安装 Minio
- ARROW-14300 - [R][CI] “test-r-gcc-11” 夜间构建失败
- ARROW-14301 - [C++][CI] “test-ubuntu-20.04-cpp-17” 夜间构建在 GCSFS 测试中崩溃
- ARROW-14302 - [C++] Valgrind 错误
- ARROW-14305 - [C++] arrow-compute-hash-join-node-test 中的 Valgrind 错误
- ARROW-14307 - [R] 读取带有 POSIXct 列的空 feather 时崩溃
- ARROW-14313 - [Doc][Dev] Archery 的安装说明不完整
- ARROW-14321 - [R] 将具有 0 个块的字典 ChunkedArray 转换为段错误
- ARROW-14340 - [C++] 修复 apple m1 上的 xsimd 构建错误
- ARROW-14370 - [C++] ASAN CI 作业失败
- ARROW-14373 - [Packaging][Java] macOS java-jars 构建中缺少 LLVM 依赖项
- ARROW-14377 - [Packaging][Python] Python 3.9 安装在 macOS wheel 构建中失败
- ARROW-14381 - [CI][Python] Spark 集成失败
- ARROW-14382 - [C++][Compute] 删除重复的 ThreadIndexer 定义
- ARROW-14392 - [C++] 捆绑的 gRPC 缺少捆绑的 Abseil 包含路径
- ARROW-14393 - [C++] 源代码发布验证期间出现 GTest 链接错误
- ARROW-14397 - [C++] 修复测试实用程序中的 valgrind 错误
- ARROW-14406 - [Python][CI] 夜间 dask 集成作业失败
- ARROW-14411 - [Release][Integration] Go 集成测试对于 6.0.0-RC1 失败
- ARROW-14417 - [R] 连接忽略左侧数据集上的投影
- ARROW-14423 - [Python] 修复 pyproject.toml 中的版本约束
- ARROW-14424 - [Packaging][Python] 禁用 python 3.6 的 windows wheel 测试
- ARROW-14434 - R 在对带有 DateTime 的数据集进行空选择时崩溃
- PARQUET-2067 - [C++] 重复列的 null_count 和 num_nulls 不正确
- PARQUET-2089 - [C++] RowGroupMetaData file_offset 设置不正确