Apache Arrow 4.0.0 (2021年4月26日)
这是一个重要版本,涵盖了超过3个月的开发工作。
下载
贡献者
此版本包含来自 114 位不同贡献者的 719 个提交。
$ git shortlog -sn apache-arrow-3.0.0..apache-arrow-4.0.0
65 Antoine Pitrou
47 Andrew Lamb
41 Heres, Daniel
40 David Li
37 Sutou Kouhei
33 Neal Richardson
30 Weston Pace
28 Jorge C. Leitao
26 Krisztián Szűcs
25 Ian Cook
21 Dominik Moritz
20 Andy Grove
19 Yibo Cai
18 Joris Van den Bossche
17 Neville Dipale
17 Jonathan Keane
17 Ritchie Vink
12 Mike Seddon
12 Benjamin Kietzman
11 Mauricio Vargas
10 Qingping Hou
10 Diana Clarke
8 Micah Kornfield
7 Matthew Topol
7 Dmitry Patsura
5 Projjal Chanda
5 Kenta Murata
4 Anthony Louis
4 Ximo Guanter
4 liyafan82
3 Andre Braga Reis
3 Kazuaki Ishizaki
3 Maarten A. Breddels
3 Uwe L. Korn
3 ptaylor
3 Steven Fackler
3 Sagnik Chakraborty
3 Nic Crane
2 Marc Prud'hommeaux
2 Raphael Taylor-Davies
2 João Pedro
2 Yordan Pavlov
2 emkornfield
2 Max Burke
2 Florian Müller
2 Ben Chambers
2 mqy
2 Christoph Schulze
2 Manoj Karthick
2 Sathis Kumar
2 Ryan Jennings
2 Ruan Pearce-Authers
2 Tao He
2 Eric Burden
2 Tyrel Rink
2 Romain Francois
2 Rok
1 witchard
1 Adam Lippai
1 Albert Villanova del Moral
1 Alessandro Molina
1 Ali
1 Andrew Wieteska
1 Bob Tinsman
1 Brian Hulette
1 Bryan Cutler
1 Clcanny
1 Daniel Russo
1 Daniël Heres
1 Eduardo Ponce
1 Evan Chan
1 FawnD2
1 Felix Zhu
1 Fernando Herrera
1 Fiona La
1 François Saint-Jacques
1 GALI PREM SAGAR
1 Gert Hulselmans
1 Ha Thi Tham
1 Hongze Zhang
1 Ilya Biryukov
1 Ivan Smirnov
1 James Winegar
1 Joe Roberts
1 Johannes Müller
1 Jörn Horstmann
1 Mahmut Bulut
1 Marco Gorelli
1 Marko Mikulicic
1 Markus Silberstein Hont
1 Martin Nowak
1 Matt Brubeck
1 Matt Summersgill
1 Max Meldrum
1 Nathaniel Bauernfeind
1 Nga Tran
1 Nick Bruno
1 Rok Mihevc
1 Roman Karlstetter
1 Sam Albers
1 Simon Bertron
1 Szangin
1 Truc Lam Nguyen
1 Weichen Xu
1 Ying Zhou
1 frank400
1 ivan
1 jpeeter
1 martinblostein
1 nmcdonnell-kx
1 pierwill
1 sjgupta2
1 sundy-li
1 ARF1
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-3.0.0..apache-arrow-4.0.0
157 Andrew Lamb
101 Antoine Pitrou
93 Neal Richardson
88 Krisztián Szűcs
72 Sutou Kouhei
41 David Li
30 Benjamin Kietzman
25 Neville Dipale
22 Micah Kornfield
19 Jorge C. Leitao
16 Andy Grove
14 Praveen
11 Joris Van den Bossche
9 GitHub
8 Yibo Cai
4 Uwe L. Korn
3 Sebastien Binet
2 liyafan82
1 Kenta Murata
1 Eric Erhardt
1 Chao Sun
1 Bryan Cutler
更新日志
Apache Arrow 4.0.0 (2021-04-26)
新特性和改进
- ARROW-951 - [JS] 修复生成的 API 文档
- ARROW-2229 - [C++] 从 RecordBatch, Table 写入 CSV 文件
- ARROW-3690 - [Rust] 将 Rust 添加到格式集成测试中
- ARROW-6103 - [Java] 停止使用 maven release 插件
- ARROW-6248 - [Python] 在 Python 3 的 HadoopFileSystem.open() 中使用 FileNotFoundError
- ARROW-6455 - [C++] 为非 UTF-8 Unicode 数据实现 ExtensionType
- ARROW-6604 - [C++] 为 MakeArrayFromScalar 添加对嵌套类型的支持
- ARROW-7215 - [C++][Gandiva] 在 Gandiva 中实现 castVARCHAR(numeric_type) 函数
- ARROW-7364 - [Rust] 为 cast kernel 添加 cast 选项
- ARROW-7633 - [C++][CI] 为 tensors 和 sparse tensors 创建模糊测试目标
- ARROW-7808 - [Java][Dataset] 实现 Datasets Java API
- ARROW-7906 - [C++][Python] ORC 格式的完整功能
- ARROW-8049 - [C++] 升级捆绑的 Thrift 版本至 0.13.0
- ARROW-8282 - [C++/Python][Dataset] 支持整数列的 schema 演进
- ARROW-8284 - [C++][Dataset] 时间戳列的 schema 演进
- ARROW-8630 - [C++][Dataset] 传递包含所有具体化字段的 schema 以捕获 CSV 边缘情况
- ARROW-8631 - [C++][Dataset] 为 CsvFileFormat 添加 ConvertOptions 和 ReadOptions
- ARROW-8658 - [C++][Dataset] 实现 FileSystemDataset::GetFragments 的子树剪枝
- ARROW-8732 - [C++] 让 Futures 支持取消
- ARROW-8771 - [C++] 添加 boost/process 库以支持构建
- ARROW-8796 - [Rust] 允许 parquet 直接写入内存
- ARROW-8797 - [C++] 支持不同字节序平台之间的 Flight RPC
- ARROW-8900 - [C++] S3 文件系统遵守 HTTP(S)_PROXY 并/或将代理选项暴露为参数
- ARROW-8919 - [C++] 为 compute::Function 添加 "DispatchBest" API,以选择可能需要隐式转换才能调用的 kernel
- ARROW-9128 - [C++] 实现字符串空格裁剪 kernel:trim, ltrim, 和 rtrim
- ARROW-9149 - [C++] 改进 RandomArrayGenerator::ArrayOf 的可配置性
- ARROW-9196 - [C++] 使时间类型转换适用于 Scalar 输入
- ARROW-9318 - [C++][Parquet] 加密密钥管理工具
- ARROW-9731 - [C++][Dataset] 将 R 中的 "head" 方法移植到 C++ Dataset Scanner
- ARROW-9749 - [C++][Dataset] 从 FileFormat 中提取格式特定的扫描选项
- ARROW-9777 - [Rust] 实现 IPC 更改以跟上 1.0.0 格式
- ARROW-9856 - [R] 为字符串计算函数添加绑定
- ARROW-10014 - [C++] TaskGroup::Finish 应执行任务
- ARROW-10089 - [R] 为 Array, ChunkedArray 和 Scalar 注入基类
- ARROW-10183 - [C++] 创建一个在 futures 迭代器上运行的 ForEach 库函数
- ARROW-10195 - [C++] 使用 re2 添加字符串结构体提取 kernel
- ARROW-10250 - [FlightRPC][C++] 删除 FlightClientOptions 的默认构造函数
- ARROW-10255 - [JS] 重新组织 imports 和 exports,使其对 ESM tree-shaking 更友好
- ARROW-10297 - [Rust] parquet-read 输出 JSON 格式数据的参数
- ARROW-10299 - [Rust] 支持读写 V5 版 IPC 元数据
- ARROW-10305 - [R] 使用正则表达式进行过滤
- ARROW-10306 - [C++] 添加字符串替换 kernel
- ARROW-10349 - [Python] 构建并发布 aarch64 wheels
- ARROW-10354 - [Rust] [DataFusion] 添加对 regex extract 的支持
- ARROW-10360 - [CI] 提升 github actions 缓存版本
- ARROW-10372 - [C++][Dataset] 读取压缩的 CSV 文件
- ARROW-10406 - [C++] 在一次写入 IPC 文件时统一字典
- ARROW-10420 - [C++] FileSystem::OpenInput{File,Stream} 应接受 MemoryPool
- ARROW-10421 - [R] Feather reader/writer 应接受 MemoryPool
- ARROW-10438 - [C++][Dataset] 对 nulls 的 Partitioning::Format
- ARROW-10520 - [C++][R] 为 RecordBatch 实现 add/remove/replace
- ARROW-10570 - [R] 使用 Converter API 将 SEXP 转换为 Array/ChunkedArray
- ARROW-10580 - [C++] 验证时,确保 DenseUnionArray 的偏移量是递增的
- ARROW-10606 - [C++][Compute] 支持与 Decimal256 类型之间的转换。
- ARROW-10655 - [C++] 添加 LRU 缓存功能
- ARROW-10734 - [R] 在 Solaris 上构建和测试
- ARROW-10735 - [R] 移除 arrow-without-arrow 包装
- ARROW-10766 - [Rust] 计算列表数组的嵌套定义和重复
- ARROW-10797 - [C++] 研究更快地生成测试和 benchmark 的随机数据
- ARROW-10816 - [Rust] [DataFusion] 实现 INTERVAL
- ARROW-10831 - [C++][Compute] 实现 quantile kernel
- ARROW-10846 - [C++] 添加异步文件系统操作
- ARROW-10880 - [Java] 支持使用 LZ4 压缩 RecordBatch IPC buffers
- ARROW-10882 - [Python][Dataset] 从 Python 记录批次迭代器写入数据集
- ARROW-10895 - [C++][Gandiva] 在 Gandiva 中实现 bool 到 varchar 的转换函数
- ARROW-10903 - [Rust] 为 FixedSizeBinaryArray 实现 FromIter<Option<Vec<u8>>> 构造函数
- ARROW-11022 - [Rust] [DataFusion] 升级到 tokio 1.0
- ARROW-11070 - [C++] 实现 power / exponentiation 计算 kernel
- ARROW-11074 - [Rust][DataFusion] 为 parquet 表实现谓词下推
- ARROW-11081 - [Java] 使 IPC 选项不可变
- ARROW-11108 - [Rust] 提高 MutableBuffer 的性能
- ARROW-11141 - [Rust]: Miri 检查
- ARROW-11149 - [Rust] create_batch_empty - 支持 List, LargeList
- ARROW-11150 - [Rust] 建立 Rust 双周同步会议并更新网站
- ARROW-11154 - [CI][C++] 将 homebrew crossbow 测试从 Travis-CI 移开
- ARROW-11156 - [Rust][DataFusion] 在 hash join 中向量化创建 hash
- ARROW-11174 - [C++][Dataset] 使 Expressions 可用于投影
- ARROW-11179 - [Format] 使 fb 文件中的注释对 rust doc 友好
- ARROW-11183 - [Rust] [Parquet] LogicalType::TIMESTAMP_NANOS 缺失
- ARROW-11191 - [C++] 为 TaskGroup 的任务使用 FnOnce 而不是 std::function
- ARROW-11216 - [Rust] 改进 StringDictionaryBuilder 的文档
- ARROW-11220 - [Rust] DF 实现对 Boolean 的 GROUP BY 支持
- ARROW-11222 - [Rust] [Arrow] 跟上 flatbuffers 0.8.1
- ARROW-11246 - DF - 为 Unexpected accumulator state message 添加类型
- ARROW-11254 - [Rust][DataFusion] 将 SIMD 和 snmalloc 标志作为 benchmark 的选项
- ARROW-11260 - [C++][Dataset] 使用基于 schema 的 Partitioning 读取数据集时,不需要字典
- ARROW-11265 - [Rust] 使 bool 不可转换为 bytes
- ARROW-11268 - [Rust][DataFusion] 支持在 MemTable 中指定重新分区
- ARROW-11270 - [Rust] 对简单数组数据 buffer 访问使用 slices
- ARROW-11279 - [Rust][Parquet] ArrowWriter Definition Levels 内存使用
- ARROW-11284 - [R] 支持 dplyr verb transmute()
- ARROW-11289 - [Rust] [DataFusion] 支持 Dictionary 列的 GROUP BY
- ARROW-11290 - [Rust][DataFusion] 解决分组数很高时 hash aggregate 的性能问题
- ARROW-11291 - [Rust] 实现 MutableBuffer 的 extend (从迭代器)
- ARROW-11300 - [Rust][DataFusion] 在分组数很大时提高 hash aggregate 的性能
- ARROW-11308 - [Rust] [Parquet] 添加 Arrow decimal array writer
- ARROW-11309 - [Release][C#] 使用 .NET 3.1 进行验证
- ARROW-11310 - [Rust] 实现 arrow JSON writer
- ARROW-11314 - [Release][APT][Yum] 添加对 arm64 包的验证支持
- ARROW-11317 - [Rust] 在 CI 中测试 prettyprint 功能
- ARROW-11318 - [Rust] 支持对 timestamp, date 和 time 类型进行 pretty printing
- ARROW-11319 - [Rust][DataFusion] 改进与 record batch 的测试比较
- ARROW-11321 - [Rust][DataFusion] 修复 DataFusion 编译错误
- ARROW-11325 - [Packaging][C#] 发布 Apache.Arrow.Flight 和 Apache.Arrow.Flight.AspNetCore
- ARROW-11329 - [Rust] 不在每次更改时重新构建库
- ARROW-11330 - [Rust][DataFusion] 添加 ExpressionVisitor 模式
- ARROW-11332 - [Rust] 在 take_string 中使用 MutableBuffer 而不是 Vec
- ARROW-11333 - [Rust] 支持创建任意嵌套的空数组
- ARROW-11336 - [C++][Doc] 改进 Windows 开发文档
- ARROW-11338 - [R] quantile 和 median 的绑定
- ARROW-11340 - [C++] 将 vcpkg.json manifest 添加到 cpp 项目根目录
- ARROW-11343 - [DataFusion] 简化示例
- ARROW-11346 - [C++][Compute] 实现 quantile kernel benchmark
- ARROW-11349 - [Rust] 添加 from_iter_values 以从 T 而不是 Option<T> 创建数组
- ARROW-11350 - [C++] 更新依赖版本
- ARROW-11354 - [Rust] 加速日期和时间类型的转换
- ARROW-11355 - [Rust] 使 Date 类型与规范对齐
- ARROW-11358 - [Rust] 添加用于连接小型数组的 benchmark
- ARROW-11360 - [Rust][DataFusion] 改进 CSV “未找到文件”错误消息
- ARROW-11361 - [Rust] 从布尔值迭代器构建 buffer
- ARROW-11362 - [Rust][DataFusion] 在 to_array_of_size 中使用迭代器 API 以提高性能
- ARROW-11365 - [Rust] [Parquet] 实现 v2 文本 schema 的解析器
- ARROW-11366 - [Rust][DataFusion] 添加 Constant Folding / 在等式表达式中支持布尔字面量
- ARROW-11367 - [C++] 实现近似 quantile 工具
- ARROW-11369 - [DataFusion] 拆分 expressions.rs
- ARROW-11372 - 支持在 macOS-ARM64 上进行 RC 验证
- ARROW-11373 - [Python][Docs] 添加读取 CSV 文件时指定列类型的示例
- ARROW-11374 - [Python] 使 legacy pyarrow.filesystem / pyarrow.serialize 警告更明显
- ARROW-11375 - [Rust] CI 由于 clippy 中的弃用警告而失败
- ARROW-11377 - [C++][CI] 添加 ThreadSanitizer 夜间构建
- ARROW-11383 - [Rust] 在位操作中使用 trusted len
- ARROW-11386 - [Release] 修复文档更新后脚本
- ARROW-11389 - [Rust] datatypes 的注释不一致
- ARROW-11395 - [DataFusion] 支持自定义优化
- ARROW-11401 - [Rust][DataFusion] 在 DataFrame API 中传递 slices 而不是 Vec
- ARROW-11404 - [Rust][DataFusion] 升级到 aHash 0.7
- ARROW-11405 - [DataFusion] 支持多个自定义节点
- ARROW-11406 - [CI][C++] 修复 Travis-CI 构建中的缓存问题
- ARROW-11408 - 向 datafusion readme 添加窗口支持
- ARROW-11411 - [Packaging][Linux] 禁用 arm64 夜间构建
- ARROW-11414 - [Rust] 减少 Schema::try_merge 中的复制
- ARROW-11417 - [Integration] 添加 buffer 压缩的集成测试
- ARROW-11418 - [Doc] 将 IPC buffer 压缩添加到支持矩阵
- ARROW-11421 - [Rust][DataFusion] 支持按 Date32 分组
- ARROW-11422 - [C#] 添加对 decimal 的支持
- ARROW-11423 - [R] value_counts 和一些 StructArray 方法
- ARROW-11425 - [C++][Compute] 改进整数类型的 quantile kernel
- ARROW-11426 - [Rust][DataFusion] EXTRACT 支持
- ARROW-11428 - [Rust] 添加 power kernel
- ARROW-11429 - 使字符串比较 kernel 对 Utf8 和 LargeUtf8 通用
- ARROW-11430 - [Rust] 基于布尔掩码组合两个数组的 kernel
- ARROW-11431 - [Rust][DataFusion] 添加对 SQL HAVING 子句的支持
- ARROW-11435 - 允许从外部 crate 创建 ParquetPartition
- ARROW-11436 - [Rust] 允许 Primitive::from_iter 中使用非固定大小的迭代器
- ARROW-11437 - [Rust] 简化 benches
- ARROW-11438 - sqltorel 中不支持的 ast 节点 Value(Boolean(true))
- ARROW-11439 - [Rust] 向时间类型 kernel 添加年份支持
- ARROW-11440 - [Rust][DataFusion] 添加 CsvExec 获取 CSV schema 的方法
- ARROW-11442 - [Rust] 暴露用于解释日期/时间的逻辑
- ARROW-11443 - [Rust] 在 csv writer 中为 Date64 类型写入 datetime 信息
- ARROW-11444 - [Rust][DataFusion] 向函数传递 slices 而不是 &Vec
- ARROW-11446 - [DataFusion] 支持内置函数中的 scalars
- ARROW-11447 - [Rust] 添加 shift kernel
- ARROW-11449 - [CI][R][Windows] 使用 ccache
- ARROW-11457 - [Rust] 使字符串比较 kernel 对 Utf8 和 LargeUtf8 通用
- ARROW-11459 - [Rust] 允许从迭代器构建 primitives 的 ListArray
- ARROW-11462 - [Developer] 移除默认 DOCKER_VOLUME_PREFIX 中不必要的引号
- ARROW-11463 - [Python] 允许通过 PyArrow 配置 IpcWriterOptions 64Bit
- ARROW-11466 - [Flight][Go] 为 Go 添加 BasicAuth 和 BearerToken 处理程序
- ARROW-11467 - [R] 修复 R 文档中对 json_table_reader() 的引用
- ARROW-11468 - [R] 允许用户将 schema 传递给 read_json_arrow()
- ARROW-11474 - [C++] 更新捆绑的 re2 版本
- ARROW-11476 - [Rust][DataFusion] 在 CI 中测试 TPCH benchmark 的运行
- ARROW-11477 - [R][Doc] 重新组织和改进 README 和 vignette 内容
- ARROW-11478 - [R] 考虑使 arrow.skip_nul 选项更用户友好的方法
- ARROW-11479 - [Rust][Parquet] 添加返回 row group 压缩大小的方法
- ARROW-11481 - [Rust] 更多 cast 实现
- ARROW-11484 - [Rust] 为 ExecutionContext 派生 Clone
- ARROW-11486 - [Website] 使用 Jekyll 4 和 webpack 以支持 Ruby 3.0 或更高版本
- ARROW-11489 - [Rust][DataFusion] 使 DataFrame 支持 Send+Sync
- ARROW-11491 - [Rust] 支持嵌套 list 和 struct 的 json schema 推断
- ARROW-11493 - [CI][Packaging][deb][RPM] 测试已构建的包
- ARROW-11500 - [R] 允许捆绑的构建脚本在 Solaris 上运行
- ARROW-11501 - [C++] endianness 检查在 Solaris 上不起作用
- ARROW-11504 - [Rust] 在 ListArray::from(ArrayDataRef) 中验证 Datatype
- ARROW-11505 - [Rust] 在 csv-writer 中添加对 LargeUtf8 的支持
- ARROW-11507 - [R] GetRuntimeInfo 的绑定
- ARROW-11510 - [Python] 添加说明,获取二进制包需要 pip >= 19.0
- ARROW-11511 - [Rust] 将 Arc<ArrayData> 替换为 ArrayData
- ARROW-11512 - [Packaging][deb] 为 Ubuntu 21.04 添加缺失的 gRPC 依赖
- ARROW-11513 - [R] sub/gsub 的绑定
- ARROW-11516 - [R] 允许在 dplyr 中通过名称调用所有 C++ 计算函数
- ARROW-11539 - [Developer][Archery] 更改 items_per_seconds 的单位
- ARROW-11541 - [C++][Compute] 实现近似 quantile kernel
- ARROW-11542 - [Rust] json reader 在读取嵌套 list 时不应崩溃
- ARROW-11544 - [Rust][DataFusion] 为 AggregateExpr 实现 as_any
- ARROW-11545 - [Rust][DataFusion] SendableRecordBatchStream 应实现 Sync
- ARROW-11556 - [C++] 小幅 benchmark 改进
- ARROW-11557 - [Rust] 向 DataFusion ExecutionContext 添加表注销功能
- ARROW-11559 - [C++] 改进 flatbuffers 验证限制
- ARROW-11559 - [C++] 改进 flatbuffers 验证限制
- ARROW-11561 - [Rust][DataFusion] 为 MemTable::load 添加 Send + Sync
- ARROW-11563 - [Rust] 支持 Cast(Utf8, TimeStamp(Nanoseconds, None))
- ARROW-11568 - [C++][Compute] 在某些条件下 Mode kernel 性能较差
- ARROW-11570 - [Rust] ScalarValue - 支持 Date64
- ARROW-11571 - [CI] 取消过时的 Github Actions workflow 运行
- ARROW-11572 - [Rust] 添加用于除以单个 scalar 的 kernel
- ARROW-11573 - [Developer][Archery] Google benchmark 现在报告运行类型
- ARROW-11574 - [Rust][DataFusion] 升级 sqlparser 到 0.8 以支持解析所有 TPC-H 查询
- ARROW-11575 - [Developer][Archery] 在 benchmark 结果中暴露执行时间
- ARROW-11576 - [Rust] 移除示例中未使用的变量
- ARROW-11580 - [C++] 添加 CMake 选项 ARROW_DEPENDENCY_SOURCE=VCPKG
- ARROW-11589 - [R] 添加修改 Schemas 的方法
- ARROW-11590 - [C++] 将 CSV 后台生成器移至 IO 线程池
- ARROW-11591 - [C++][Compute] hash aggregation 的原型版本
- ARROW-11592 - [Rust] 注释中的拼写错误
- ARROW-11594 - [Rust] 支持对 NullArrays 进行 pretty printing
- ARROW-11597 - [Rust] 将 datatypes 拆分到模块中
- ARROW-11598 - [Rust] 将 buffer.rs 拆分成更小的文件
- ARROW-11599 - [Rust] 添加创建全 null 数组的函数
- ARROW-11601 - [C++][Dataset] 在 ParquetFileFormatReaderOptions 中暴露预缓冲选项
- ARROW-11606 - [Rust][DataFusion] 需要关于 HashAggregateExec 重构的指导
- ARROW-11610 - [C++] 从 sourceforge 下载 boost 而不是 bintray
- ARROW-11612 - [C++] 重建 1.75.0 版本的 trimmed boost 捆绑包
- ARROW-11613 - [R] 将 C++ 夜间构建从 bintray 移开
- ARROW-11616 - [Rust][DataFusion] 为 DataFrame 暴露 collect_partitioned
- ARROW-11621 - [CI][Gandiva][Linux] 修复 Crossbow 设置失败
- ARROW-11626 - [Rust][DataFusion] 将 DataFusion 示例移至单独的项目以减少依赖项数量
- ARROW-11627 - [Rust] 类型化分配器
- ARROW-11637 - [CI][Conda] 更新夜间清理目标平台和包列表
- ARROW-11641 - [CI] 使用 docker buildkit 的 inline cache 在不同主机之间重用构建缓存
- ARROW-11649 - [R] 为 R 添加对 null_fallback 的支持
- ARROW-11651 - [Rust][DataFusion] 实现 Postgres Length 函数
- ARROW-11653 - Ascii/unicode 函数
- ARROW-11655 - Pad/trim 函数
- ARROW-11656 - 剩余函数/修复
- ARROW-11659 - [R] 保留 group_by .drop 参数
- ARROW-11662 - [C++] 支持 decimal 数据类型的排序。
- ARROW-11664 - [Rust] 转换为 LargeUtf8
- ARROW-11665 - [Python] 记录 decimal128() 的精度和比例参数
- ARROW-11666 - [Integration] 添加 decimal256 的字节序“黄金”集成文件
- ARROW-11667 - [Rust] 为 utf8 比较函数添加文档
- ARROW-11669 - [Rust][DataFusion] 从 GlobalLimitExec 中移除 concurrency 字段
- ARROW-11671 - [Rust][DataFusion] 清理 Expr 的文档
- ARROW-11677 - [C++][Dataset] 编写文档
- ARROW-11680 - [C++] 添加 folly 的 spsc queue 的 vendored 版本
- ARROW-11683 - [R] 支持 dplyr::mutate()
- ARROW-11685 - [C++] future_test.cc 中的拼写错误
- ARROW-11688 - [Rust] utf8 和 large-utf8 之间的转换
- ARROW-11690 - [Rust][DataFusion] 在 Expr builder 方法中避免 Expr::clone
- ARROW-11692 - [Rust][DataFusion] 改进 Optimizer 的文档
- ARROW-11693 - [C++] 添加字符串长度 kernel
- ARROW-11700 - [R] 在 tidy eval 中实现错误处理国际化
- ARROW-11701 - [R] 实现 dplyr::relocate()
- ARROW-11703 - [R] 实现 dplyr::arrange()
- ARROW-11704 - [R] 为数据集连接 dplyr::mutate()
- ARROW-11707 - 支持不进行 IO 的 CSV schema 推断
- ARROW-11708 - 清理 Rust 2021 linting 警告
- ARROW-11709 - [Rust][DataFusion] 将 `expressions` 和 `inputs` 移入 LogicalPlan,而不是放在 util 助手函数中
- ARROW-11710 - [Rust][DataFusion] 实现 ExprRewriter 以避免树遍历冗余
- ARROW-11719 - 支持 memory table 的合并 schema
- ARROW-11721 - json schema 推断应返回 Schema 类型而不是 SchemaRef
- ARROW-11722 - 改进 FFI 中的错误消息
- ARROW-11724 - [C++] 与 protobuf 3.15 的命名空间冲突
- ARROW-11725 - [Rust][DataFusion] 利用 arrow 中新的 divide_scalar kernel
- ARROW-11727 - [C++][FlightRPC] 在 benchmark 中使用 TDigest 估计延迟分位数
- ARROW-11730 - [C++] 添加隐式 Future(Status) 构造函数以方便使用
- ARROW-11733 - [Rust][DataFusion] 支持 hash repartitioning
- ARROW-11734 - [C++] vendored safe-math.h 在 Solaris 上无法编译
- ARROW-11735 - [R] 允许 Parquet 和 Arrow Dataset 成为可选组件
- ARROW-11736 - [R] 允许字符串计算函数成为可选
- ARROW-11737 - [C++] 为 Solaris 打 vendored xxhash 补丁
- ARROW-11738 - [Rust][DataFusion] Concat 函数
- ARROW-11740 - [C++] posix_memalign 在 Solaris 上未在作用域中声明
- ARROW-11742 - [Rust][DataFusion] 添加 Expr::is_null 和 Expr::is_not_null 函数
- ARROW-11744 - [C++] 添加 xsimd 依赖
- ARROW-11745 - [C++] 改进随机数据生成的配置能力
- ARROW-11750 - [Python][Dataset] 添加对 project expressions 的支持
- ARROW-11752 - [R] 替换 testthat::expect_is() 的用法
- ARROW-11753 - [Rust][DataFusion] 为 Join Statement 添加测试:Schema 包含重复的非限定字段名
- ARROW-11754 - [R] 支持 dplyr::compute()
- ARROW-11761 - [C++] 增加公共 API 测试
- ARROW-11766 - [R] 更好地处理 Linux 上缺失的压缩编解码器
- ARROW-11768 - [C++][CI] 使 s390x 构建非可选
- ARROW-11773 - [Rust] 允许 json writer 写入 JSON 数组以及换行格式的对象
- ARROW-11774 - [R] 在 macOS 上一行命令从源代码安装
- ARROW-11775 - [Rust][DataFusion] 依赖项的功能标志
- ARROW-11777 - [Rust] 为 StringBuilder/BinaryBuilder 实现 AsRef
- ARROW-11778 - 从 large-utf8 转换为数值数组
- ARROW-11779 - [Rust] 使 alloc 模块公开
- ARROW-11790 - [Rust][DataFusion] 更改计划构建器签名以接受 Vec<Expr> 而非 &[Expr]
- ARROW-11794 - [Go] 添加并发安全的 ipc.FileReader.RecordAt(i)
- ARROW-11795 - [MATLAB] 将 Apache Arrow 的 MATLAB 接口设计文档迁移到 Markdown
- ARROW-11797 - [C++][Dataset] 提供 Scanner 方法以生成/访问扫描到的批次
- ARROW-11798 - [Integration] 更新测试子模块
- ARROW-11799 - [Rust] String 和 Binary 数组从无界迭代器以不正确长度创建
- ARROW-11801 - [C++] 移除 filesystem/type_fwd.h 中错误的头文件保护
- ARROW-11803 - [Rust] [Parquet] 支持 v2 LogicalType
- ARROW-11806 - [Rust][DataFusion] 优化内部连接索引创建
- ARROW-11820 - 添加宏 create_native 用于构建 impl
- ARROW-11822 - 支持函数的区分大小写
- ARROW-11824 - [Rust] [Parquet] 在 Arrow 写入器中使用逻辑类型
- ARROW-11825 - [Rust][DataFusion] 将 mimalloc 作为选项添加到基准测试
- ARROW-11833 - [C++] 针对 emscripten 的 Vendored fast_float 错误 (缺少架构标志)
- ARROW-11837 - [C++][Dataset] 将源片段作为 ScanTask 的属性暴露
- ARROW-11838 - [C++] 支持使用共享字典读取 IPC 数据
- ARROW-11839 - [C++] 使用 xsimd 重写位解包优化
- ARROW-11842 - [Rust][Parquet] 在 get_batch_with_dict 中使用更高效的 clone_from
- ARROW-11852 - [Documentation] 更新 CONTRIBUTING 以解释贡献者角色
- ARROW-11856 - [C++] 移除对 RecordBatchStreamWriter 的未使用引用
- ARROW-11858 - [GLib] 在 GLib 中的 Gandiva Filter
- ARROW-11859 - [GLib] GArrowArray: 缺少 concatenate
- ARROW-11864 - [R] 记录 arrow.int64_downcast 选项
- ARROW-11870 - [Dev] 在 venv 中自动运行合并脚本
- ARROW-11876 - [Website] 更新治理页面
- ARROW-11877 - [C++] 为 Dataset 内部添加初始微基准测试
- ARROW-11879 - [Rust][DataFusion] ExecutionContext::sql 应该优化查询计划
- ARROW-11883 - [C++] 添加 ConcatMap, MergeMap, 以及 Map 的一个异步可重入版本
- ARROW-11887 - [C++] 向流式 CSV 读取器添加异步读取
- ARROW-11894 - [Rust][DataFusion] 更改 flight 服务器示例以使用 DataFrame API
- ARROW-11895 - [Rust][DataFusion] 添加对额外列统计信息的支持
- ARROW-11898 - [Rust] 美化打印列
- ARROW-11899 - [Java] 将压缩编解码器实现重构为核心/Arrow 特定部分
- ARROW-11900 - [Website] 将 Yibo 添加到 Committer 列表
- ARROW-11906 - [R] 使 FeatherReader 的 print 方法更具信息量
- ARROW-11907 - [C++] 在 S3FileSystem 中使用我们自己的执行器
- ARROW-11910 - [Packaging][Ubuntu] 停止支持 16.04
- ARROW-11911 - [网站] 添加 Protobuf 与 Arrow 的对比到 FAQ
- ARROW-11912 - [R] 从 FeatherReader$create 中移除参数
- ARROW-11913 - [Rust] 提升 StringBuilder 的性能
- ARROW-11920 - [R] 添加 r/libarrow 到 make clean
- ARROW-11921 - [R] 在 r/data-raw/codegen.R 中设置 LC_COLLATE
- ARROW-11924 - [C++] 从 GetFileInfo 提供流式输出
- ARROW-11925 - [R] 为 arrow_dplyr_query 添加 `between` 方法
- ARROW-11927 - [Rust][DataFusion] 支持 limit 下推
- ARROW-11931 - [Go][CI] 将 CI 升级到使用 Go 1.15
- ARROW-11935 - [C++] 添加 push 生成器
- ARROW-11944 - [开发者] Archery 基准测试 diff 回归:无法比较 json
- ARROW-11949 - [Ruby] 接受原始 Ruby 对象作为排序键和选项
- ARROW-11951 - [Rust] 移除 OffsetSize::prefix
- ARROW-11952 - [Rust] 使 ArrayData –> GenericListArray 可失败而非 `panic!`
- ARROW-11954 - [C++] arrow/util/io_util.cc 在 Solaris 上无法编译
- ARROW-11955 - [Rust][DataFusion] 支持 Union
- ARROW-11958 - [GLib] GArrowChunkedArray: combine 方法缺失
- ARROW-11959 - [Rust][DataFusion] 修复优化计划的日志记录
- ARROW-11962 - [Rust][DataFusion] 更新 Datafusion 文档/README
- ARROW-11969 - [Rust][DataFusion] 改进文档中的示例
- ARROW-11972 - [C++][数据集] 提取 IpcFragmentScanOptions, ParquetFragmentScanOptions
- ARROW-11973 - [Rust] 布尔 AND/OR 内核在处理 null 值时应遵循 SQL 行为
- ARROW-11977 - [Rust] 为排序内核添加文档示例
- ARROW-11982 - [Rust] 捐赠 Ballista 分布式计算平台
- ARROW-11984 - [C++][Gandiva] 实现 SHA1 和 SHA256 函数
- ARROW-11987 - [C++][Gandiva] 在 Gandiva 中实现三角函数
- ARROW-11988 - [C++][Gandiva] 实现 last_day 函数
- ARROW-11992 - [Rust][Parquet] 添加关于 4.0 逻辑类型重命名 #9731 的升级说明
- ARROW-11993 - [C++] 如果 ARROW_SIMD_LEVEL=NONE 则不下载 xsimd
- ARROW-11996 - [R] 使 r/configure 在 Solaris 上成功运行
- ARROW-11999 - [Java] 支持使用用户指定比较器进行并行向量元素搜索
- ARROW-12000 - [文档] 添加关于 struct/classes 偏离样式指南的说明
- ARROW-12005 - [R] 修复 configure 中的 bash 拼写错误
- ARROW-12017 - [R] [文档] 编写完善的 Arrow 开发文档
- ARROW-12019 - [Rust] [Parquet] 更新 README 以支持 2.6.0
- ARROW-12020 - [Rust][DataFusion] 为 DataFusion 添加 SHOW TABLES 和 SHOW COLUMNS 以及部分 information_schema 支持
- ARROW-12031 - [C++][CSV] 推断带小数秒的 CSV 时间戳列
- ARROW-12032 - [Rust] 使用 trusted_len 迭代器优化布尔值的比较内核
- ARROW-12034 - [文档] 规范化小型 PR
- ARROW-12037 - [Rust] [DataFusion] 支持 catalog 和 schema 用于表命名空间
- ARROW-12038 - [Rust][DataFusion] 将 hashbrown 升级到 0.11
- ARROW-12039 - [CI][C++][Gandiva] 修复 gandiva 夜间构建在 Linux 上的失败
- ARROW-12040 - [R] [CI] [C++] test-r-rstudio-r-base-3.6-opensuse15 在测试期间超时
- ARROW-12043 - [Rust] [Parquet] 写入固定大小二进制数组
- ARROW-12045 - 首个移植的 Parquet 代码块
- ARROW-12047 - [Rust] Clippy parquet
- ARROW-12048 - [Rust][DataFusion] 支持公共表表达式 (CTE)
- ARROW-12052 - [Rust] 在 C FFI 中实现子数据
- ARROW-12056 - [C++] 创建序列化 AsyncGenerator
- ARROW-12058 - [Python] 在 Expressions 上启用算术运算
- ARROW-12068 - [Python] 停止使用 distutils
- ARROW-12069 - [C++][Gandiva] 为 Decimal 类型实现 IN 表达式
- ARROW-12070 - [GLib] 放弃对 GNU Autotools 的支持
- ARROW-12071 - [GLib] 保留 GArrowJSONReader 的输入流引用
- ARROW-12075 - [Rust][DataFusion] 将 CTE 添加到支持功能列表
- ARROW-12081 - [R] utf8_length 的绑定
- ARROW-12082 - [R][数据集] 允许从文件路径向量创建数据集
- ARROW-12094 - [C++][R] 修复/绕过 re2 在 clang/libc++ 上的构建问题
- ARROW-12097 - [C++] 修改 BackgroundGenerator 以创建更少线程
- ARROW-12098 - [R] 捕获 Linux 上的 C++ 构建失败
- ARROW-12104 - 下一个移植的代码块
- ARROW-12106 - [Rust][DataFusion] 支持 `SELECT * from information_schema.tables`
- ARROW-12107 - [Rust][DataFusion] 支持 `SELECT * from information_schema.columns`
- ARROW-12108 - [Rust][DataFusion] 支持 `SHOW TABLES`
- ARROW-12109 - [Rust][DataFusion] 支持 `SHOW COLUMNS`
- ARROW-12110 - [Java] 为 Java 实现 ZSTD 缓冲区压缩
- ARROW-12111 - [Java] 将 flatc 生成的文件置于版本控制下
- ARROW-12116 - [Rust] 修复或忽略 1.51 clippy lint
- ARROW-12119 - [Rust][DataFusion] 提升 to_array_of_size 的性能
- ARROW-12120 - [Rust] 生成随机数组和批次
- ARROW-12121 - [Rust] [Parquet] Arrow writer 基准测试
- ARROW-12123 - [Rust][DataFusion] 对索引使用 smallvec 以提高 join 性能
- ARROW-12128 - [CI][Crossbow] 移除(或修复)test-ubuntu-16.04-cpp 作业
- ARROW-12131 - [CI][GLib] 确保升级 MSYS2
- ARROW-12133 - [C++][Gandiva] 添加选项以禁用在 llvm ir 编译期间将 mcpu 标志设置为 host cpu
- ARROW-12134 - [C++] 添加正则表达式字符串匹配内核
- ARROW-12136 - [Rust][DataFusion] 将默认 batch_size 减小到 8192
- ARROW-12139 - [Python][打包] 使用 vcpkg 构建 macOS wheels
- ARROW-12141 - [R] grepl 的绑定
- ARROW-12143 - [CI] R 构建应在达到某个阈值后超时并失败,并转储输出。
- ARROW-12146 - [C++][Gandiva] 实现 CONVERT_FROM(expression, ‘UTF8’, replacement char) 函数
- ARROW-12151 - [文档] 将 Jira 组件 + 摘要约定添加到文档
- ARROW-12153 - [Rust] [Parquet] 写入 Parquet 文件后返回文件元数据
- ARROW-12160 - [Rust] 为 ipc::writer::StreamWriter 添加 `into_inner()` 方法
- ARROW-12164 - [Java] 将 BaseAllocator.Config 公开
- ARROW-12165 - [Rust] 内联 builders 中的 append 函数以提高性能
- ARROW-12168 - [Go][IPC] 实现 IPC 的压缩处理
- ARROW-12170 - [Rust][DataFusion] 引入 repartition 优化
- ARROW-12173 - [GLib] 移除 #include <config.h>
- ARROW-12176 - parquet/low-level-api/reader-writer.cc 中有一些拼写错误。
- ARROW-12187 - [C++][FlightRPC] 在 Flight 基准测试中启用压缩
- ARROW-12188 - [文档] 将主 sphinx 文档的主题切换到 pydata-sphinx-theme
- ARROW-12190 - [Rust][DataFusion] 实现分区哈希 join
- ARROW-12192 - [网站] 使用可下载的 URL 进行归档下载
- ARROW-12193 - [开发者][打包] 使用可下载的 URL 进行归档下载
- ARROW-12194 - [Rust] [Parquet] 更新 zstd 版本
- ARROW-12197 - [R] cast, dictionary_encode 的 dplyr 绑定
- ARROW-12200 - [R] 导出并文档化 list_compute_functions
- ARROW-12204 - [Rust][CI] 减小集成测试中 rust 构建产物的尺寸
- ARROW-12206 - [Python] 修复 Table docstrings
- ARROW-12208 - [C++] 添加不使用 CPU 线程池运行异步任务的能力
- ARROW-12210 - [Rust][DataFusion] 文档化 SHOW TABLES / SHOW COLUMNS / InformationSchema
- ARROW-12214 - [Rust][DataFusion] 为 limit 添加一些测试
- ARROW-12215 - [C++] CSV reader 中固定大小二进制列不能为 null
- ARROW-12217 - [C++] 清理 cpp 示例源文件名
- ARROW-12222 - [开发者][打包] 在 crossbow 控制台报告中包含构建 URL
- ARROW-12224 - [Rust] 对无默认测试使用稳定版 rust,清理 CI 测试
- ARROW-12228 - [CI] 为 conda 环境创建基础镜像
- ARROW-12236 - [R][CI] 添加检查以确保所有文档页面都列在 _pkgdown.yml 中
- ARROW-12237 - [打包][Debian] 添加对 bulleye 的支持
- ARROW-12238 - [JS] 移除尾随空格
- ARROW-12239 - [JS] 切换到 yarn
- ARROW-12242 - [Python][文档] 调整夜间构建说明
- ARROW-12246 - [CI] 将 conda recipes 与上游 feedstock 同步
- ARROW-12248 - [C++] 允许静态构建更改内存分配器
- ARROW-12249 - [R] [CI] 修复 test-r-install-local 夜间构建
- ARROW-12251 - [Rust] [Ballista] 将 Ballista 测试添加到 CI
- ARROW-12263 - [开发者][打包] 将 Crossbow 移至 Archery
- ARROW-12269 - [JS] 切换到 eslint
- ARROW-12274 - [JS] 文档化如何在不构建的情况下运行测试
- ARROW-12277 - [Rust][DataFusion] timestamp 类型不支持 Min/Max
- ARROW-12278 - [Rust][DataFusion] 对 SQL TIMESTAMP 类型使用 Timestamp(Nanosecond, None)
- ARROW-12280 - [开发者] 在合并工具中从提交消息中移除 @-提及
- ARROW-12281 - [JS] 移除 shx, trash 和 rimraf
- ARROW-12283 - [R] dplyr verbs 中基本类型转换函数的绑定
- ARROW-12286 - [C++] 从 Future<AsyncGenerator<T>> 创建 AsyncGenerator
- ARROW-12287 - [C++] 创建枚举生成器
- ARROW-12288 - [C++] 创建 Scanner 接口
- ARROW-12289 - [C++] 创建基础 AsyncScanner 实现
- ARROW-12303 - [JS] 在关键代码路径中使用迭代器而非生成器
- ARROW-12304 - [R] 更新新闻并完善 4.0 文档
- ARROW-12305 - [JS] 基准测试数据 generate.py 假定使用 python 2
- ARROW-12309 - [JS] 将 es2015 bundles 设为默认
- ARROW-12316 - [C++] 在 macOS 上将默认内存分配器从 jemalloc 切换到 mimalloc
- ARROW-12317 - [Rust] JSON writer 不支持 time, date 或 interval 类型
- ARROW-12320 - [CI] conda-cpp-valgrind 中缺少 REPO 参数
- ARROW-12323 - [C++][Gandiva] 实现 castTIME(timestamp) 函数
- ARROW-12325 - [C++] [CI] 夜间 gandiva 构建失败,原因在于编译器未能移动返回值
- ARROW-12326 - [C++] 避免不必要的 c-ares 检测
- ARROW-12328 - [Rust] [Ballista] 修复代码格式
- ARROW-12329 - [Rust] [Ballista] 添加 README
- ARROW-12332 - [Rust] [Ballista] 调度器的 API 服务器
- ARROW-12333 - [JS] 移除 jest-environment-node-debug 并默认不从 typescript 发出
- ARROW-12335 - [Rust] [Ballista] 提升 DataFusion 版本
- ARROW-12337 - 添加 DoubleEndedIterator 和 ExactSizeIterator traits
- ARROW-12351 - [CI][Ruby] 使用 ruby/setup-ruby 而非 actions/setup-ruby
- ARROW-12352 - [CI][R][Windows] 移除 MSYS2 的不必要 workaround
- ARROW-12353 - [打包][deb] 将 -archive-keyring 重命名为 -apt-source
- ARROW-12354 - [打包][RPM] 使用 apache.jfrog.io/artifactory/ 而非 apache.bintray.com/
- ARROW-12356 - [网站] 更新安装页面的说明以指向 artifactory
- ARROW-12361 - [Rust] [DataFusion] 允许用户覆盖物理优化规则
- ARROW-12367 - [C++] 当 PushGenerator 被销毁时停止生成
- ARROW-12370 - [R] power kernel 的绑定
- ARROW-12374 - [CI][C++][cron] 使用 Ubuntu 20.04 而非 16.04
- ARROW-12375 - [发布] 移除 rebase 发布后脚本
- ARROW-12376 - [开发者] archery trigger-bot 应该使用 logger.exception
- ARROW-12380 - [Rust][Ballista] 添加调度器 UI
- ARROW-12381 - [打包][Python] macOS wheels 构建时使用了错误的包类型
- ARROW-12383 - [JS] 更新直接依赖项
- ARROW-12384 - [JS] 改进代码风格
- ARROW-12389 - [R] [文档] 添加关于 autocasting 的说明
- ARROW-12395 - [C++]:创建 RunInSerialExecutor 基准测试
- ARROW-12396 - [Python][文档] 澄清序列化 docstrings 中关于弃用状态的说明
- ARROW-12397 - [Rust] [DataFusion] 简化 readme 示例 #10038
- ARROW-12398 - [Rust] 移除迭代器中的双重边界检查
- ARROW-12400 - [Rust] 重新启用 transform 模块测试
- ARROW-12402 - [Rust] [DataFusion] 实现 SQL 指标框架
- ARROW-12406 - [R] 修复 configure 中的 checkbashims 违规问题
- ARROW-12409 - [R] 从 DESCRIPTION 中移除 LazyData
- ARROW-12419 - [Java] flatc 在 mvn 中未使用
- ARROW-12420 - [C++/数据集] 将 null 列作为字典读取不再可能
- ARROW-12423 - [文档] 主 Readme 中的 Codecov 徽章仅适用于 Rust
- ARROW-12425 - [Rust] new_null_array 未为字典数组分配 keys 缓冲区
- ARROW-12432 - [Rust] [DataFusion] 为 SortExec 添加指标
- ARROW-12436 - [Rust][Ballista] 为 config backend trait 添加 watch 功能
- ARROW-12467 - [C++][Gandiva] 添加对 LLVM12 的支持
- ARROW-12477 - [发布] 在 verify-release-candidate.sh 中下载 linux aarch64 miniforge
- ARROW-12485 - [C++] 在 macOS 上使用 mimalloc 作为默认内存分配器
- ARROW-12488 - [GLib] 在 GLib 2.68 或更高版本中使用 g_memdup2()
- ARROW-12494 - [C++] ORC adapter 在 GCC 4.8 上编译失败
- PARQUET-1846 - [C++] 移除已弃用的 IO 类和相关函数
- PARQUET-1899 - [C++] parquet/column_reader 中已弃用 ReadBatchSpaced
- PARQUET-1990 - [C++] 在某些情况下写入 ConvertedType::NA
- PARQUET-1993 - [C++] 暴露预取何时完成
- PARQUET-1998 - [C++] 实现 LZ4_RAW 压缩
Bug 修复
- ARROW-4784 - [C++][CI] 重新启用不稳定的 mingw 测试。
- ARROW-6818 - [文档] 格式文档令人困惑
- ARROW-7288 - [C++][R] read_parquet() 在使用日语区域设置的 Windows 上冻结
- ARROW-7830 - [C++] Parquet 库版本不随发布更改
- ARROW-9451 - [Python] 无符号整数类型将在 pyarrow.array 中接受字符串值
- ARROW-9634 - [C++][Python] 读取之前是 Arrow 的 Parquet 文件时恢复非 UTC 时区
- ARROW-9878 - [Python] table to_pandas self_destruct=True + split_blocks=True 无法阻止内存加倍
- ARROW-10038 - [C++] SetCpuThreadPoolCapacity(1) 会启动 nCPUs 个线程
- ARROW-10056 - [C++] 增加 flatbuffers max_tables 参数以读取宽表
- ARROW-10364 - [开发者][Archery] 测试因 semver 2.13.0 而失败
- ARROW-10370 - [Python] 虚假的 s3fs 相关测试失败
- ARROW-10403 - [C++] 为字典类型实现 unique 内核
- ARROW-10405 - [C++] IsIn kernel 应该能够在字符串中查找字典
- ARROW-10457 - [CI] 修复 Spark branch-3.0 集成测试
- ARROW-10489 - [C++] 无法使用 intel 编译器配置或构建
- ARROW-10514 - [C++][Parquet] parquet-reader 输出模式中的数据不一致
- ARROW-10953 - [R] 使用 schema 创建 Table 时进行验证
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在 bug
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在 bug
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在 bug
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在 bug
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在 bug
- ARROW-11134 - [C++][CI] Travis-CI 上的 ARM64 作业未运行测试
- ARROW-11147 - [Python][CI] Parquet 测试在使用 Dask master 的夜间构建中失败
- ARROW-11180 - [开发者] cmake-format pre-commit hook 未运行
- ARROW-11192 - [文档] 描述如何打开 Visual Studio 以继承工作环境
- ARROW-11223 - [Java] BaseVariableWidthVector/BaseLargeVariableWidthVector 的 setNull 和 getBufferSizeFor 存在 bug
- ARROW-11235 - [Python] 非默认区域内的 S3 测试失败
- ARROW-11239 - [Rust] array::transform::tests::test_struct 失败
- ARROW-11269 - [Rust] 由于列派生 schema 与嵌入式 schema 不匹配,无法读取 Parquet 文件
- ARROW-11277 - [C++] 修复 macOS 10.11 上 dataset 表达式的编译错误
- ARROW-11299 - [Python] python 中的构建警告
- ARROW-11303 - [发布][C++] 在 windows 验证脚本中启用 mimalloc
- ARROW-11305 - [Rust]: parquet-rowcount 二进制文件试图将自身作为 parquet 文件打开
- ARROW-11311 - [Rust] unset_bit 正在切换位,而不是取消设置它们
- ARROW-11313 - [Rust] 迭代器的 size hint 不正确
- ARROW-11315 - [打包][APT][arm64] 添加缺失的 gir1.2 文件
- ARROW-11320 - [C++] 创建临时目录时出现虚假的测试失败
- ARROW-11322 - [Rust] Arrow \`memory\` 被设为私有是一个破坏性 API 更改
- ARROW-11323 - [Rust][DataFusion] 带有 ORDER BY 或 GROUP BY 且返回空的查询会产生 ComputeError("concat requires input of at least one array")
- ARROW-11328 - [R] 从数据集中收集零列会返回整个数据集
- ARROW-11334 - [Python][CI] 夜间 pandas 构建失败,原因在于 pandas 内部更改
- ARROW-11337 - [C++] 使用 ThreadSanitizer 时的编译错误
- ARROW-11357 - [Rust] take primitive 实现存在缺陷
- ARROW-11376 - [C++] 启用 Thread Sanitizer 时 ThreadedTaskGroup 失败
- ARROW-11379 - [C++][数据集] 对时间戳分区字段进行过滤时读取数据集崩溃
- ARROW-11387 - [Rust] 启用了 simd 特性的 Arrow 3.0.0 发布版本在没有 feature=avx512 的情况下无法编译。
- ARROW-11391 - [C++] HdfsOutputStream::Write 不安全地截断超过 INT32_MAX 的整数
- ARROW-11394 - [Rust] Slice + Concat 对于结构体不正确
- ARROW-11400 - [Python] pyarrow 2.0 中,带字典类型的 Pickled ParquetFileFragment 具有无效的 partition_expression
- ARROW-11403 - [开发者] archery benchmark list: 意外的关键字 ‘benchmark_filter’
- ARROW-11412 - [Python] Expressions 不支持逻辑布尔运算符 (and, or, not)
- ARROW-11412 - [Python] Expressions 不支持逻辑布尔运算符 (and, or, not)
- ARROW-11427 - [C++] 即使操作系统不支持,Arrow 仍使用 AVX512 指令
- ARROW-11448 - [C++] 使用 Visual Studio 的 Windows 上 tdigest 构建失败
- ARROW-11451 - [C++] 修复 gcc-4.8 构建错误
- ARROW-11452 - [Rust] Parquet reader 无法读取结构体列与结构体成员列同名的文件
- ARROW-11461 - [Flight][Go] GetSchema 不适用于 Java Flight Server
- ARROW-11464 - [Python] pyarrow.parquet.read_pandas 与其文档不符
- ARROW-11470 - [C++] ComputeRowMajorStrides, ComputeColumnMajorStrides 和 CheckTensorStridesValidity 中的整数乘法发生溢出
- ARROW-11472 - [Python][CI] Kartothek 集成构建在使用 numpy 1.20 时失败
- ARROW-11472 - [Python][CI] Kartothek 集成构建在使用 numpy 1.20 时失败
- ARROW-11480 - [Python] 使用日期过滤器读取带有 INT96 列的 parquet 文件时发生段错误
- ARROW-11483 - [Java][C++][集成] C++ 集成测试创建的 JSON 文件与 Java 不兼容
- ARROW-11488 - [Rust]: StructBuilder 的 Drop impl 内存泄漏
- ARROW-11490 - [C++] BM_ArrowBinaryDict/EncodeLowLevel 不确定
- ARROW-11494 - [Rust] 修复 take 基准测试
- ARROW-11497 - [Python] pyarrow parquet writer 对于 list 不符合 Apache Parquet 规范
- ARROW-11538 - [Python] 使用 Timestamp 过滤器读取 Parquet 数据集时发生段错误
- ARROW-11547 - [打包][Conda][Drone] 夜间构建因未定义变量错误而失败
- ARROW-11548 - [C++] RandomArrayGenerator::List 大小不匹配
- ARROW-11551 - [C++][Gandiva] castTIMESTAMP(utf8) 函数对无效输入不报错
- ARROW-11560 - [FlightRPC][C++][Python] 中断 Flight 服务器会导致中止
- ARROW-11567 - [C++][计算] Variance kernel 存在精度问题
- ARROW-11577 - [Rust] Concat kernel 在 string array 的切片上发生 panic
- ARROW-11582 - [R] write_dataset “format” 参数的默认值和验证可以做得更好
- ARROW-11586 - [Rust] [Datafusion] 无效 SQL 有时会 panic
- ARROW-11595 - [C++][夜间:test-conda-cpp-valgrind] GenerateBitsUnrolled 在未初始化输入上触发 valgrind
- ARROW-11596 - [Python][数据集] 使用 Python executors 执行 scan task 时发生 SIGSEGV
- ARROW-11603 - [Rust] 修复 clippy 错误
- ARROW-11607 - [Python] 从 parquet 读取带有 list 值的表时出错
- ARROW-11614 - [C++][Gandiva] 修复 round() 逻辑,使其在参数为零时返回正零
- ARROW-11617 - [C++][Gandiva] 修复 gandiva 中嵌套 if-else 优化问题
- ARROW-11620 - [Rust] [DataFusion] Box 和 Arc 在 TableProvider 中的使用不一致
- ARROW-11630 - [Rust] 为 sort kernel 引入 partial_sort 和 limit 选项
- ARROW-11632 - [Rust] csv::Reader 未将 schema metadata 传播到 RecordBatches
- ARROW-11639 - [C++][Gandiva] 修复 Ubuntu 夜间构建中的 signbit 编译问题
- ARROW-11642 - [C++] JVM 检测中 Windows 的预处理器指令不正确
- ARROW-11657 - [R] 指定 .drop 的 group_by 报错
- ARROW-11658 - [R] 处理 group_by 内部的 mutate/rename
- ARROW-11663 - [DataFusion] Master 分支无法编译
- ARROW-11668 - [C++] FutureStessTest.TryAddCallback 中偶尔出现的 UBSAN 错误
- ARROW-11672 - [R] 修复 R 3.3 上的字符串函数测试失败
- ARROW-11681 - [Rust] IPC writers 不应在析构函数中 unwrap
- ARROW-11686 - [C++] flight-test-integration-client 有时会因 SIGABRT 退出,但不打印堆栈跟踪
- ARROW-11687 - [Rust][DataFusion] RepartitionExec 挂起
- ARROW-11694 - [C++] Array Take 可能会解引用缺失的 null bitmap
- ARROW-11695 - [C++][FlightRPC][打包] 更新对最新 gRPC 版本禁用 TLS 服务器验证的支持
- ARROW-11717 - [集成] 使用 auth:basic_proto 的 flight 集成间歇性(但频繁)失败
- ARROW-11718 - [Rust] IPC writers 不应在 drop 时隐式完成
- ARROW-11741 - [C++] big-endian 上的 Decimal cast 失败
- ARROW-11743 - [R] 使用 pkgdown 新发现的自动链接 Jira 的能力
- ARROW-11746 - [开发者][Archery] 修复 prefer real time 检查
- ARROW-11756 - [R] 将 partition 作为 schema 传递导致段错误
- ARROW-11758 - [C++][计算] Summation kernel 的四舍五入误差
- ARROW-11767 - [C++] Scalar::hash 对于 null scalars 可能会发生段错误
- ARROW-11771 - [开发者][Archery] 移动基准测试(以便 CI 运行它们)
- ARROW-11784 - [Rust][DataFusion] CoalesceBatchesStream 不遵循 Stream 接口
- ARROW-11785 - [R] 使用不支持的表达式过滤 Table 失败时进行回退
- ARROW-11786 - [C++] CMake 输出嘈杂
- ARROW-11788 - [Java] 添加空 List Vector 导致 NPE
- ARROW-11791 - [Rust][DataFusion] RepartitionExec 阻塞
- ARROW-11802 - [Rust][DataFusion] crossbeam channel 和异步任务混合可能导致死锁
- ARROW-11819 - [Rust] 添加文档链接
- ARROW-11821 - [Rust] 编辑 Rust README
- ARROW-11830 - [C++] gRPC 编译测试每次都运行
- ARROW-11832 - [R] 处理额外嵌套结构列的转换
- ARROW-11836 - 目标 libarrow_bundled_dependencies.a 尚未创建但已要求。
- ARROW-11845 - [Rust] 如果数组包含负值,则 Date32Array 的调试实现会 panic
- ARROW-11850 - [GLib] 宏 GARROW_VERSION_0_16 缺失
- ARROW-11855 - [C++] [Python] 在转换分块结构数组时 to_pandas 中出现内存泄漏
- ARROW-11857 - [Python] 与 Pandas 一起使用新数据集 API 时资源暂时不可用
- ARROW-11860 - [Rust] [DataFusion] 添加 DataFusion 徽标
- ARROW-11866 - [C++] Arrow Flight SetShutdownOnSignals 导致 gRPC 中潜在的互斥锁死锁
- ARROW-11872 - [C++] 由于验证检查不正确,GPU 缓冲区的数组验证失败
- ARROW-11880 - [R] 正确处理空的或 NULL 的 transmute() 参数
- ARROW-11881 - [Rust][DataFusion] 修复 Clippy Lint
- ARROW-11896 - [Rust] CI 在 AMD64 Debian 10 Rust stable 测试工作空间中挂起/失败
- ARROW-11904 - [C++] 在 arrow-csv-test 结束时发生“纯虚方法调用”崩溃
- ARROW-11905 - [C++] SIMD 信息在 MacOS 上始终返回 none
- ARROW-11914 - [R] [CI] r-sanitizer nightly 版本损坏
- ARROW-11918 - [R] [Documentation] 文档清理
- ARROW-11923 - [CI] 更新 dask dev 集成测试的分支名称
- ARROW-11937 - [C++] 如果刷新两次,GZip 编解码器会挂起
- ARROW-11941 - [Dev] “DEBUG=1 merge_arrow_pr.py” 更新 Jira issue
- ARROW-11942 - [C++] 如果任务提交过快,线程池可能无法启动新线程
- ARROW-11945 - [R] filter 不接受负数作为有效值
- ARROW-11956 - [C++] 修复静态库的系统 re2 依赖检测
- ARROW-11965 - [R][Docs] 修复 R 开发文档中的 install.packages 命令
- ARROW-11970 - [C++][CI] 修复 Valgrind 失败
- ARROW-11971 - [Packaging] 由于行尾问题,Vcpkg 补丁在 Windows 上不生效
- ARROW-11975 - [CI][GLib] 更新 gcc 失败
- ARROW-11976 - [C++] TestThreadPool.SetCapacity 中出现偶发 TSAN 错误
- ARROW-11983 - [Python] 在 ThreadPool 中调用 pyarrow from_pandas 时出现 ImportError
- ARROW-11997 - [Python] concat_tables 导致 python 解释器崩溃
- ARROW-12003 - [R] 修复关于未定义全局函数 group_by_drop_default 的 NOTE
- ARROW-12006 - [Java] 修复 checkstyle 配置使其在 Windows 上工作
- ARROW-12012 - [Java] [JDBC] BinaryConsumer 无法正确重新分配内存
- ARROW-12013 - [C++][FlightRPC] 检测 gRPC 版本失败
- ARROW-12015 - [Rust] [DataFusion] 整合 doc-comment crate 以确保 readme 示例仍然有效
- ARROW-12028 - [Rust][DataFusion] 不支持 Timestamp(Millisecond, None) 的 GROUP BY
- ARROW-12029 - 从 FeatherReader$create v2 中删除参数
- ARROW-12033 - [Docs] 修复 developers/benchmarks.html 中的链接
- ARROW-12041 - [C++] 修复张量 IPC 消息的字符串描述
- ARROW-12051 - [GLib] 在 test_add_column_type(TestCSVReader::#read::options) 中出现间歇性 CI 失败
- ARROW-12057 - [Python] 移除对 pandas' Block 子类的直接使用
- ARROW-12065 - [C++][Python] 读取 JSON 文件时出现段错误
- ARROW-12067 - [Python][Doc] 文档化 pyarrow_(un)wrap_scalar
- ARROW-12073 - [R] 修复关于 ‘X_____X’ 的 R CMD check NOTE
- ARROW-12076 - [Rust] 修复构建
- ARROW-12077 - [C++] 在 ListArray::FromArrays 中出现越界写入
- ARROW-12086 - [C++] 离线构建不使用 ARROW_$LIBRARY_URL 搜索包
- ARROW-12088 - [Python][C++] 关于 pyarrow.dataset.RecordBatchIterator 中 offsetof 的警告
- ARROW-12089 - [Doc] 构建 Sphinx 文档时修复警告
- ARROW-12100 - [C#] 无法使用 PyArrow 进行 record batch 的往返转换
- ARROW-12103 - [C++] Parquet 读取器中出现“加载未对齐地址”
- ARROW-12112 - [CI] 设备上没有剩余空间 - AMD64 Conda 集成测试
- ARROW-12112 - [CI] 设备上没有剩余空间 - AMD64 Conda 集成测试
- ARROW-12113 - [R] 修复来自 check_select_helpers() 的 rlang 弃用警告
- ARROW-12130 - [C++] 如果 -DARROW_SIMD_LEVEL=NONE,Arm64 构建失败
- ARROW-12138 - [Go][IPC]
- ARROW-12140 - [C++][CI] 在 Grouper 测试中 Valgrind 失败
- ARROW-12145 - [Developer][Archery] 不稳定测试: test_static_runner_from_json
- ARROW-12149 - [Dev] Archery 基准测试用例失败
- ARROW-12154 - [C++][Gandiva] 修复 gandiva 在某些 OS/CPU 组合中崩溃的问题
- ARROW-12155 - [R] 要求 Table 列具有相同的长度
- ARROW-12161 - [C++][R] 从数据集中同步运行时,异步流式 CSV 读取器死锁
- ARROW-12161 - [C++][R] 从数据集中同步运行时,异步流式 CSV 读取器死锁
- ARROW-12169 - [C++] 修复在文件末尾有空流时的压缩文件读取问题
- ARROW-12171 - [Rust] Clippy 错误
- ARROW-12172 - [Python][Packaging] 在 macOS wheel 构建中将 python 版本作为 setuptools 伪版本传递
- ARROW-12178 - [CI] 更新 ubuntu 镜像中的 setuptools
- ARROW-12186 - [Rust][DataFusion] 修复 regexp_match 测试
- ARROW-12209 - [JS] @apache-arrow/ts 和 apache-arrow 都无法编译
- ARROW-12220 - [C++][CI] 线程 sanitizer 失败
- ARROW-12226 - [C++] s3fs_test.cc 中出现 ASAN 错误
- ARROW-12227 - [R] 修复 RE2 和 median nightly 构建失败
- ARROW-12235 - [Rust][DataFusion] 与几个小型分区一起使用时,LIMIT 返回不正确的结果
- ARROW-12241 - [Python] 并行 csv 读取器取消测试杀死 pytest 进程
- ARROW-12250 - [Rust] 失败测试 arrow::arrow_writer::tests::fixed_size_binary_single_column
- ARROW-12254 - [Rust][DataFusion] 达到限制后,Limit 继续轮询输入
- ARROW-12258 - [R] 永远不要在 collect(as_data_frame = FALSE) 上执行 as.data.frame()
- ARROW-12262 - [Doc][C++][Python] 在禁用 S3 和 Flight 的情况下构建和推送文档
- ARROW-12267 - [Rust] JSON 写入器不支持时间戳类型
- ARROW-12273 - [JS] Coveralls 不再工作
- ARROW-12279 - [Rust][DataFusion] 添加哈希连接中 null 处理的测试 (ARROW-12266)
- ARROW-12294 - [Rust] 修复没有余数的布尔克莱尼核
- ARROW-12299 - [Python] pq.write_to_dataset 无法识别 S3FileSystem
- ARROW-12300 - [C++] ArrowCUDA 错误地链接到 CUDA Runtime,尽管只使用了 CUDA Driver API
- ARROW-12313 - [Rust] [Ballista] 基准测试文档已过期
- ARROW-12314 - [Python] pq.read_pandas with use_legacy_dataset=False 不接受 columns 作为集合 (kartothek 集成失败)
- ARROW-12327 - [Dev] 通过评论机器人提交 crossbow 任务时使用 pull request 的 head remote
- ARROW-12330 - [Developer] 恢复 Archery 基准测试计数器列中的值
- ARROW-12334 - [Rust] [Ballista] 聚合查询产生不正确的结果
- ARROW-12342 - [Packaging] 修复 crossbow 模板中用于提交 nightly 构建的制表符
- ARROW-12357 - [Archery] 运行 “crossbow submit …” 时出错
- ARROW-12377 - [Doc][Java] Java 文档构建损坏
- ARROW-12379 - [C++][CI] SerialExecutor 中线程 sanitizer 失败
- ARROW-12382 - [C++][CI] Conda nightly 任务因未捆绑 xsimd 而失败
- ARROW-12385 - [R] [CI] 修复 CI 中的 cran 选择
- ARROW-12390 - [Rust] 内联 from_trusted_len_iter, try_from_trusted_len_iter, extend_from_slice
- ARROW-12401 - [R] 修复 dataset___Scanner__TakeRows 周围的守卫
- ARROW-12405 - [Packaging] 修复 apt artifact 模式和从 travis 上传 artifact
- ARROW-12408 - [R] 删除 Scan() 绑定
- ARROW-12421 - [Rust] [DataFusion] topk_query 测试在 master 分支中失败
- ARROW-12421 - [Rust] [DataFusion] topk_query 测试在 master 分支中失败
- ARROW-12429 - [C++] MergedGeneratorTestFixture 实例化不正确
- ARROW-12433 - [Rust] 由于新的 flatbuffer 版本引入 const generics,构建失败
- ARROW-12437 - [Rust] [Ballista] Ballista 计划不得包含 RepartitionExec
- ARROW-12440 - [Release] 各种打包、发布脚本和发布验证脚本修复
- ARROW-12466 - [Python] 将数组与 None 比较会引发错误
- ARROW-12475 - [C++] 来自 thread_pool_benchmark.cc 的构建警告
- ARROW-12487 - [C++][Dataset] 如果在扫描期间出错,ScanBatches() 会挂起
- ARROW-12495 - [C++][Python] NumPy 缓冲区将 is_mutable_ 设置为 true,但在 NumPy 数组可写时未设置 mutable_data_
- PARQUET-1655 - [C++] 用于 min/max 统计信息的 Decimal 比较不正确
- PARQUET-2008 - [C++] RowGroup::total_byte_size 中写入了错误信息