Apache Arrow 4.0.0 (2021 年 4 月 26 日)
这是一个主要版本,涵盖了 3 个多月的开发。
下载
贡献者
此版本包含来自 114 位不同贡献者的 719 次提交。
$ git shortlog -sn apache-arrow-3.0.0..apache-arrow-4.0.0
65 Antoine Pitrou
47 Andrew Lamb
41 Heres, Daniel
40 David Li
37 Sutou Kouhei
33 Neal Richardson
30 Weston Pace
28 Jorge C. Leitao
26 Krisztián Szűcs
25 Ian Cook
21 Dominik Moritz
20 Andy Grove
19 Yibo Cai
18 Joris Van den Bossche
17 Neville Dipale
17 Jonathan Keane
17 Ritchie Vink
12 Mike Seddon
12 Benjamin Kietzman
11 Mauricio Vargas
10 Qingping Hou
10 Diana Clarke
8 Micah Kornfield
7 Matthew Topol
7 Dmitry Patsura
5 Projjal Chanda
5 Kenta Murata
4 Anthony Louis
4 Ximo Guanter
4 liyafan82
3 Andre Braga Reis
3 Kazuaki Ishizaki
3 Maarten A. Breddels
3 Uwe L. Korn
3 ptaylor
3 Steven Fackler
3 Sagnik Chakraborty
3 Nic Crane
2 Marc Prud'hommeaux
2 Raphael Taylor-Davies
2 João Pedro
2 Yordan Pavlov
2 emkornfield
2 Max Burke
2 Florian Müller
2 Ben Chambers
2 mqy
2 Christoph Schulze
2 Manoj Karthick
2 Sathis Kumar
2 Ryan Jennings
2 Ruan Pearce-Authers
2 Tao He
2 Eric Burden
2 Tyrel Rink
2 Romain Francois
2 Rok
1 witchard
1 Adam Lippai
1 Albert Villanova del Moral
1 Alessandro Molina
1 Ali
1 Andrew Wieteska
1 Bob Tinsman
1 Brian Hulette
1 Bryan Cutler
1 Clcanny
1 Daniel Russo
1 Daniël Heres
1 Eduardo Ponce
1 Evan Chan
1 FawnD2
1 Felix Zhu
1 Fernando Herrera
1 Fiona La
1 François Saint-Jacques
1 GALI PREM SAGAR
1 Gert Hulselmans
1 Ha Thi Tham
1 Hongze Zhang
1 Ilya Biryukov
1 Ivan Smirnov
1 James Winegar
1 Joe Roberts
1 Johannes Müller
1 Jörn Horstmann
1 Mahmut Bulut
1 Marco Gorelli
1 Marko Mikulicic
1 Markus Silberstein Hont
1 Martin Nowak
1 Matt Brubeck
1 Matt Summersgill
1 Max Meldrum
1 Nathaniel Bauernfeind
1 Nga Tran
1 Nick Bruno
1 Rok Mihevc
1 Roman Karlstetter
1 Sam Albers
1 Simon Bertron
1 Szangin
1 Truc Lam Nguyen
1 Weichen Xu
1 Ying Zhou
1 frank400
1 ivan
1 jpeeter
1 martinblostein
1 nmcdonnell-kx
1 pierwill
1 sjgupta2
1 sundy-li
1 ARF1
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -csn apache-arrow-3.0.0..apache-arrow-4.0.0
157 Andrew Lamb
101 Antoine Pitrou
93 Neal Richardson
88 Krisztián Szűcs
72 Sutou Kouhei
41 David Li
30 Benjamin Kietzman
25 Neville Dipale
22 Micah Kornfield
19 Jorge C. Leitao
16 Andy Grove
14 Praveen
11 Joris Van den Bossche
9 GitHub
8 Yibo Cai
4 Uwe L. Korn
3 Sebastien Binet
2 liyafan82
1 Kenta Murata
1 Eric Erhardt
1 Chao Sun
1 Bryan Cutler
更新日志
Apache Arrow 4.0.0 (2021-04-26)
新特性和改进
- ARROW-951 - [JS] 修复生成的 API 文档
- ARROW-2229 - [C++] 从 RecordBatch、Table 写入 CSV 文件
- ARROW-3690 - [Rust] 将 Rust 添加到格式集成测试中
- ARROW-6103 - [Java] 停止使用 maven 发布插件
- ARROW-6248 - [Python] 在 Python 3 中,在 HadoopFileSystem.open() 中使用 FileNotFoundError
- ARROW-6455 - [C++] 为非 UTF-8 Unicode 数据实现 ExtensionType
- ARROW-6604 - [C++] 为 MakeArrayFromScalar 添加对嵌套类型的支持
- ARROW-7215 - [C++][Gandiva] 在 Gandiva 中实现 castVARCHAR(numeric_type) 函数
- ARROW-7364 - [Rust] 将强制转换选项添加到强制转换内核
- ARROW-7633 - [C++][CI] 为张量和稀疏张量创建模糊测试目标
- ARROW-7808 - [Java][Dataset] 实现 Datasets Java API
- ARROW-7906 - [C++][Python] ORC 格式的完整功能
- ARROW-8049 - [C++] 将捆绑的 Thrift 版本升级到 0.13.0
- ARROW-8282 - [C++/Python][Dataset] 支持整数列的模式演变
- ARROW-8284 - [C++][Dataset] 时间戳列的模式演变
- ARROW-8630 - [C++][Dataset] 传递包含所有物化字段的模式以捕获 CSV 边缘情况
- ARROW-8631 - [C++][Dataset] 将 ConvertOptions 和 ReadOptions 添加到 CsvFileFormat
- ARROW-8658 - [C++][Dataset] 为 FileSystemDataset::GetFragments 实现子树修剪
- ARROW-8732 - [C++] 让 Futures 支持取消
- ARROW-8771 - [C++] 将 boost/process 库添加到构建支持
- ARROW-8796 - [Rust] 允许将 parquet 直接写入内存
- ARROW-8797 - [C++] 支持不同字节序平台之间的 Flight RPC
- ARROW-8900 - [C++] 尊重 S3 文件系统的 HTTP(S)_PROXY 或将代理选项公开为参数
- ARROW-8919 - [C++] 向 compute::Function 添加“DispatchBest”API,该 API 选择可能需要隐式强制转换才能调用的内核
- ARROW-9128 - [C++] 实现字符串空格修剪内核:trim、ltrim 和 rtrim
- ARROW-9149 - [C++] 改进 RandomArrayGenerator::ArrayOf 的可配置性
- ARROW-9196 - [C++] 使时间强制转换适用于标量输入
- ARROW-9318 - [C++][Parquet] 加密密钥管理工具
- ARROW-9731 - [C++][Dataset] 将“head”方法从 R 移植到 C++ Dataset Scanner
- ARROW-9749 - [C++][Dataset] 从 FileFormat 中提取特定于格式的扫描选项
- ARROW-9777 - [Rust] 实现 IPC 更改以赶上 1.0.0 格式
- ARROW-9856 - [R] 为字符串计算函数添加绑定
- ARROW-10014 - [C++] TaskGroup::Finish 应该执行任务
- ARROW-10089 - [R] 为 Array、ChunkedArray 和 Scalar 注入基类
- ARROW-10183 - [C++] 创建一个 ForEach 库函数,该函数在 futures 的迭代器上运行
- ARROW-10195 - [C++] 添加使用 re2 的字符串结构提取内核
- ARROW-10250 - [FlightRPC][C++] 删除 FlightClientOptions 的默认构造函数
- ARROW-10255 - [JS] 重新组织导入和导出,使其对 ESM tree-shaking 更友好
- ARROW-10297 - [Rust] parquet-read 的参数以 json 格式输出数据
- ARROW-10299 - [Rust] 支持读取和写入 IPC 元数据的 V5
- ARROW-10305 - [R] 使用正则表达式进行过滤
- ARROW-10306 - [C++] 添加字符串替换内核
- ARROW-10349 - [Python] 构建和发布 aarch64 wheels
- ARROW-10354 - [Rust] [DataFusion] 添加对正则表达式提取的支持
- ARROW-10360 - [CI] 提升 github actions 缓存版本
- ARROW-10372 - [C++][Dataset] 读取压缩的 CSV
- ARROW-10406 - [C++] 在一次写入 IPC 文件时统一字典
- ARROW-10420 - [C++] FileSystem::OpenInput{File,Stream} 应该接受 MemoryPool
- ARROW-10421 - [R] Feather 读取器/写入器应接受 MemoryPool
- ARROW-10438 - [C++][Dataset] 对 null 进行分区::Format
- ARROW-10520 - [C++][R] 为 RecordBatch 实现添加/删除/替换
- ARROW-10570 - [R] 使用 Converter API 将 SEXP 转换为 Array/ChunkedArray
- ARROW-10580 - [C++] 验证时,确保 DenseUnionArray 偏移量正在增加
- ARROW-10606 - [C++][Compute] 支持与 Decimal256 类型之间的强制转换。
- ARROW-10655 - [C++] 添加 LRU 缓存工具
- ARROW-10734 - [R] 在 Solaris 上构建和测试
- ARROW-10735 - [R] 删除 arrow-without-arrow 包装
- ARROW-10766 - [Rust] 计算列表数组的嵌套定义和重复
- ARROW-10797 - [C++] 研究更快地为测试和基准生成随机数
- ARROW-10816 - [Rust] [DataFusion] 实现 INTERVAL
- ARROW-10831 - [C++][Compute] 实现分位数内核
- ARROW-10846 - [C++] 添加异步文件系统操作
- ARROW-10880 - [Java] 支持通过 LZ4 压缩 RecordBatch IPC 缓冲区
- ARROW-10882 - [Python][Dataset] 从 record batches 的 python 迭代器写入数据集
- ARROW-10895 - [C++][Gandiva] 在 Gandiva 中实现 bool 到 varchar 的强制转换函数
- ARROW-10903 - [Rust] 为 FixedSizeBinaryArray 实现 FromIter<Option<Vec<u8>>> 构造函数
- ARROW-11022 - [Rust] [DataFusion] 升级到 tokio 1.0
- ARROW-11070 - [C++] 实现 power / 指数计算内核
- ARROW-11074 - [Rust][DataFusion] 为 parquet 表实现谓词下推
- ARROW-11081 - [Java] 使 IPC 选项不可变
- ARROW-11108 - [Rust] 提高 MutableBuffer 的性能
- ARROW-11141 - [Rust]: Miri 检查
- ARROW-11149 - [Rust] create_batch_empty - 支持 List、LargeList
- ARROW-11150 - [Rust] 设置双周 Rust 同步调用并更新网站
- ARROW-11154 - [CI][C++] 将 homebrew crossbow 测试从 Travis-CI 移开
- ARROW-11156 - [Rust][DataFusion] 在哈希连接中矢量化创建哈希
- ARROW-11174 - [C++][Dataset] 使表达式可用于投影
- ARROW-11179 - [Format] 使 fb 文件中的注释对 rust doc 友好
- ARROW-11183 - [Rust] [Parquet] 缺少 LogicalType::TIMESTAMP_NANOS
- ARROW-11191 - [C++] 对 TaskGroup 的任务使用 FnOnce 而不是 std::function
- ARROW-11216 - [Rust] 改进 StringDictionaryBuilder 的文档
- ARROW-11220 - [Rust] DF 为 Boolean 实现 GROUP BY 支持
- ARROW-11222 - [Rust] [Arrow] 赶上 flatbuffers 0.8.1
- ARROW-11246 - DF - 为意外的累加器状态消息添加类型
- ARROW-11254 - [Rust][DataFusion] 添加 SIMD 和 snmalloc 标志作为基准测试的选项
- ARROW-11260 - [C++][Dataset] 读取基于模式的分区数据集时,不需要字典
- ARROW-11265 - [Rust] 将布尔值设置为不可转换为字节
- ARROW-11268 - [Rust][DataFusion] 支持在 MemTable 中指定重新分区
- ARROW-11270 - [Rust] 使用切片进行简单的数组数据缓冲区访问
- ARROW-11279 - [Rust][Parquet] ArrowWriter 定义级别内存使用情况
- ARROW-11284 - [R] 支持 dplyr 动词 transmute()
- ARROW-11289 - [Rust] [DataFusion] 支持对字典列进行 GROUP BY
- ARROW-11290 - [Rust][DataFusion] 解决组数较多的哈希聚合性能问题
- ARROW-11291 - [Rust] 为 MutableBuffer 实现 extend (来自迭代器)
- ARROW-11300 - [Rust][DataFusion] 提高组数较多的哈希聚合性能
- ARROW-11308 - [Rust] [Parquet] 添加 Arrow 十进制数组写入器
- ARROW-11309 - [Release][C#] 使用 .NET 3.1 进行验证
- ARROW-11310 - [Rust] 实现 arrow JSON 写入器
- ARROW-11314 - [Release][APT][Yum] 添加对验证 arm64 包的支持
- ARROW-11317 - [Rust] 在 CI 中测试 prettyprint 功能
- ARROW-11318 - [Rust] 支持漂亮打印时间戳、日期和时间类型
- ARROW-11319 - [Rust] [DataFusion] 改进与记录批次的测试比较
- ARROW-11321 - [Rust][DataFusion] 修复 DataFusion 编译错误
- ARROW-11325 - [Packaging][C#] 发布 Apache.Arrow.Flight 和 Apache.Arrow.Flight.AspNetCore
- ARROW-11329 - [Rust] 不要每次更改都重建库
- ARROW-11330 - [Rust][DataFusion] 添加 ExpressionVisitor 模式
- ARROW-11332 - [Rust] 在 take_string 中使用 MutableBuffer 而不是 Vec
- ARROW-11333 - [Rust] 支持创建任意嵌套的空数组
- ARROW-11336 - [C++][Doc] 改进 Windows 开发文档
- ARROW-11338 - [R] 分位数和中位数的绑定
- ARROW-11340 - [C++] 将 vcpkg.json 清单添加到 cpp 项目根目录
- ARROW-11343 - [DataFusion] 简化示例
- ARROW-11346 - [C++][Compute] 实现分位数内核基准测试
- ARROW-11349 - [Rust] 添加 from_iter_values 以从 T 而不是 Option<T> 创建数组
- ARROW-11350 - [C++] 升级依赖项版本
- ARROW-11354 - [Rust] 加快日期和时间的转换速度
- ARROW-11355 - [Rust] 使 Date 类型与规范保持一致
- ARROW-11358 - [Rust] 为连接小数组添加基准测试
- ARROW-11360 - [Rust] [DataFusion] 改进 CSV “未找到文件” 错误消息
- ARROW-11361 - [Rust] 从布尔值迭代器构建缓冲区
- ARROW-11362 - [Rust][DataFusion] 在 to_array_of_size 中使用迭代器 API 来提高性能
- ARROW-11365 - [Rust] [Parquet] 为文本模式的 v2 实现解析器
- ARROW-11366 - [Rust][DataFusion] 添加常量折叠/支持等式表达式中的布尔文字
- ARROW-11367 - [C++] 实现近似分位数实用程序
- ARROW-11369 - [DataFusion] 拆分 expressions.rs
- ARROW-11372 - 支持在 macOS-ARM64 上进行 RC 验证
- ARROW-11373 - [Python][Docs] 添加读取 CSV 文件时为列指定类型的示例
- ARROW-11374 - [Python] 使旧版 pyarrow.filesystem / pyarrow.serialize 警告更明显
- ARROW-11375 - [Rust] CI 因 clippy 中的弃用警告而失败
- ARROW-11377 - [C++][CI] 添加 ThreadSanitizer 夜间构建
- ARROW-11383 - [Rust] 在位操作中使用 trusted len
- ARROW-11386 - [Release] 修复发布后文档更新脚本
- ARROW-11389 - [Rust] 数据类型的不一致注释
- ARROW-11395 - [DataFusion] 支持自定义优化
- ARROW-11401 - [Rust][DataFusion] 在 DataFrame API 中传递切片而不是 Vec
- ARROW-11404 - [Rust][DataFusion] 升级到 aHash 0.7
- ARROW-11405 - [DataFusion] 支持多个自定义节点
- ARROW-11406 - [CI][C++] 修复 Travis-CI 构建中的缓存
- ARROW-11408 - 将窗口支持添加到 datafusion readme
- ARROW-11411 - [Packaging][Linux] 禁用 arm64 夜间构建
- ARROW-11414 - [Rust] 减少 Schema::try_merge 中的副本
- ARROW-11417 - [Integration] 为缓冲区压缩添加集成测试
- ARROW-11418 - [Doc] 将 IPC 缓冲区压缩添加到支持矩阵
- ARROW-11421 - [Rust][DataFusion] 支持按 Date32 分组
- ARROW-11422 - [C#] 添加对十进制的支持
- ARROW-11423 - [R] value_counts 和一些 StructArray 方法
- ARROW-11425 - [C++][Compute] 改进整数分位数内核
- ARROW-11426 - [Rust][DataFusion] EXTRACT 支持
- ARROW-11428 - [Rust] 添加幂内核
- ARROW-11429 - 使字符串比较内核在 Utf8 和 LargeUtf8 上通用
- ARROW-11430 - [Rust] 基于布尔掩码组合两个数组的内核
- ARROW-11431 - [Rust] [DataFusion] 添加对 SQL HAVING 子句的支持
- ARROW-11435 - 允许从外部 crate 创建 ParquetPartition
- ARROW-11436 - [Rust] 允许在 Primitive::from_iter 中使用非大小迭代器
- ARROW-11437 - [Rust] 简化基准测试
- ARROW-11438 - sqltorel 中不支持的 ast 节点 Value(Boolean(true))
- ARROW-11439 - [Rust] 向时间内核添加年份支持
- ARROW-11440 - [Rust] [DataFusion] 向 CsvExec 添加获取 CSV 模式的方法
- ARROW-11442 - [Rust] 公开用于解释日期/时间的逻辑
- ARROW-11443 - [Rust] 在 CSV 写入器中为 Date64 类型编写日期时间信息
- ARROW-11444 - [Rust][DataFusion] 将切片而不是 &Vec 传递给函数
- ARROW-11446 - [DataFusion] 支持内置函数中的标量
- ARROW-11447 - [Rust] 添加 shift 内核
- ARROW-11449 - [CI][R][Windows] 使用 ccache
- ARROW-11457 - [Rust] 使字符串比较内核在 Utf8 和 LargeUtf8 上通用
- ARROW-11459 - [Rust] 允许从迭代器构建原始类型的 ListArray
- ARROW-11462 - [Developer] 从默认 DOCKER_VOLUME_PREFIX 中删除不必要的引号
- ARROW-11463 - [Python] 允许从 PyArrow 配置 IpcWriterOptions 64 位
- ARROW-11466 - [Flight][Go] 为 Go 添加 BasicAuth 和 BearerToken 处理程序
- ARROW-11467 - [R] 修复 R 文档中对 json_table_reader() 的引用
- ARROW-11468 - [R] 允许用户将模式传递给 read_json_arrow()
- ARROW-11474 - [C++] 更新捆绑的 re2 版本
- ARROW-11476 - [Rust][DataFusion] 在 CI 中测试 TPCH 基准测试的运行
- ARROW-11477 - [R][Doc] 重新组织和改进 README 和小插图内容
- ARROW-11478 - [R] 考虑如何使 arrow.skip_nul 选项更加用户友好
- ARROW-11479 - [Rust][Parquet] 添加返回行组压缩大小的方法
- ARROW-11481 - [Rust] 更多转换实现
- ARROW-11484 - [Rust] 为 ExecutionContext 派生 Clone
- ARROW-11486 - [Website] 使用 Jekyll 4 和 webpack 来支持 Ruby 3.0 或更高版本
- ARROW-11489 - [Rust][DataFusion] 使 DataFrame Send+Sync
- ARROW-11491 - [Rust] 支持嵌套列表和结构的 json 模式推断
- ARROW-11493 - [CI][Packaging][deb][RPM] 测试构建的软件包
- ARROW-11500 - [R] 允许捆绑的构建脚本在 Solaris 上运行
- ARROW-11501 - [C++] 字节序检查在 Solaris 上不起作用
- ARROW-11504 - [Rust] 在 ListArray::from(ArrayDataRef) 中验证 Datatype
- ARROW-11505 - [Rust] 在 csv-writer 中添加对 LargeUtf8 的支持
- ARROW-11507 - [R] GetRuntimeInfo 的绑定
- ARROW-11510 - [Python] 添加说明,需要 pip >= 19.0 才能获取二进制软件包
- ARROW-11511 - [Rust] 将 Arc<ArrayData> 替换为 ArrayData
- ARROW-11512 - [Packaging][deb] 为 Ubuntu 21.04 添加缺失的 gRPC 依赖项
- ARROW-11513 - [R] sub/gsub 的绑定
- ARROW-11516 - [R] 允许在 dplyr 中按名称调用所有 C++ 计算函数
- ARROW-11539 - [Developer][Archery] 更改 items_per_seconds 单位
- ARROW-11541 - [C++][Compute] 实现近似分位数内核
- ARROW-11542 - [Rust] 读取嵌套列表时,json 读取器不应崩溃
- ARROW-11544 - [Rust] [DataFusion] 为 AggregateExpr 实现 as_any
- ARROW-11545 - [Rust] [DataFusion] SendableRecordBatchStream 应该实现 Sync
- ARROW-11556 - [C++] 次要的基准测试改进
- ARROW-11557 - [Rust] 将表格注销添加到 DataFusion ExecutionContext
- ARROW-11559 - [C++] 改进 flatbuffers 验证限制
- ARROW-11559 - [C++] 改进 flatbuffers 验证限制
- ARROW-11561 - [Rust][DataFusion] 将 Send + Sync 添加到 MemTable::load
- ARROW-11563 - [Rust] 支持 Cast(Utf8, TimeStamp(Nanoseconds, None))
- ARROW-11568 - [C++][Compute] Mode 内核在某些情况下性能不佳
- ARROW-11570 - [Rust] ScalarValue - 支持 Date64
- ARROW-11571 - [CI] 取消过时的 Github Actions 工作流运行
- ARROW-11572 - [Rust] 添加用于除以单个标量的内核
- ARROW-11573 - [Developer][Archery] Google 基准测试现在报告运行类型
- ARROW-11574 - [Rust][DataFusion] 将 sqlparser 升级到 0.8 以支持解析所有 TPC-H 查询
- ARROW-11575 - [Developer][Archery] 在基准测试结果中公开执行时间
- ARROW-11576 - [Rust] 删除示例中未使用的变量
- ARROW-11580 - [C++] 添加 CMake 选项 ARROW_DEPENDENCY_SOURCE=VCPKG
- ARROW-11589 - [R] 添加用于修改模式的方法
- ARROW-11590 - [C++] 将 CSV 后台生成器移动到 IO 线程池
- ARROW-11591 - [C++][Compute] 哈希聚合的原型版本
- ARROW-11592 - [Rust] 注释中的错别字
- ARROW-11594 - [Rust] 支持使用 NullArrays 进行漂亮打印
- ARROW-11597 - [Rust] 将数据类型拆分为一个模块
- ARROW-11598 - [Rust] 将 buffer.rs 拆分为较小的文件
- ARROW-11599 - [Rust] 添加创建所有空值的数组的函数
- ARROW-11601 - [C++][Dataset] 在 ParquetFileFormatReaderOptions 中公开预缓冲
- ARROW-11606 - [Rust] [DataFusion] 需要有关 HashAggregateExec 重建的指导
- ARROW-11610 - [C++] 从 sourceforge 而不是 bintray 下载 boost
- ARROW-11612 - [C++] 为 1.75.0 重建修剪的 boost 包
- ARROW-11613 - [R] 将夜间 C++ 构建移出 bintray
- ARROW-11616 - [Rust][DataFusion] 为 DataFrame 公开 collect_partitioned
- ARROW-11621 - [CI][Gandiva][Linux] 修复 Crossbow 设置失败
- ARROW-11626 - [Rust][DataFusion] 将 DataFusion 示例移动到自己的项目以减少依赖项数量
- ARROW-11627 - [Rust] 类型化的分配器
- ARROW-11637 - [CI][Conda] 更新夜间清理目标平台和包列表
- ARROW-11641 - [CI] 使用 docker buildkit 的内联缓存来重用不同主机之间的构建缓存
- ARROW-11649 - [R] 为 R 添加对 null_fallback 的支持
- ARROW-11651 - [Rust][DataFusion] 实现 Postgres Length 函数
- ARROW-11653 - Ascii/unicode 函数
- ARROW-11655 - Pad/trim 函数
- ARROW-11656 - 剩余的函数/修复
- ARROW-11659 - [R] 保留 group_by .drop 参数
- ARROW-11662 - [C++] 支持十进制数据类型的排序。
- ARROW-11664 - [Rust] 转换为 LargeUtf8
- ARROW-11665 - [Python] 文档 decimal128() 的精度和小数位数参数
- ARROW-11666 - [Integration] 为 decimal256 添加字节序“黄金”集成文件
- ARROW-11667 - [Rust] 为 utf8 比较函数添加文档
- ARROW-11669 - [Rust] [DataFusion] 从 GlobalLimitExec 中删除并发字段
- ARROW-11671 - [Rust][DataFusion] 清理 Expr 上的文档
- ARROW-11677 - [C++][Dataset] 编写文档
- ARROW-11680 - [C++] 添加 folly 的 spsc 队列的供应商版本
- ARROW-11683 - [R] 支持 dplyr::mutate()
- ARROW-11685 - [C++] future_test.cc 中的错别字
- ARROW-11688 - [Rust] utf8 和 large-utf8 之间的转换
- ARROW-11690 - [Rust][DataFusion] 避免 Expr 构建器方法中的 Expr::clone
- ARROW-11692 - [Rust][DataFusion] 改进 Optimizer 上的文档
- ARROW-11693 - [C++] 添加字符串长度内核
- ARROW-11700 - [R] 在 tidy eval 中国际化错误处理
- ARROW-11701 - [R] 实现 dplyr::relocate()
- ARROW-11703 - [R] 实现 dplyr::arrange()
- ARROW-11704 - [R] 为数据集连接 dplyr::mutate()
- ARROW-11707 - 支持无 IO 的 CSV 模式推断
- ARROW-11708 - 清理 Rust 2021 linting 警告
- ARROW-11709 - [Rust][DataFusion] 将 `expressions` 和 `inputs` 移动到 LogicalPlan 中,而不是 util 中的 helpers
- ARROW-11710 - [Rust][DataFusion] 实现 ExprRewriter 以避免树遍历冗余
- ARROW-11719 - 支持内存表的合并模式
- ARROW-11721 - json 模式推断应返回 Schema 类型而不是 SchemaRef
- ARROW-11722 - 改进 FFI 中的错误消息
- ARROW-11724 - [C++] 与 protobuf 3.15 的命名空间冲突
- ARROW-11725 - [Rust][DataFusion] 在 arrow 中使用新的 divide_scalar 内核
- ARROW-11727 - [C++][FlightRPC] 在基准测试中使用 TDigest 来估计延迟分位数
- ARROW-11730 - [C++] 添加隐式 Future(Status) 构造函数以方便使用
- ARROW-11733 - [Rust][DataFusion] 支持哈希重新分区
- ARROW-11734 - [C++] 供应商的 safe-math.h 在 Solaris 上无法编译
- ARROW-11735 - [R] 允许 Parquet 和 Arrow Dataset 作为可选组件
- ARROW-11736 - [R] 允许字符串计算函数为可选的
- ARROW-11737 - [C++] 为 Solaris 补丁供应商的 xxhash
- ARROW-11738 - [Rust][DataFusion] Concat 函数
- ARROW-11740 - [C++] posix_memalign 在 Solaris 上未在范围内声明
- ARROW-11742 - [Rust] [DataFusion] 添加 Expr::is_null 和 Expr::is_not_null 函数
- ARROW-11744 - [C++] 添加 xsimd 依赖项
- ARROW-11745 - [C++] 提高随机数据生成的可配置性
- ARROW-11750 - [Python][Dataset] 添加对项目表达式的支持
- ARROW-11752 - [R] 替换 testthat::expect_is() 的用法
- ARROW-11753 - [Rust][DataFusion] 添加 Join 语句的测试:模式包含重复的非限定字段名称
- ARROW-11754 - [R] 支持 dplyr::compute()
- ARROW-11761 - [C++] 增加公共 API 测试
- ARROW-11766 - [R] 更好地处理 Linux 上缺少的压缩编解码器
- ARROW-11768 - [C++][CI] 使 s390x 构建为非可选
- ARROW-11773 - [Rust] 允许 json 编写器输出 JSON 数组以及换行符格式的对象
- ARROW-11774 - [R] macOS 上的一行源代码安装
- ARROW-11775 - [Rust][DataFusion] 依赖项的功能标志
- ARROW-11777 - [Rust] 为 StringBuilder/BinaryBuilder 实现 AsRef
- ARROW-11778 - 从 large-utf8 转换为数字数组
- ARROW-11779 - [Rust] 使 alloc 模块公开
- ARROW-11790 - [Rust][DataFusion] 将计划构建器签名更改为采用 Vec<Expr> 而不是 &[Expr]
- ARROW-11794 - [Go] 添加并发安全的 ipc.FileReader.RecordAt(i)
- ARROW-11795 - [MATLAB] 将 MATLAB Apache Arrow 接口设计文档迁移到 Markdown
- ARROW-11797 - [C++][Dataset] 提供 Scanner 方法来生成/访问扫描的批次
- ARROW-11798 - [Integration] 更新测试子模块
- ARROW-11799 - [Rust] 从无界迭代器创建的字符串和二进制数组长度不正确
- ARROW-11801 - [C++] 删除 filesystem/type_fwd.h 中的错误头保护
- ARROW-11803 - [Rust] [Parquet] 支持 v2 LogicalType
- ARROW-11806 - [Rust][DataFusion] 优化内部连接索引的创建
- ARROW-11820 - 添加宏 create_native 来构造 impl
- ARROW-11822 - 支持函数区分大小写
- ARROW-11824 - [Rust] [Parquet] 在 Arrow 编写器中使用逻辑类型
- ARROW-11825 - [Rust][DataFusion] 将 mimalloc 作为基准测试的选项添加
- ARROW-11833 - [C++] 为 emscripten 提供供应商的 fast_float 错误(缺少体系结构标志)
- ARROW-11837 - [C++][Dataset] 将原始片段公开为 ScanTask 的属性
- ARROW-11838 - [C++] 支持使用共享字典读取 IPC 数据
- ARROW-11839 - [C++] 使用 xsimd 重写位解压缩优化
- ARROW-11842 - [Rust][Parquet] 在 get_batch_with_dict 中使用更有效的 clone_from
- ARROW-11852 - [Documentation] 更新 CONTRIBUTING 以解释贡献者角色
- ARROW-11856 - [C++] 删除对 RecordBatchStreamWriter 的未使用的引用
- ARROW-11858 - [GLib] GLib 中的 Gandiva 过滤器
- ARROW-11859 - [GLib] GArrowArray:缺少连接
- ARROW-11864 - [R] 文档 arrow.int64_downcast 选项
- ARROW-11870 - [Dev] 在 venv 中自动运行合并脚本
- ARROW-11876 - [Website] 更新治理页面
- ARROW-11877 - [C++] 为数据集内部添加初始微基准测试
- ARROW-11879 - [Rust][DataFusion] ExecutionContext::sql 应该优化查询计划
- ARROW-11883 - [C++] 添加 ConcatMap、MergeMap 和 Map 的异步可重入版本
- ARROW-11887 - [C++] 为流式 CSV 读取器添加异步读取
- ARROW-11894 - [Rust][DataFusion] 更改 flight server 示例以使用 DataFrame API
- ARROW-11895 - [Rust][DataFusion] 添加对额外列统计信息的支持
- ARROW-11898 - [Rust] 美化打印列
- ARROW-11899 - [Java] 将压缩编解码器实现重构为核心/Arrow 特定部分
- ARROW-11900 - [网站] 将 Yibo 添加到提交者列表
- ARROW-11906 - [R] 使 FeatherReader 的打印方法更具信息性
- ARROW-11907 - [C++] 在 S3FileSystem 中使用我们自己的执行器
- ARROW-11910 - [打包][Ubuntu] 放弃对 16.04 的支持
- ARROW-11911 - [网站] 在 FAQ 中添加 protobuf vs arrow
- ARROW-11912 - [R] 从 FeatherReader$create 中删除 args
- ARROW-11913 - [Rust] 提高 StringBuilder 的性能
- ARROW-11920 - [R] 将 r/libarrow 添加到 make clean
- ARROW-11921 - [R] 在 r/data-raw/codegen.R 中设置 LC_COLLATE
- ARROW-11924 - [C++] 提供来自 GetFileInfo 的流式输出
- ARROW-11925 - [R] 为 arrow_dplyr_query 添加 `between` 方法
- ARROW-11927 - [Rust][DataFusion] 支持 limit 下推
- ARROW-11931 - [Go][CI] 将 CI 升级为使用 Go 1.15
- ARROW-11935 - [C++] 添加推送生成器
- ARROW-11944 - [开发者] Achery 基准测试差异回归:无法比较 jsons
- ARROW-11949 - [Ruby] 接受原始 Ruby 对象作为排序键和选项
- ARROW-11951 - [Rust] 删除 OffsetSize::prefix
- ARROW-11952 - [Rust] 使 ArrayData -> GenericListArray 可失败而不是 `panic!`
- ARROW-11954 - [C++] arrow/util/io_util.cc 在 Solaris 上无法编译
- ARROW-11955 - [Rust][DataFusion] 支持 Union
- ARROW-11958 - [GLib] GArrowChunkedArray: 缺少 combine
- ARROW-11959 - [Rust][DataFusion] 修复优化计划的日志记录
- ARROW-11962 - [Rust][DataFusion] 更新 Datafusion 文档/自述文件
- ARROW-11969 - [Rust][DataFusion] 改进文档中的示例
- ARROW-11972 - [C++][数据集] 提取 IpcFragmentScanOptions,ParquetFragmentScanOptions
- ARROW-11973 - [Rust] 布尔 AND/OR 内核应遵循关于空值的 sql 行为
- ARROW-11977 - [Rust] 为 sort 内核添加文档示例
- ARROW-11982 - [Rust] 捐赠 Ballista 分布式计算平台
- ARROW-11984 - [C++][Gandiva] 实现 SHA1 和 SHA256 函数
- ARROW-11987 - [C++][Gandiva] 在 Gandiva 上实现三角函数
- ARROW-11988 - [C++][Gandiva] 实现 last_day 函数
- ARROW-11992 - [Rust][Parquet] 添加关于 4.0 重命名 LogicalType #9731 的升级说明
- ARROW-11993 - [C++] 如果 ARROW_SIMD_LEVEL=NONE,则不下载 xsimd
- ARROW-11996 - [R] 使 r/configure 在 Solaris 上成功运行
- ARROW-11999 - [Java] 支持使用用户指定的比较器进行并行向量元素搜索
- ARROW-12000 - [文档] 添加关于 struct/classes 上偏离样式指南的注释
- ARROW-12005 - [R] 修复 configure 中的 bash 拼写错误
- ARROW-12017 - [R] [文档] 制作适当的开发箭头文档
- ARROW-12019 - [Rust] [Parquet] 更新 README 以支持 2.6.0
- ARROW-12020 - [Rust][DataFusion] 向 DataFusion 添加 SHOW TABLES 和 SHOW COLUMNS + 部分 information_schema 支持
- ARROW-12031 - [C++][CSV] 推断具有小数秒的 CSV 时间戳列
- ARROW-12032 - [Rust] 使用 bool 的 trusted_len 迭代器优化比较内核
- ARROW-12034 - [文档] 使次要 PR 正式化
- ARROW-12037 - [Rust] [DataFusion] 支持表命名空间的目录和模式
- ARROW-12038 - [Rust][DataFusion] 将 hashbrown 升级到 0.11
- ARROW-12039 - [CI][C++][Gandiva] 修复 gandiva 夜间 linux 构建失败
- ARROW-12040 - [R] [CI] [C++] test-r-rstudio-r-base-3.6-opensuse15 在测试期间超时
- ARROW-12043 - [Rust] [Parquet] 写入固定大小的二进制数组
- ARROW-12045 - 第一个移植的 Parquet 代码块
- ARROW-12047 - [Rust] Clippy parquet
- ARROW-12048 - [Rust][DataFusion] 支持公共表表达式
- ARROW-12052 - [Rust] 在 C FFI 中实现子数据
- ARROW-12056 - [C++] 创建排序 AsyncGenerator
- ARROW-12058 - [Python] 启用表达式的算术运算
- ARROW-12068 - [Python] 停止使用 distutils
- ARROW-12069 - [C++][Gandiva] 为 Decimal 类型实现 IN 表达式
- ARROW-12070 - [GLib] 放弃对 GNU Autotools 的支持
- ARROW-12071 - [GLib] 保留 GArrowJSONReader 的输入流引用
- ARROW-12075 - [Rust][DataFusion] 将 CTE 添加到支持的功能列表中
- ARROW-12081 - [R] utf8_length 的绑定
- ARROW-12082 - [R][数据集] 允许从文件路径向量创建数据集
- ARROW-12094 - [C++][R] 修复/绕过 clang/libc++ 上 re2 的构建
- ARROW-12097 - [C++] 修改 BackgroundGenerator 以使其创建较少的线程
- ARROW-12098 - [R] 捕获 linux 上的 cpp 构建失败
- ARROW-12104 - 下一个移植的代码块
- ARROW-12106 - [Rust][DataFusion] 支持 `SELECT * from information_schema.tables`
- ARROW-12107 - [Rust][DataFusion] 支持 `SELECT * from information_schema.columns`
- ARROW-12108 - [Rust][DataFusion] 支持 `SHOW TABLES`
- ARROW-12109 - [Rust][DataFusion] 支持 `SHOW COLUMNS`
- ARROW-12110 - [Java] 为 java 实现 ZSTD 缓冲区压缩
- ARROW-12111 - [Java] 将 flatc 生成的文件置于源代码控制之下
- ARROW-12116 - [Rust] 修复或忽略 1.51 clippy lints
- ARROW-12119 - [Rust][DataFusion] 提高 to_array_of_size 的性能
- ARROW-12120 - [Rust] 生成随机数组和批次
- ARROW-12121 - [Rust] [Parquet] Arrow 写入器基准测试
- ARROW-12123 - [Rust][DataFusion] 使用 smallvec 作为索引以获得更好的连接性能
- ARROW-12128 - [CI][Crossbow] 删除(或修复)test-ubuntu-16.04-cpp 作业
- ARROW-12131 - [CI][GLib] 确保升级 MSYS2
- ARROW-12133 - [C++][Gandiva] 添加一个选项以禁用在 llvm ir 编译期间将 mcpu 标志设置为主机 cpu
- ARROW-12134 - [C++] 添加正则表达式字符串匹配内核
- ARROW-12136 - [Rust][DataFusion] 将默认 batch_size 减少到 8192
- ARROW-12139 - [Python][打包] 使用 vcpkg 构建 macOS wheels
- ARROW-12141 - [R] grepl 的绑定
- ARROW-12143 - [CI] R 构建在达到某个阈值并转储输出后应超时并失败。
- ARROW-12146 - [C++][Gandiva] 实现 CONVERT_FROM(表达式,'UTF8',替换字符) 函数
- ARROW-12151 - [文档] 将 Jira 组件 + 摘要约定添加到文档中
- ARROW-12153 - [Rust] [Parquet] 在写入 Parquet 文件后返回文件元数据
- ARROW-12160 - [Rust] 向 ipc::writer::StreamWriter 添加一个 `into_inner()` 方法
- ARROW-12164 - [Java] 使 BaseAllocator.Config 公开
- ARROW-12165 - [Rust] 在构建器中内联追加函数以提高性能
- ARROW-12168 - [Go][IPC] 为 IPC 实现压缩处理
- ARROW-12170 - [Rust][DataFusion] 引入重新分区优化
- ARROW-12173 - [GLib] 删除 #include <config.h>
- ARROW-12176 - parquet/low-level-api/reader-writer.cc 有一些拼写错误。
- ARROW-12187 - [C++][FlightRPC] 在 Flight 基准测试中启用压缩
- ARROW-12188 - [文档] 为主 sphinx 文档切换到 pydata-sphinx-theme
- ARROW-12190 - [Rust][DataFusion] 实现分区哈希连接
- ARROW-12192 - [网站] 使用可下载的 URL 进行存档下载
- ARROW-12193 - [开发][发布] 使用可下载的 URL 进行存档下载
- ARROW-12194 - [Rust] [Parquet] 更新 zstd 版本
- ARROW-12197 - [R] dplyr 绑定用于 cast, dictionary_encode
- ARROW-12200 - [R] 导出并文档化 list_compute_functions
- ARROW-12204 - [Rust][CI] 减少集成测试中 rust 构建产物的大小
- ARROW-12206 - [Python] 修复 Table 文档字符串
- ARROW-12208 - [C++] 添加在不使用 CPU 线程池的情况下运行异步任务的能力
- ARROW-12210 - [Rust][DataFusion] 文档化 SHOW TABLES / SHOW COLUMNS / InformationSchema
- ARROW-12214 - [Rust][DataFusion] 为 limit 添加一些测试
- ARROW-12215 - [C++] CSV 读取器中固定大小的二进制列不能为空
- ARROW-12217 - [C++] 清理 cpp 示例源文件名
- ARROW-12222 - [开发][打包] 在 crossbow 控制台报告中包含构建 URL
- ARROW-12224 - [Rust] 对非默认测试使用稳定的 rust,清理 CI 测试
- ARROW-12228 - [CI] 为 conda 环境创建基础镜像
- ARROW-12236 - [R][CI] 添加检查,确保所有文档页面都列在 _pkgdown.yml 中
- ARROW-12237 - [打包][Debian] 添加对 bulleye 的支持
- ARROW-12238 - [JS] 删除尾随空格
- ARROW-12239 - [JS] 切换到 yarn
- ARROW-12242 - [Python][文档] 调整 nightly 构建说明
- ARROW-12246 - [CI] 将 conda 配方与上游 feedstock 同步
- ARROW-12248 - [C++] 允许静态构建更改内存分配器
- ARROW-12249 - [R] [CI] 修复 test-r-install-local 夜间构建
- ARROW-12251 - [Rust] [Ballista] 将 Ballista 测试添加到 CI
- ARROW-12263 - [开发][打包] 将 Crossbow 移动到 Archery
- ARROW-12269 - [JS] 迁移到 eslint
- ARROW-12274 - [JS] 文档化如何在不构建的情况下运行测试
- ARROW-12277 - [Rust][DataFusion] 不支持时间戳类型的 Min/Max
- ARROW-12278 - [Rust][DataFusion] 对 SQL TIMESTAMP 类型使用 Timestamp(Nanosecond, None)
- ARROW-12280 - [开发者] 在合并工具中从提交消息中删除 @-mentions
- ARROW-12281 - [JS] 删除 shx、trash 和 rimraf
- ARROW-12283 - [R] 用于 dplyr 动词中基本类型转换函数的绑定
- ARROW-12286 - [C++] 从 Future<AsyncGenerator<T>> 创建 AsyncGenerator
- ARROW-12287 - [C++] 创建枚举生成器
- ARROW-12288 - [C++] 创建 Scanner 接口
- ARROW-12289 - [C++] 创建基本的 AsyncScanner 实现
- ARROW-12303 - [JS] 在关键代码路径中使用迭代器而不是生成器
- ARROW-12304 - [R] 更新 4.0 的新闻并润色文档
- ARROW-12305 - [JS] 基准测试数据 generate.py 假设使用 python 2
- ARROW-12309 - [JS] 将 es2015 包设为默认
- ARROW-12316 - [C++] 在 macOS 上将默认内存分配器从 jemalloc 切换到 mimalloc
- ARROW-12317 - [Rust] JSON 写入器不支持时间、日期或间隔类型
- ARROW-12320 - [CI] conda-cpp-valgrind 缺少 REPO 参数
- ARROW-12323 - [C++][Gandiva] 实现 castTIME(timestamp) 函数
- ARROW-12325 - [C++] [CI] 由于编译器未能移动返回值,导致夜间 gandiva 构建失败
- ARROW-12326 - [C++] 避免不必要的 c-ares 检测
- ARROW-12328 - [Rust] [Ballista] 修复代码格式
- ARROW-12329 - [Rust] [Ballista] 添加 README
- ARROW-12332 - [Rust] [Ballista] 调度器的 Api 服务器
- ARROW-12333 - [JS] 删除 jest-environment-node-debug,默认情况下不从 typescript 发出
- ARROW-12335 - [Rust] [Ballista] 升级 DataFusion 版本
- ARROW-12337 - 添加 DoubleEndedIterator 和 ExactSizeIterator traits
- ARROW-12351 - [CI][Ruby] 使用 ruby/setup-ruby 而不是 actions/setup-ruby
- ARROW-12352 - [CI][R][Windows] 删除对 MSYS2 的不必要的解决方法
- ARROW-12353 - [打包][deb] 将 -archive-keyring 重命名为 -apt-source
- ARROW-12354 - [打包][RPM] 使用 apache.jfrog.io/artifactory/ 而不是 apache.bintray.com/
- ARROW-12356 - [网站] 更新安装页面说明以指向 artifactory
- ARROW-12361 - [Rust] [DataFusion] 允许用户覆盖物理优化规则
- ARROW-12367 - [C++] 当 PushGenerator 被销毁时停止生成
- ARROW-12370 - [R] 用于 power 内核的绑定
- ARROW-12374 - [CI][C++][cron] 使用 Ubuntu 20.04 而不是 16.04
- ARROW-12375 - [发布] 删除发布后 rebase 脚本
- ARROW-12376 - [开发] archery trigger-bot 应该使用 logger.exception
- ARROW-12380 - [Rust][Ballista] 添加调度器 UI
- ARROW-12381 - [打包][Python] macOS wheels 的构建包类型错误
- ARROW-12383 - [JS] 更新直接依赖
- ARROW-12384 - [JS] 改进代码风格
- ARROW-12389 - [R] [文档] 添加关于自动转换的说明
- ARROW-12395 - [C++]: 创建 RunInSerialExecutor 基准测试
- ARROW-12396 - [Python][文档] 澄清关于已弃用状态的序列化文档字符串
- ARROW-12397 - [Rust] [DataFusion] 简化 readme 示例 #10038
- ARROW-12398 - [Rust] 删除迭代器中的双重边界检查
- ARROW-12400 - [Rust] 重新启用 transform 模块测试
- ARROW-12402 - [Rust] [DataFusion] 实现 SQL 指标框架
- ARROW-12406 - [R] 修复 configure 中的 checkbashims 违规
- ARROW-12409 - [R] 从 DESCRIPTION 中删除 LazyData
- ARROW-12419 - [Java] flatc 未在 mvn 中使用
- ARROW-12420 - [C++/Dataset] 将 null 列作为字典读取不再可能
- ARROW-12423 - [文档] 主 Readme 中的 Codecov 徽章仅适用于 Rust
- ARROW-12425 - [Rust] new_null_array 不为字典数组分配键缓冲区
- ARROW-12432 - [Rust] [DataFusion] 为 SortExec 添加指标
- ARROW-12436 - [Rust][Ballista] 向配置后端 trait 添加监视功能
- ARROW-12467 - [C++][Gandiva] 添加对 LLVM12 的支持
- ARROW-12477 - [发布] 在 verify-release-candidate.sh 中下载 linux aarch64 miniforge
- ARROW-12485 - [C++] 在 macOS 上使用 mimalloc 作为默认内存分配器
- ARROW-12488 - [GLib] 在 GLib 2.68 或更高版本中使用 g_memdup2()
- ARROW-12494 - [C++] ORC 适配器在 GCC 4.8 上编译失败
- PARQUET-1846 - [C++] 删除已弃用的 IO 类和相关函数
- PARQUET-1899 - [C++] 弃用 parquet/column_reader 中的 ReadBatchSpaced
- PARQUET-1990 - [C++] 在某些情况下会写出 ConvertedType::NA
- PARQUET-1993 - [C++] 公开预取何时完成
- PARQUET-1998 - [C++] 实现 LZ4_RAW 压缩
错误修复
- ARROW-4784 - [C++][CI] 重新启用不稳定的 mingw 测试。
- ARROW-6818 - [文档] 文档格式令人困惑
- ARROW-7288 - [C++][R] 在 Windows 上使用日语区域设置时 read_parquet() 冻结
- ARROW-7830 - [C++] Parquet 库版本不会随版本更改
- ARROW-9451 - [Python] 无符号整数类型将接受 pyarrow.array 中的字符串值
- ARROW-9634 - [C++][Python] 读取先前为 Arrow 的 Parquet 文件时恢复非 UTC 时区
- ARROW-9878 - [Python] table to_pandas self_destruct=True + split_blocks=True 无法防止内存加倍
- ARROW-10038 - [C++] SetCpuThreadPoolCapacity(1) 会启动 nCPUs 线程
- ARROW-10056 - [C++] 增加 flatbuffers max_tables 参数以读取宽表
- ARROW-10364 - [开发][Archery] 使用 semver 2.13.0 测试失败
- ARROW-10370 - [Python] 伪造的与 s3fs 相关的测试失败
- ARROW-10403 - [C++] 为字典类型实现 unique 内核
- ARROW-10405 - [C++] IsIn 内核应该能够在字符串中查找字典
- ARROW-10457 - [CI] 修复 Spark branch-3.0 集成测试
- ARROW-10489 - [C++] 无法使用 intel 编译器配置或构建
- ARROW-10514 - [C++][Parquet] parquet-reader 输出模式中的数据不一致
- ARROW-10953 - [R] 使用 schema 创建 Table 时进行验证
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在错误
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在错误
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在错误
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在错误
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在错误
- ARROW-11134 - [C++][CI] Travis-CI 上的 ARM64 作业不运行测试
- ARROW-11147 - [Python][CI] Parquet 测试在 Dask master 的夜间构建中失败
- ARROW-11180 - [开发者] cmake-format pre-commit 钩子不运行
- ARROW-11192 - [文档] 描述如何打开 Visual Studio 以便它继承可用的环境
- ARROW-11223 - [Java] BaseVariableWidthVector/BaseLargeVariableWidthVector 的 setNull 和 getBufferSizeFor 方法有 bug
- ARROW-11235 - [Python] S3 测试在非默认区域内失败
- ARROW-11239 - [Rust] array::transform::tests::test_struct 失败
- ARROW-11269 - [Rust] 由于列派生模式和嵌入式模式不匹配,无法读取 Parquet 文件
- ARROW-11277 - [C++] 修复 macOS 10.11 上数据集表达式中的编译错误
- ARROW-11299 - [Python] python 中的构建警告
- ARROW-11303 - [发布][C++] 在 windows 验证脚本中启用 mimalloc
- ARROW-11305 - [Rust]: parquet-rowcount 二进制文件尝试将自身作为 parquet 文件打开
- ARROW-11311 - [Rust] unset_bit 正在切换位,而不是取消设置位
- ARROW-11313 - [Rust] 迭代器的大小提示不正确
- ARROW-11315 - [打包][APT][arm64] 添加缺失的 gir1.2 文件
- ARROW-11320 - [C++] 创建临时目录时出现虚假测试失败
- ARROW-11322 - [Rust] Arrow `memory` 设为私有是一个破坏性的 API 更改
- ARROW-11323 - [Rust][DataFusion] 使用返回空的 ORDER BY 或 GROUP BY 查询时出现 ComputeError(“concat requires input of at least one array”)
- ARROW-11328 - [R] 从数据集中收集零列会返回整个数据集
- ARROW-11334 - [Python][CI] 由于 pandas 内部更改,夜间 pandas 构建失败
- ARROW-11337 - [C++] 使用 ThreadSanitizer 时的编译错误
- ARROW-11357 - [Rust] take 原始实现是不健全的
- ARROW-11376 - [C++] 启用 Thread Sanitizer 时 ThreadedTaskGroup 失败
- ARROW-11379 - [C++][数据集] 读取具有时间戳分区字段过滤的数据集崩溃
- ARROW-11387 - [Rust] 带有 simd 功能的 Arrow 3.0.0 版本在没有 feature=avx512 的情况下无法编译。
- ARROW-11391 - [C++] HdfsOutputStream::Write 不安全地截断超过 INT32_MAX 的整数
- ARROW-11394 - [Rust] Struct 的 Slice + Concat 不正确
- ARROW-11400 - [Python] Pickled ParquetFileFragment 在 pyarrow 2.0 中具有带有字典类型的无效 partition_expresion
- ARROW-11403 - [开发者] archery benchmark list:意外的关键字 'benchmark_filter'
- ARROW-11412 - [Python] 表达式不适用于逻辑布尔运算符 (and, or, not)
- ARROW-11412 - [Python] 表达式不适用于逻辑布尔运算符 (and, or, not)
- ARROW-11427 - [C++] 即使操作系统不支持,Arrow 也使用 AVX512 指令
- ARROW-11448 - [C++] tdigest 在 Windows 上使用 Visual Studio 构建失败
- ARROW-11451 - [C++] 修复 gcc-4.8 构建错误
- ARROW-11452 - [Rust] Parquet 读取器无法读取结构列与结构成员列同名的文件
- ARROW-11461 - [Flight][Go] GetSchema 不适用于 Java Flight Server
- ARROW-11464 - [Python] pyarrow.parquet.read_pandas 不符合其文档
- ARROW-11470 - [C++] 在 ComputeRowMajorStrides、ComputeColumnMajorStrides 和 CheckTensorStridesValidity 中的整数乘法运算中发生溢出
- ARROW-11472 - [Python][CI] Kartothek 集成构建因 numpy 1.20 而失败
- ARROW-11472 - [Python][CI] Kartothek 集成构建因 numpy 1.20 而失败
- ARROW-11480 - [Python] 使用 INT96 列的日期过滤器读取 parquet 时出现段错误
- ARROW-11483 - [Java][C++][集成] C++ 集成测试创建与 Java 不兼容的 JSON 文件
- ARROW-11488 - [Rust]: StructBuilder 的 Drop impl 泄漏内存
- ARROW-11490 - [C++] BM_ArrowBinaryDict/EncodeLowLevel 不具有确定性
- ARROW-11494 - [Rust] 修复 take 基准测试
- ARROW-11497 - [Python] pyarrow list 的 parquet 写入器不符合 Apache Parquet 规范
- ARROW-11538 - [Python] 使用时间戳过滤器读取 Parquet 数据集时出现段错误
- ARROW-11547 - [打包][Conda][Drone] 夜间构建因未定义变量错误而失败
- ARROW-11548 - [C++] RandomArrayGenerator::List 大小不匹配
- ARROW-11551 - [C++][Gandiva] castTIMESTAMP(utf8) 函数对于无效输入不显示错误
- ARROW-11560 - [FlightRPC][C++][Python] 中断 Flight 服务器会导致中止
- ARROW-11567 - [C++][Compute] 方差内核存在精度问题
- ARROW-11577 - [Rust] Concat 内核在字符串数组切片上发生 panic
- ARROW-11582 - [R] write_dataset "format" 参数默认值和验证可以更好
- ARROW-11586 - [Rust] [Datafusion] 无效的 SQL 有时会 panic
- ARROW-11595 - [C++][NIGHTLY:test-conda-cpp-valgrind] GenerateBitsUnrolled 在未初始化的输入上触发 valgrind
- ARROW-11596 - [Python][数据集] 使用 Python 执行器执行扫描任务时出现 SIGSEGV
- ARROW-11603 - [Rust] 修复 clippy 错误
- ARROW-11607 - [Python] 从 parquet 读取带有列表值的表时出错
- ARROW-11614 - [C++][Gandiva] 修复 round() 逻辑,以便在参数为零时返回正零
- ARROW-11617 - [C++][Gandiva] 修复 gandiva 中嵌套的 if-else 优化
- ARROW-11620 - [Rust] [DataFusion] TableProvider 对 Box 和 Arc 的使用不一致
- ARROW-11630 - [Rust] 为排序内核引入 partial_sort 和 limit 选项
- ARROW-11632 - [Rust] csv::Reader 不会将模式元数据传播到 RecordBatches
- ARROW-11639 - [C++][Gandiva] 修复 Ubuntu 夜间构建中的 signbit 编译问题
- ARROW-11642 - [C++] JVM 检测中 Windows 的预处理器指令不正确
- ARROW-11657 - [R] 指定 .drop 的 group_by 错误
- ARROW-11658 - [R] 处理 group_by 内的 mutate/rename
- ARROW-11663 - [DataFusion] Master 无法编译
- ARROW-11668 - [C++] FutureStessTest.TryAddCallback 中偶尔出现 UBSAN 错误
- ARROW-11672 - [R] 修复 R 3.3 上的字符串函数测试失败
- ARROW-11681 - [Rust] IPC 写入器不应在析构函数中展开
- ARROW-11686 - [C++] flight-test-integration-client 有时会因 SIGABRT 而退出,但不打印堆栈跟踪
- ARROW-11687 - [Rust][DataFusion] RepartitionExec 挂起
- ARROW-11694 - [C++] Array Take 可能会取消引用不存在的空位图
- ARROW-11695 - [C++][FlightRPC][打包] 更新对禁用最近 gRPC 版本的 TLS 服务器验证的支持
- ARROW-11717 - [集成] 使用 auth:basic_proto 的间歇性(但频繁)flight 集成失败
- ARROW-11718 - [Rust] IPC 写入器不应在 drop 时隐式完成
- ARROW-11741 - [C++] 小端字节序上的十进制转换失败
- ARROW-11743 - [R] 使用 pkgdown 的新功能自动链接 Jiras
- ARROW-11746 - [开发者][Archery] 修复优先实时检查
- ARROW-11756 - [R] 将分区作为模式传递会导致段错误
- ARROW-11758 - [C++][Compute] 求和内核舍入误差
- ARROW-11767 - [C++] Scalar::hash 可能对空标量出现段错误
- ARROW-11771 - [开发者][Archery] 移动基准测试(以便 CI 运行它们)
- ARROW-11784 - [Rust][DataFusion] CoalesceBatchesStream 不符合 Stream 接口
- ARROW-11785 - [R] 使用不支持的表达式过滤 Table 时回退失败
- ARROW-11786 - [C++] CMake 输出嘈杂
- ARROW-11788 - [Java] 追加空列表向量会产生 NPE
- ARROW-11791 - [Rust][DataFusion] RepartitionExec 阻塞
- ARROW-11802 - [Rust][DataFusion] crossbeam 通道和异步任务的混合使用可能会导致死锁
- ARROW-11819 - [Rust] 添加到文档的链接
- ARROW-11821 - [Rust] 编辑 Rust README
- ARROW-11830 - [C++] gRPC 编译测试每次都会发生
- ARROW-11832 - [R] 处理额外嵌套结构列的转换
- ARROW-11836 - 目标 libarrow_bundled_dependencies.a 尚未创建但已被要求。
- ARROW-11845 - [Rust] 如果数组包含负值,则 Date32Array 的 Debug 实现会发生 panic
- ARROW-11850 - [GLib] 缺少 GARROW_VERSION_0_16 宏
- ARROW-11855 - [C++] [Python] 转换块结构数组时 to_pandas 中的内存泄漏
- ARROW-11857 - [Python] 将新的数据集 API 与 Pandas 一起使用时,资源暂时不可用
- ARROW-11860 - [Rust] [DataFusion] 添加 DataFusion 徽标
- ARROW-11866 - [C++] Arrow Flight SetShutdownOnSignals 导致 gRPC 中潜在的互斥锁死锁
- ARROW-11872 - [C++] 由于验证检查不正确,GPU 缓冲区的数组验证失败
- ARROW-11880 - [R] 正确处理空的或 NULL 的 transmute() 参数
- ARROW-11881 - [Rust][DataFusion] 修复 Clippy Lint
- ARROW-11896 - [Rust] AMD64 Debian 10 Rust 稳定测试工作区上的 CI 中出现挂起/失败
- ARROW-11904 - [C++] arrow-csv-test 结束时出现“调用了纯虚方法”崩溃
- ARROW-11905 - [C++] SIMD 信息在 MacOS 上总是返回 none
- ARROW-11914 - [R] [CI] r-sanitizer 夜间构建失败
- ARROW-11918 - [R] [文档] 文档清理
- ARROW-11923 - [CI] 更新 dask 开发集成测试的分支名称
- ARROW-11937 - [C++] GZip 编解码器如果刷新两次会挂起
- ARROW-11941 - [Dev] “DEBUG=1 merge_arrow_pr.py” 更新 Jira 问题
- ARROW-11942 - [C++] 如果任务提交速度过快,线程池可能无法启动新线程
- ARROW-11945 - [R] 过滤器不接受负数作为有效值
- ARROW-11956 - [C++] 修复静态库的系统 re2 依赖检测
- ARROW-11965 - [R][文档] 修复 R 开发文档中的 install.packages 命令
- ARROW-11970 - [C++][CI] 修复 Valgrind 失败
- ARROW-11971 - [打包] 由于行尾符,Vcpkg 补丁无法在 Windows 上应用
- ARROW-11975 - [CI][GLib] 更新 gcc 失败
- ARROW-11976 - [C++] TestThreadPool.SetCapacity 中偶发的 TSAN 错误
- ARROW-11983 - [Python] 在 ThreadPool 中调用 pyarrow from_pandas 时出现 ImportError
- ARROW-11997 - [Python] concat_tables 导致 Python 解释器崩溃
- ARROW-12003 - [R] 修复关于未定义全局函数 group_by_drop_default 的 NOTE
- ARROW-12006 - [Java] 修复在 Windows 上工作的 checkstyle 配置
- ARROW-12012 - [Java] [JDBC] BinaryConsumer 无法正确重新分配内存
- ARROW-12013 - [C++][FlightRPC] 无法检测到 gRPC 版本
- ARROW-12015 - [Rust] [DataFusion] 集成 doc-comment crate 以确保 readme 示例保持有效
- ARROW-12028 - [Rust][DataFusion] 不支持 Timestamp(Millisecond, None) 的 GROUP BY
- ARROW-12029 - 从 FeatherReader$create v2 中删除参数
- ARROW-12033 - [文档] 修复 developers/benchmarks.html 中的链接
- ARROW-12041 - [C++] 修复张量 IPC 消息的字符串描述
- ARROW-12051 - [GLib] test_add_column_type(TestCSVReader::#read::options) 中间歇性的 CI 失败
- ARROW-12057 - [Python] 删除对 pandas 的 Block 子类的直接使用
- ARROW-12065 - [C++][Python] 读取 JSON 文件时发生段错误
- ARROW-12067 - [Python][文档] 文档化 pyarrow_(un)wrap_scalar
- ARROW-12073 - [R] 修复 R CMD 检查中关于 ‘X_____X’ 的 NOTE
- ARROW-12076 - [Rust] 修复构建
- ARROW-12077 - [C++] ListArray::FromArrays 中的越界写入
- ARROW-12086 - [C++] 离线构建不使用 ARROW_$LIBRARY_URL 来搜索包
- ARROW-12088 - [Python][C++] 关于 pyarrow.dataset.RecordBatchIterator 中 offsetof 的警告
- ARROW-12089 - [文档] 修复构建 Sphinx 文档时的警告
- ARROW-12100 - [C#] 无法使用 PyArrow 进行记录批次的往返
- ARROW-12103 - [C++] Parquet 读取器中“加载未对齐的地址”
- ARROW-12112 - [CI] 设备上没有剩余空间 - AMD64 Conda 集成测试
- ARROW-12112 - [CI] 设备上没有剩余空间 - AMD64 Conda 集成测试
- ARROW-12113 - [R] 修复来自 check_select_helpers() 的 rlang 弃用警告
- ARROW-12130 - [C++] 如果 -DARROW_SIMD_LEVEL=NONE,Arm64 构建失败
- ARROW-12138 - [Go][IPC]
- ARROW-12140 - [C++][CI] Grouper 测试中的 Valgrind 失败
- ARROW-12145 - [开发者][Archery] 不稳定的测试:test_static_runner_from_json
- ARROW-12149 - [Dev] Archery 基准测试用例失败
- ARROW-12154 - [C++][Gandiva] 修复某些操作系统/CPU 组合中的 gandiva 崩溃
- ARROW-12155 - [R] 要求 Table 列的长度相同
- ARROW-12161 - [C++][R] 从数据集中同步运行时,异步流式 CSV 读取器死锁
- ARROW-12161 - [C++][R] 从数据集中同步运行时,异步流式 CSV 读取器死锁
- ARROW-12169 - [C++] 修复在文件末尾具有空流的压缩文件读取
- ARROW-12171 - [Rust] Clippy 错误
- ARROW-12172 - [Python][打包] 在 macOS wheel 构建中传递 Python 版本作为 setuptools 假装版本
- ARROW-12178 - [CI] 更新 ubuntu 镜像中的 setuptools
- ARROW-12186 - [Rust][DataFusion] 修复 regexp_match 测试
- ARROW-12209 - [JS] @apache-arrow/ts 和 apache-arrow 都无法编译
- ARROW-12220 - [C++][CI] 线程清理器失败
- ARROW-12226 - [C++] s3fs_test.cc 中的 ASAN 错误
- ARROW-12227 - [R] 修复 RE2 和 median 夜间构建失败
- ARROW-12235 - [Rust][DataFusion] 当与多个小分区一起使用时,LIMIT 返回不正确的结果
- ARROW-12241 - [Python] 并行 csv 读取器取消测试导致 pytest 被杀死
- ARROW-12250 - [Rust] 失败的测试 arrow::arrow_writer::tests::fixed_size_binary_single_column
- ARROW-12254 - [Rust][DataFusion] 在达到限制后,Limit 仍然轮询输入
- ARROW-12258 - [R] 永远不要对 collect(as_data_frame = FALSE) 执行 as.data.frame()
- ARROW-12262 - [文档][C++][Python] 构建并推送的文档禁用了 S3 和 Flight
- ARROW-12267 - [Rust] JSON 写入器不支持时间戳类型
- ARROW-12273 - [JS] Coveralls 不再工作
- ARROW-12279 - [Rust][DataFusion] 添加哈希连接中空值处理的测试 (ARROW-12266)
- ARROW-12294 - [Rust] 修复没有余数的 Boolean Kleene Kernels
- ARROW-12299 - [Python] pq.write_to_dataset 不识别 S3FileSystem
- ARROW-12300 - [C++] ArrowCUDA 在仅使用 CUDA 驱动程序 API 时错误地链接到 CUDA 运行时
- ARROW-12313 - [Rust] [Ballista] 基准测试文档已过时
- ARROW-12314 - [Python] 使用 use_legacy_dataset=False 的 pq.read_pandas 不接受列作为集合 (kartothek 集成失败)
- ARROW-12327 - [Dev] 通过评论机器人提交 crossbow 作业时,使用 pull request 的 head remote
- ARROW-12330 - [开发者] 恢复 Archery 基准测试的计数器列中的值
- ARROW-12334 - [Rust] [Ballista] 聚合查询产生不正确的结果
- ARROW-12342 - [打包] 修复用于提交夜间构建的 crossbow 模板中的制表符
- ARROW-12357 - [Archery] 运行“crossbow submit …”时出错
- ARROW-12377 - [文档][Java] Java 文档构建失败
- ARROW-12379 - [C++][CI] SerialExecutor 中的线程清理器失败
- ARROW-12382 - [C++][CI] Conda 夜间作业失败,因为没有捆绑 xsimd
- ARROW-12385 - [R] [CI] 修复 CI 中的 cran 选择
- ARROW-12390 - [Rust] 内联 from_trusted_len_iter、try_from_trusted_len_iter、extend_from_slice
- ARROW-12401 - [R] 修复 dataset___Scanner__TakeRows 周围的保护
- ARROW-12405 - [打包] 修复 travis 中的 apt 工件模式和工件上传
- ARROW-12408 - [R] 删除 Scan() 绑定
- ARROW-12421 - [Rust] [DataFusion] topk_query 测试在 master 中失败
- ARROW-12421 - [Rust] [DataFusion] topk_query 测试在 master 中失败
- ARROW-12429 - [C++] MergedGeneratorTestFixture 实例化不正确
- ARROW-12433 - [Rust] 由于新的 flatbuffer 版本引入了 const 泛型,构建失败
- ARROW-12437 - [Rust] [Ballista] Ballista 计划不得包含 RepartitionExec
- ARROW-12440 - [发布] 各种打包、发布脚本和发布验证脚本修复
- ARROW-12466 - [Python] 将数组与 None 比较会引发错误
- ARROW-12475 - [C++] 来自 thread_pool_benchmark.cc 的构建警告
- ARROW-12487 - [C++][Dataset] 如果扫描期间发生错误,ScanBatches() 会挂起
- ARROW-12495 - [C++][Python] NumPy 缓冲区将 is_mutable_ 设置为 true,但当 NumPy 数组可写时,不设置 mutable_data_
- PARQUET-1655 - [C++] 用于 min/max 统计的十进制比较不正确
- PARQUET-2008 - [C++] RowGroup::total_byte_size 中写入了错误的信息