Apache Arrow 4.0.0 (2021年4月26日)
这是一个涵盖超过3个月开发的大版本发布。
下载
贡献者
此版本包含来自114位不同贡献者的719次提交。
$ git shortlog -sn apache-arrow-3.0.0..apache-arrow-4.0.0
65 Antoine Pitrou
47 Andrew Lamb
41 Heres, Daniel
40 David Li
37 Sutou Kouhei
33 Neal Richardson
30 Weston Pace
28 Jorge C. Leitao
26 Krisztián Szűcs
25 Ian Cook
21 Dominik Moritz
20 Andy Grove
19 Yibo Cai
18 Joris Van den Bossche
17 Neville Dipale
17 Jonathan Keane
17 Ritchie Vink
12 Mike Seddon
12 Benjamin Kietzman
11 Mauricio Vargas
10 Qingping Hou
10 Diana Clarke
8 Micah Kornfield
7 Matthew Topol
7 Dmitry Patsura
5 Projjal Chanda
5 Kenta Murata
4 Anthony Louis
4 Ximo Guanter
4 liyafan82
3 Andre Braga Reis
3 Kazuaki Ishizaki
3 Maarten A. Breddels
3 Uwe L. Korn
3 ptaylor
3 Steven Fackler
3 Sagnik Chakraborty
3 Nic Crane
2 Marc Prud'hommeaux
2 Raphael Taylor-Davies
2 João Pedro
2 Yordan Pavlov
2 emkornfield
2 Max Burke
2 Florian Müller
2 Ben Chambers
2 mqy
2 Christoph Schulze
2 Manoj Karthick
2 Sathis Kumar
2 Ryan Jennings
2 Ruan Pearce-Authers
2 Tao He
2 Eric Burden
2 Tyrel Rink
2 Romain Francois
2 Rok
1 witchard
1 Adam Lippai
1 Albert Villanova del Moral
1 Alessandro Molina
1 Ali
1 Andrew Wieteska
1 Bob Tinsman
1 Brian Hulette
1 Bryan Cutler
1 Clcanny
1 Daniel Russo
1 Daniël Heres
1 Eduardo Ponce
1 Evan Chan
1 FawnD2
1 Felix Zhu
1 Fernando Herrera
1 Fiona La
1 François Saint-Jacques
1 GALI PREM SAGAR
1 Gert Hulselmans
1 Ha Thi Tham
1 Hongze Zhang
1 Ilya Biryukov
1 Ivan Smirnov
1 James Winegar
1 Joe Roberts
1 Johannes Müller
1 Jörn Horstmann
1 Mahmut Bulut
1 Marco Gorelli
1 Marko Mikulicic
1 Markus Silberstein Hont
1 Martin Nowak
1 Matt Brubeck
1 Matt Summersgill
1 Max Meldrum
1 Nathaniel Bauernfeind
1 Nga Tran
1 Nick Bruno
1 Rok Mihevc
1 Roman Karlstetter
1 Sam Albers
1 Simon Bertron
1 Szangin
1 Truc Lam Nguyen
1 Weichen Xu
1 Ying Zhou
1 frank400
1 ivan
1 jpeeter
1 martinblostein
1 nmcdonnell-kx
1 pierwill
1 sjgupta2
1 sundy-li
1 ARF1
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-3.0.0..apache-arrow-4.0.0
157 Andrew Lamb
101 Antoine Pitrou
93 Neal Richardson
88 Krisztián Szűcs
72 Sutou Kouhei
41 David Li
30 Benjamin Kietzman
25 Neville Dipale
22 Micah Kornfield
19 Jorge C. Leitao
16 Andy Grove
14 Praveen
11 Joris Van den Bossche
9 GitHub
8 Yibo Cai
4 Uwe L. Korn
3 Sebastien Binet
2 liyafan82
1 Kenta Murata
1 Eric Erhardt
1 Chao Sun
1 Bryan Cutler
更新日志
Apache Arrow 4.0.0 (2021-04-26)
新功能和改进
- ARROW-951 - [JS] 修复生成的API文档
- ARROW-2229 - [C++] 从RecordBatch、Table写入CSV文件
- ARROW-3690 - [Rust] 将Rust添加到格式集成测试中
- ARROW-6103 - [Java] 停止使用maven发布插件
- ARROW-6248 - [Python] 在Python 3的HadoopFileSystem.open()中使用FileNotFoundError
- ARROW-6455 - [C++] 为非UTF8 Unicode数据实现ExtensionType
- ARROW-6604 - [C++] 为MakeArrayFromScalar添加嵌套类型支持
- ARROW-7215 - [C++][Gandiva] 在Gandiva中实现castVARCHAR(numeric_type)函数
- ARROW-7364 - [Rust] 将强制转换选项添加到强制转换内核
- ARROW-7633 - [C++][CI] 为张量和稀疏张量创建模糊测试目标
- ARROW-7808 - [Java][Dataset] 实现Datasets Java API
- ARROW-7906 - [C++][Python] ORC格式的完整功能
- ARROW-8049 - [C++] 将捆绑的Thrift版本升级到0.13.0
- ARROW-8282 - [C++/Python][Dataset] 支持整数列的模式演进
- ARROW-8284 - [C++][Dataset] 时间戳列的模式演进
- ARROW-8630 - [C++][Dataset] 传递包含所有具体化字段的模式以捕获CSV边缘情况
- ARROW-8631 - [C++][Dataset] 为CsvFileFormat添加ConvertOptions和ReadOptions
- ARROW-8658 - [C++][Dataset] 为FileSystemDataset::GetFragments实现子树修剪
- ARROW-8732 - [C++] 让Futures支持取消
- ARROW-8771 - [C++] 将boost/process库添加到构建支持中
- ARROW-8796 - [Rust] 允许直接将parquet写入内存
- ARROW-8797 - [C++] 支持不同字节序平台之间的Flight RPC
- ARROW-8900 - [C++] 遵守S3文件系统的HTTP(S)_PROXY和/或将代理选项作为参数公开
- ARROW-8919 - [C++] 添加“DispatchBest”API到compute::Function,选择可能需要隐式转换才能调用的内核
- ARROW-9128 - [C++] 实现字符串空间修剪内核:trim、ltrim和rtrim
- ARROW-9149 - [C++] 改进RandomArrayGenerator::ArrayOf的可配置性
- ARROW-9196 - [C++] 使时间强制转换在Scalar输入上工作
- ARROW-9318 - [C++][Parquet] 加密密钥管理工具
- ARROW-9731 - [C++][Dataset] 将R的“head”方法移植到C++ Dataset Scanner
- ARROW-9749 - [C++][Dataset] 从FileFormat中提取格式特定的扫描选项
- ARROW-9777 - [Rust] 实现IPC更改以跟上1.0.0格式
- ARROW-9856 - [R] 为字符串计算函数添加绑定
- ARROW-10014 - [C++] TaskGroup::Finish应该执行任务
- ARROW-10089 - [R] 为Array、ChunkedArray和Scalar注入基类
- ARROW-10183 - [C++] 创建一个在Future迭代器上运行的ForEach库函数
- ARROW-10195 - [C++] 使用re2添加字符串结构体提取内核
- ARROW-10250 - [FlightRPC][C++] 删除FlightClientOptions的默认构造函数
- ARROW-10255 - [JS] 重新组织导入和导出以更利于ESM tree-shaking
- ARROW-10297 - [Rust] parquet-read输出json格式数据的参数
- ARROW-10299 - [Rust] 支持读取和写入IPC元数据V5
- ARROW-10305 - [R] 使用正则表达式过滤
- ARROW-10306 - [C++] 添加字符串替换内核
- ARROW-10349 - [Python] 构建并发布aarch64轮子
- ARROW-10354 - [Rust] [DataFusion] 添加对正则表达式提取的支持
- ARROW-10360 - [CI] 提升github actions缓存版本
- ARROW-10372 - [C++][Dataset] 读取压缩CSV
- ARROW-10406 - [C++] 在一次性写入IPC文件时统一字典
- ARROW-10420 - [C++] FileSystem::OpenInput{File,Stream}应该接受一个MemoryPool
- ARROW-10421 - [R] Feather读写器应该接受一个MemoryPool
- ARROW-10438 - [C++][Dataset] Partitioning::Format在空值上
- ARROW-10520 - [C++][R] 实现RecordBatch的添加/删除/替换
- ARROW-10570 - [R] 使用Converter API将SEXP转换为Array/ChunkedArray
- ARROW-10580 - [C++] 验证时,确保DenseUnionArray偏移量递增
- ARROW-10606 - [C++][Compute] 支持Decimal256类型的强制转换
- ARROW-10655 - [C++] 添加LRU缓存功能
- ARROW-10734 - [R] 在Solaris上构建和测试
- ARROW-10735 - [R] 移除arrow-without-arrow包装
- ARROW-10766 - [Rust] 计算列表数组的嵌套定义和重复
- ARROW-10797 - [C++] 调查更快地为测试和基准生成随机数据
- ARROW-10816 - [Rust] [DataFusion] 实现INTERVAL
- ARROW-10831 - [C++][Compute] 实现分位数内核
- ARROW-10846 - [C++] 添加异步文件系统操作
- ARROW-10880 - [Java] 支持LZ4压缩RecordBatch IPC缓冲区
- ARROW-10882 - [Python][Dataset] 从record batch的python迭代器写入数据集
- ARROW-10895 - [C++][Gandiva] 在Gandiva中实现布尔到varchar的强制转换函数
- ARROW-10903 - [Rust] 为FixedSizeBinaryArray实现FromIter<Option<Vec<u8>>>构造函数
- ARROW-11022 - [Rust] [DataFusion] 升级到tokio 1.0
- ARROW-11070 - [C++] 实现幂/指数计算内核
- ARROW-11074 - [Rust][DataFusion] 为parquet表实现谓词下推
- ARROW-11081 - [Java] 使IPC选项不可变
- ARROW-11108 - [Rust] 改进MutableBuffer的性能
- ARROW-11141 - [Rust]: Miri检查
- ARROW-11149 - [Rust] create_batch_empty - 支持List, LargeList
- ARROW-11150 - [Rust] 设置双周Rust同步调用并更新网站
- ARROW-11154 - [CI][C++] 将homebrew crossbow测试从Travis-CI移出
- ARROW-11156 - [Rust][DataFusion] 在哈希连接中矢量化创建哈希
- ARROW-11174 - [C++][Dataset] 使Expressions可用于投影
- ARROW-11179 - [Format] 使fb文件中的注释对rust doc友好
- ARROW-11183 - [Rust] [Parquet] 缺少LogicalType::TIMESTAMP_NANOS
- ARROW-11191 - [C++] 对TaskGroup的任务使用FnOnce而不是std::function
- ARROW-11216 - [Rust] 改进StringDictionaryBuilder的文档
- ARROW-11220 - [Rust] DF实现Boolean的GROUP BY支持
- ARROW-11222 - [Rust] [Arrow] 跟上flatbuffers 0.8.1
- ARROW-11246 - DF - 为Unexpected accumulator state消息添加类型
- ARROW-11254 - [Rust][DataFusion] 添加SIMD和snmalloc标志作为基准测试选项
- ARROW-11260 - [C++][Dataset] 使用基于模式的Partitioning读取数据集时不需要字典
- ARROW-11265 - [Rust] 使布尔值不可转换为字节
- ARROW-11268 - [Rust][DataFusion] 支持在MemTable中指定重分区
- ARROW-11270 - [Rust] 使用slices进行简单的数组数据缓冲区访问
- ARROW-11279 - [Rust][Parquet] ArrowWriter Definition Levels内存使用
- ARROW-11284 - [R] 支持dplyr动词transmute()
- ARROW-11289 - [Rust] [DataFusion] 支持Dictionary列的GROUP BY
- ARROW-11290 - [Rust][DataFusion] 解决哈希聚合性能在大组数量时的问题
- ARROW-11291 - [Rust] 为MutableBuffer实现extend(来自迭代器)
- ARROW-11300 - [Rust][DataFusion] 改进哈希聚合性能在大组数量时的问题
- ARROW-11308 - [Rust] [Parquet] 添加Arrow Decimal数组写入器
- ARROW-11309 - [Release][C#] 使用.NET 3.1进行验证
- ARROW-11310 - [Rust] 实现arrow JSON写入器
- ARROW-11314 - [Release][APT][Yum] 添加对验证arm64包的支持
- ARROW-11317 - [Rust] 在CI中测试prettyprint功能
- ARROW-11318 - [Rust] 支持漂亮打印时间戳、日期和时间类型
- ARROW-11319 - [Rust] [DataFusion] 改进对record batch的测试比较
- ARROW-11321 - [Rust][DataFusion] 修复DataFusion编译错误
- ARROW-11325 - [Packaging][C#] 发布Apache.Arrow.Flight和Apache.Arrow.Flight.AspNetCore
- ARROW-11329 - [Rust] 不在每次更改时重新构建库
- ARROW-11330 - [Rust][DataFusion] 添加ExpressionVisitor模式
- ARROW-11332 - [Rust] 在take_string中使用MutableBuffer而不是Vec
- ARROW-11333 - [Rust] 支持创建任意嵌套的空数组
- ARROW-11336 - [C++][Doc] 改进Windows开发文档
- ARROW-11338 - [R] 分位数和中位数绑定
- ARROW-11340 - [C++] 将vcpkg.json清单添加到cpp项目根目录
- ARROW-11343 - [DataFusion] 简化示例
- ARROW-11346 - [C++][Compute] 实现分位数内核基准测试
- ARROW-11349 - [Rust] 添加from_iter_values以从T而不是Option<T>创建数组
- ARROW-11350 - [C++] 提升依赖版本
- ARROW-11354 - [Rust] 加速日期和时间的强制转换
- ARROW-11355 - [Rust] 将Date类型与规范对齐
- ARROW-11358 - [Rust] 添加连接小数组的基准测试
- ARROW-11360 - [Rust] [DataFusion] 改进CSV“未找到文件”错误消息
- ARROW-11361 - [Rust] 从布尔值迭代器构建缓冲区
- ARROW-11362 - [Rust][DataFusion] 在to_array_of_size中使用迭代器API以提高性能
- ARROW-11365 - [Rust] [Parquet] 实现文本模式v2的解析器
- ARROW-11366 - [Rust][DataFusion] 添加常量折叠/支持等式表达式中的布尔文字
- ARROW-11367 - [C++] 实现近似分位数实用程序
- ARROW-11369 - [DataFusion] 拆分expressions.rs
- ARROW-11372 - 支持macOS-ARM64上的RC验证
- ARROW-11373 - [Python][Docs] 添加读取csv文件时指定列类型的示例
- ARROW-11374 - [Python] 使旧的pyarrow.filesystem / pyarrow.serialize警告更明显
- ARROW-11375 - [Rust] CI因clippy中的弃用警告而失败
- ARROW-11377 - [C++][CI] 添加ThreadSanitizer夜间构建
- ARROW-11383 - [Rust] 在位操作上使用trusted len
- ARROW-11386 - [Release] 修复文档更新后脚本
- ARROW-11389 - [Rust] 数据类型注释不一致
- ARROW-11395 - [DataFusion] 支持自定义优化
- ARROW-11401 - [Rust][DataFusion] 在DataFrame API中传递slices而不是Vec
- ARROW-11404 - [Rust][DataFusion] 升级到aHash 0.7
- ARROW-11405 - [DataFusion] 支持多个自定义节点
- ARROW-11406 - [CI][C++] 修复Travis-CI构建中的缓存问题
- ARROW-11408 - 为datafusion readme添加窗口支持
- ARROW-11411 - [Packaging][Linux] 禁用arm64夜间构建
- ARROW-11414 - [Rust] 减少Schema::try_merge中的拷贝
- ARROW-11417 - [Integration] 添加缓冲区压缩的集成测试
- ARROW-11418 - [Doc] 将IPC缓冲区压缩添加到支持矩阵
- ARROW-11421 - [Rust][DataFusion] 支持按Date32分组
- ARROW-11422 - [C#] 添加对小数的支持
- ARROW-11423 - [R] value_counts和一些StructArray方法
- ARROW-11425 - [C++][Compute] 改进整数分位数内核
- ARROW-11426 - [Rust][DataFusion] EXTRACT支持
- ARROW-11428 - [Rust] 添加幂内核
- ARROW-11429 - 使字符串比较内核对Utf8和LargeUtf8通用
- ARROW-11430 - [Rust] 基于布尔掩码组合两个数组的内核
- ARROW-11431 - [Rust] [DataFusion] 添加对SQL HAVING子句的支持
- ARROW-11435 - 允许从外部crate创建ParquetPartition
- ARROW-11436 - [Rust] 允许Primitive::from_iter中使用非大小迭代器
- ARROW-11437 - [Rust] 简化基准测试
- ARROW-11438 - sqltorel中不支持的ast节点Value(Boolean(true))
- ARROW-11439 - [Rust] 为时间内核添加年份支持
- ARROW-11440 - [Rust] [DataFusion] 添加方法到CsvExec以获取CSV模式
- ARROW-11442 - [Rust] 公开用于解释日期/时间的逻辑
- ARROW-11443 - [Rust] 在csv写入器中为Date64类型写入日期时间信息
- ARROW-11444 - [Rust][DataFusion] 传递slices而不是&Vec到函数
- ARROW-11446 - [DataFusion] 支持内置函数中的标量
- ARROW-11447 - [Rust] 添加位移内核
- ARROW-11449 - [CI][R][Windows] 使用ccache
- ARROW-11457 - [Rust] 使字符串比较内核对Utf8和LargeUtf8通用
- ARROW-11459 - [Rust] 允许从迭代器构建基元ListArray
- ARROW-11462 - [Developer] 从默认DOCKER_VOLUME_PREFIX中删除不必要的引号
- ARROW-11463 - [Python] 允许从PyArrow配置IpcWriterOptions 64Bit
- ARROW-11466 - [Flight][Go] 为Go添加BasicAuth和BearerToken处理程序
- ARROW-11467 - [R] 修复R文档中json_table_reader()的引用
- ARROW-11468 - [R] 允许用户将模式传递给read_json_arrow()
- ARROW-11474 - [C++] 更新捆绑的re2版本
- ARROW-11476 - [Rust][DataFusion] 在CI中测试TPCH基准的运行
- ARROW-11477 - [R][Doc] 重新组织和改进README和vignette内容
- ARROW-11478 - [R] 考虑使arrow.skip_nul选项更用户友好的方法
- ARROW-11479 - [Rust][Parquet] 添加方法以返回行组的压缩大小
- ARROW-11481 - [Rust] 更多强制转换实现
- ARROW-11484 - [Rust] 为ExecutionContext派生Clone
- ARROW-11486 - [Website] 使用Jekyll 4和webpack支持Ruby 3.0或更高版本
- ARROW-11489 - [Rust][DataFusion] 使DataFrame Send+Sync
- ARROW-11491 - [Rust] 支持嵌套列表和结构体的json模式推断
- ARROW-11493 - [CI][Packaging][deb][RPM] 测试构建的包
- ARROW-11500 - [R] 允许捆绑构建脚本在Solaris上运行
- ARROW-11501 - [C++] 字节序检查在Solaris上不起作用
- ARROW-11504 - [Rust] 在ListArray::from(ArrayDataRef)中验证Datatype
- ARROW-11505 - [Rust] 在csv-writer中添加对LargeUtf8的支持
- ARROW-11507 - [R] GetRuntimeInfo的绑定
- ARROW-11510 - [Python] 添加pip >= 19.0才能获取二进制包的说明
- ARROW-11511 - [Rust] 将Arc<ArrayData>替换为ArrayData
- ARROW-11512 - [Packaging][deb] 为Ubuntu 21.04添加缺少的gRPC依赖
- ARROW-11513 - [R] sub/gsub的绑定
- ARROW-11516 - [R] 允许所有C++计算函数在dplyr中按名称调用
- ARROW-11539 - [Developer][Archery] 更改items_per_seconds单位
- ARROW-11541 - [C++][Compute] 实现近似分位数内核
- ARROW-11542 - [Rust] json读取器在读取嵌套列表时不应崩溃
- ARROW-11544 - [Rust] [DataFusion] 为AggregateExpr实现as_any
- ARROW-11545 - [Rust] [DataFusion] SendableRecordBatchStream应该实现Sync
- ARROW-11556 - [C++] 轻微的基准改进
- ARROW-11557 - [Rust] 将表注销添加到DataFusion ExecutionContext
- ARROW-11559 - [C++] 改进flatbuffers验证限制
- ARROW-11559 - [C++] 改进flatbuffers验证限制
- ARROW-11561 - [Rust][DataFusion] 将Send + Sync添加到MemTable::load
- ARROW-11563 - [Rust] 支持Cast(Utf8, TimeStamp(Nanoseconds, None))
- ARROW-11568 - [C++][Compute] 在某些条件下,模式内核性能很差
- ARROW-11570 - [Rust] ScalarValue - 支持Date64
- ARROW-11571 - [CI] 取消过时的Github Actions工作流运行
- ARROW-11572 - [Rust] 添加单个标量除法的内核
- ARROW-11573 - [Developer][Archery] Google基准测试现在报告运行类型
- ARROW-11574 - [Rust][DataFusion] 将sqlparser升级到0.8以支持解析所有TPC-H查询
- ARROW-11575 - [Developer][Archery] 在基准测试结果中公开执行时间
- ARROW-11576 - [Rust] 移除示例中未使用的变量
- ARROW-11580 - [C++] 添加CMake选项ARROW_DEPENDENCY_SOURCE=VCPKG
- ARROW-11589 - [R] 添加修改Schemas的方法
- ARROW-11590 - [C++] 将CSV后台生成器移动到IO线程池
- ARROW-11591 - [C++][Compute] 哈希聚合原型版本
- ARROW-11592 - [Rust] 注释中的拼写错误
- ARROW-11594 - [Rust] 支持使用NullArrays进行漂亮打印
- ARROW-11597 - [Rust] 将数据类型拆分为一个模块
- ARROW-11598 - [Rust] 将buffer.rs拆分为更小的文件
- ARROW-11599 - [Rust] 添加函数以创建全空数组
- ARROW-11601 - [C++][Dataset] 在ParquetFileFormatReaderOptions中公开预缓冲
- ARROW-11606 - [Rust] [DataFusion] 需要HashAggregateExec重构的指导
- ARROW-11610 - [C++] 从sourceforge而不是bintray下载boost
- ARROW-11612 - [C++] 为1.75.0重建修剪过的boost捆绑包
- ARROW-11613 - [R] 将夜间C++构建从bintray移出
- ARROW-11616 - [Rust][DataFusion] 为DataFrame公开collect_partitioned
- ARROW-11621 - [CI][Gandiva][Linux] 修复Crossbow设置失败
- ARROW-11626 - [Rust][DataFusion] 将DataFusion示例移动到自己的项目以减少依赖数量
- ARROW-11627 - [Rust] 类型化分配器
- ARROW-11637 - [CI][Conda] 更新夜间清理目标平台和包列表
- ARROW-11641 - [CI] 使用docker buildkit的inline cache在不同主机之间重用构建缓存
- ARROW-11649 - [R] 添加对R中null_fallback的支持
- ARROW-11651 - [Rust][DataFusion] 实现Postgres长度函数
- ARROW-11653 - ASCII/Unicode函数
- ARROW-11655 - 填充/修剪函数
- ARROW-11656 - 遗留函数/修复
- ARROW-11659 - [R] 保留group_by .drop参数
- ARROW-11662 - [C++] 支持十进制数据类型的排序
- ARROW-11664 - [Rust] 转换为LargeUtf8
- ARROW-11665 - [Python] 文档decimal128()的精度和刻度参数
- ARROW-11666 - [Integration] 为decimal256添加字节序“gold”集成文件
- ARROW-11667 - [Rust] 为utf8比较函数添加文档
- ARROW-11669 - [Rust] [DataFusion] 移除GlobalLimitExec中的并发字段
- ARROW-11671 - [Rust][DataFusion] 清理Expr上的文档
- ARROW-11677 - [C++][Dataset] 编写文档
- ARROW-11680 - [C++] 添加folly的spsc队列的供应商版本
- ARROW-11683 - [R] 支持dplyr::mutate()
- ARROW-11685 - [C++] future_test.cc中的拼写错误
- ARROW-11688 - [Rust] utf8和large-utf8之间的强制转换
- ARROW-11690 - [Rust][DataFusion] 避免在Expr构建器方法中使用Expr::clone
- ARROW-11692 - [Rust][DataFusion] 改进Optimizer上的文档
- ARROW-11693 - [C++] 添加字符串长度内核
- ARROW-11700 - [R] tidy eval中的错误处理国际化
- ARROW-11701 - [R] 实现dplyr::relocate()
- ARROW-11703 - [R] 实现dplyr::arrange()
- ARROW-11704 - [R] 为数据集连接dplyr::mutate()
- ARROW-11707 - 支持无IO的CSV模式推断
- ARROW-11708 - 清理Rust 2021 linting警告
- ARROW-11709 - [Rust][DataFusion] 将“expressions”和“inputs”移到LogicalPlan而不是util中的助手函数
- ARROW-11710 - [Rust][DataFusion] 引入ExprRewriter以避免树遍历冗余
- ARROW-11719 - 支持内存表的合并模式
- ARROW-11721 - json模式推断应返回Schema类型而不是SchemaRef
- ARROW-11722 - 改进FFI中的错误消息
- ARROW-11724 - [C++] 与protobuf 3.15的命名空间冲突
- ARROW-11725 - [Rust][DataFusion] 利用arrow中新的divide_scalar内核
- ARROW-11727 - [C++][FlightRPC] 在基准测试中使用TDigest估算延迟分位数
- ARROW-11730 - [C++] 为方便添加隐式Future(Status)构造函数
- ARROW-11733 - [Rust][DataFusion] 支持哈希重分区
- ARROW-11734 - [C++] vendored safe-math.h在Solaris上无法编译
- ARROW-11735 - [R] 允许Parquet和Arrow Dataset作为可选组件
- ARROW-11736 - [R] 允许字符串计算函数是可选的
- ARROW-11737 - [C++] 为Solaris修补vendored xxhash
- ARROW-11738 - [Rust][DataFusion] Concat函数
- ARROW-11740 - [C++] posix_memalign在Solaris作用域中未声明
- ARROW-11742 - [Rust] [DataFusion] 添加Expr::is_null和Expr::is_not_null函数
- ARROW-11744 - [C++] 添加xsimd依赖
- ARROW-11745 - [C++] 改进随机数据生成的可配置性
- ARROW-11750 - [Python][Dataset] 添加对项目表达式的支持
- ARROW-11752 - [R] 替换testthat::expect_is()的使用
- ARROW-11753 - [Rust][DataFusion] 为Join语句添加测试:Schema包含重复的非限定字段名
- ARROW-11754 - [R] 支持dplyr::compute()
- ARROW-11761 - [C++] 增加公共API测试
- ARROW-11766 - [R] 更好地处理Linux上缺少压缩编解码器的情况
- ARROW-11768 - [C++][CI] 使s390x构建非可选
- ARROW-11773 - [Rust] 允许json写入器写入JSON数组以及换行格式的对象
- ARROW-11774 - [R] macOS上的一行源安装
- ARROW-11775 - [Rust][DataFusion] 依赖项的Feature Flags
- ARROW-11777 - [Rust] 为StringBuilder/BinaryBuilder实现AsRef
- ARROW-11778 - 从large-utf8强制转换为数字数组
- ARROW-11779 - [Rust] 使alloc模块公开
- ARROW-11790 - [Rust][DataFusion] 更改plan builder签名以接受Vec<Expr>而不是&[Expr]
- ARROW-11794 - [Go] 添加并发安全的ipc.FileReader.RecordAt(i)
- ARROW-11795 - [MATLAB] 将Apache Arrow MATLAB接口设计文档迁移到Markdown
- ARROW-11797 - [C++][Dataset] 提供Scanner方法以生成/访问扫描的批次
- ARROW-11798 - [Integration] 更新测试子模块
- ARROW-11799 - [Rust] 使用未绑定迭代器创建的字符串和二进制数组长度不正确
- ARROW-11801 - [C++] 移除filesystem/type_fwd.h中错误的头文件保护
- ARROW-11803 - [Rust] [Parquet] 支持v2 LogicalType
- ARROW-11806 - [Rust][DataFusion] 优化内连接索引创建
- ARROW-11820 - 添加宏create_native来构造impl
- ARROW-11822 - 支持函数大小写敏感
- ARROW-11824 - [Rust] [Parquet] 在Arrow写入器中使用逻辑类型
- ARROW-11825 - [Rust][DataFusion] 添加mimalloc作为基准测试选项
- ARROW-11833 - [C++] vendored fast_float在emscripten上出错(缺少架构标志)
- ARROW-11837 - [C++][Dataset] 将原始片段作为ScanTask的属性公开
- ARROW-11838 - [C++] 支持读取带有共享字典的IPC数据
- ARROW-11839 - [C++] 使用xsimd重写位解包优化
- ARROW-11842 - [Rust][Parquet] 在get_batch_with_dict中使用更高效的clone_from
- ARROW-11852 - [Documentation] 更新CONTRIBUTING以解释Contributor角色
- ARROW-11856 - [C++] 移除对RecordBatchStreamWriter的未用引用
- ARROW-11858 - [GLib] GLib中的Gandiva过滤器
- ARROW-11859 - [GLib] GArrowArray: 缺少concatenate
- ARROW-11864 - [R] 文档arrow.int64_downcast选项
- ARROW-11870 - [Dev] 自动在venv中运行合并脚本
- ARROW-11876 - [Website] 更新治理页面
- ARROW-11877 - [C++] 为Dataset内部添加初始微基准测试
- ARROW-11879 - [Rust][DataFusion] ExecutionContext::sql应该优化查询计划
- ARROW-11883 - [C++] 添加ConcatMap, MergeMap, 和Map的异步重入版本
- ARROW-11887 - [C++] 为流式CSV读取器添加异步读取
- ARROW-11894 - [Rust][DataFusion] 更改flight服务器示例以使用DataFrame API
- ARROW-11895 - [Rust][DataFusion] 添加对额外列统计信息s的支持
- ARROW-11898 - [Rust] 漂亮打印列
- ARROW-11899 - [Java] 将压缩编解码器实现重构为核心/Arrow特定部分
- ARROW-11900 - [Website] 将Yibo添加到提交者列表
- ARROW-11906 - [R] 使FeatherReader打印方法更具信息性
- ARROW-11907 - [C++] 在S3FileSystem中使用我们自己的执行器
- ARROW-11910 - [Packaging][Ubuntu] 放弃对16.04的支持
- ARROW-11911 - [Website] 将protobuf vs arrow添加到FAQ
- ARROW-11912 - [R] 从FeatherReader$create中移除args
- ARROW-11913 - [Rust] 改进StringBuilder的性能
- ARROW-11920 - [R] 将r/libarrow添加到make clean
- ARROW-11921 - [R] 在r/data-raw/codegen.R中设置LC_COLLATE
- ARROW-11924 - [C++] 提供从GetFileInfo流式输出
- ARROW-11925 - [R] 为arrow_dplyr_query添加`between`方法
- ARROW-11927 - [Rust][DataFusion] 支持限制下推
- ARROW-11931 - [Go][CI] 将CI升级到Go 1.15
- ARROW-11935 - [C++] 添加push生成器
- ARROW-11944 - [Developer] Archery基准测试差异回归:无法比较json
- ARROW-11949 - [Ruby] 接受原始Ruby对象作为排序键和选项
- ARROW-11951 - [Rust] 移除OffsetSize::prefix
- ARROW-11952 - [Rust] 使ArrayData --> GenericListArray可失败而不是`panic!`
- ARROW-11954 - [C++] arrow/util/io_util.cc在Solaris上无法编译
- ARROW-11955 - [Rust][DataFusion] 支持Union
- ARROW-11958 - [GLib] GArrowChunkedArray: 缺少combine
- ARROW-11959 - [Rust][DataFusion] 修复优化计划的日志记录
- ARROW-11962 - [Rust][DataFusion] 更新Datafusion文档/readme
- ARROW-11969 - [Rust][DataFusion] 改进文档中的示例
- ARROW-11972 - [C++][Dataset] 提取IpcFragmentScanOptions, ParquetFragmentScanOptions
- ARROW-11973 - [Rust] 布尔AND/OR内核应遵循SQL关于null值的行为
- ARROW-11977 - [Rust] 为排序内核添加文档示例
- ARROW-11982 - [Rust] 捐赠Ballista分布式计算平台
- ARROW-11984 - [C++][Gandiva] 实现SHA1和SHA256函数
- ARROW-11987 - [C++][Gandiva] 在Gandiva上实现三角函数
- ARROW-11988 - [C++][Gandiva] 实现last_day函数
- ARROW-11992 - [Rust][Parquet] 添加4.0重命名LogicalType #9731的升级说明
- ARROW-11993 - [C++] 如果ARROW_SIMD_LEVEL=NONE,则不下载xsimd
- ARROW-11996 - [R] 使r/configure在Solaris上成功运行
- ARROW-11999 - [Java] 支持使用用户指定比较器进行并行向量元素搜索
- ARROW-12000 - [Documentation] 添加关于struct/classes偏离样式指南的说明
- ARROW-12005 - [R] 修复configure中的bash拼写错误
- ARROW-12017 - [R] [Documentation] 制作正确的开发arrow文档
- ARROW-12019 - [Rust] [Parquet] 更新README以支持2.6.0
- ARROW-12020 - [Rust][DataFusion] 向DataFusion添加SHOW TABLES和SHOW COLUMNS + 部分information_schema支持
- ARROW-12031 - [C++][CSV] 推断带小数秒的CSV时间戳列
- ARROW-12032 - [Rust] 使用可信长度迭代器优化布尔值的比较内核
- ARROW-12034 - [Docs] 规范化次要PRs
- ARROW-12037 - [Rust] [DataFusion] 支持表命名空间中的目录和模式
- ARROW-12038 - [Rust][DataFusion] 升级hashbrown到0.11
- ARROW-12039 - [CI][C++][Gandiva] 修复gandiva夜间Linux构建失败
- ARROW-12040 - [R] [CI] [C++] test-r-rstudio-r-base-3.6-opensuse15在测试期间超时
- ARROW-12043 - [Rust] [Parquet] 写入固定大小的二进制数组
- ARROW-12045 - 移植Parquet代码的第一部分
- ARROW-12047 - [Rust] Clippy parquet
- ARROW-12048 - [Rust][DataFusion] 支持通用表表达式
- ARROW-12052 - [Rust] 在C FFI中实现子数据
- ARROW-12056 - [C++] 创建序列化AsyncGenerator
- ARROW-12058 - [Python] 启用表达式的算术运算
- ARROW-12068 - [Python] 停止使用distutils
- ARROW-12069 - [C++][Gandiva] 为Decimal类型实现IN表达式
- ARROW-12070 - [GLib] 放弃对GNU Autotools的支持
- ARROW-12071 - [GLib] 保留GArrowJSONReader的输入流引用
- ARROW-12075 - [Rust][DataFusion] 将CTE添加到支持功能列表
- ARROW-12081 - [R] utf8_length的绑定
- ARROW-12082 - [R][Dataset] 允许从文件路径向量创建数据集
- ARROW-12094 - [C++][R] 修复/解决clang/libc++上re2构建问题
- ARROW-12097 - [C++] 修改BackgroundGenerator以创建更少的线程
- ARROW-12098 - [R] 捕获linux上的cpp构建失败
- ARROW-12104 - 移植代码的下一部分
- ARROW-12106 - [Rust][DataFusion] 支持`SELECT * from information_schema.tables`
- ARROW-12107 - [Rust][DataFusion] 支持`SELECT * from information_schema.columns`
- ARROW-12108 - [Rust][DataFusion] 支持`SHOW TABLES`
- ARROW-12109 - [Rust][DataFusion] 支持`SHOW COLUMNS`
- ARROW-12110 - [Java] 为Java实现ZSTD缓冲区压缩
- ARROW-12111 - [Java] 将flatc生成的文件置于源代码管理之下
- ARROW-12116 - [Rust] 修复或忽略1.51 clippy lints
- ARROW-12119 - [Rust][DataFusion] 改进to_array_of_size的性能
- ARROW-12120 - [Rust] 生成随机数组和批次
- ARROW-12121 - [Rust] [Parquet] Arrow写入器基准测试
- ARROW-12123 - [Rust][DataFusion] 使用smallvec作为索引以提高连接性能
- ARROW-12128 - [CI][Crossbow] 移除(或修复)test-ubuntu-16.04-cpp作业
- ARROW-12131 - [CI][GLib] 确保升级MSYS2
- ARROW-12133 - [C++][Gandiva] 添加选项以在llvm ir编译期间禁用将mcpu标志设置为主机cpu
- ARROW-12134 - [C++] 添加正则表达式字符串匹配内核
- ARROW-12136 - [Rust][DataFusion] 将默认batch_size减少到8192
- ARROW-12139 - [Python][Packaging] 使用vcpkg构建macOS轮子
- ARROW-12141 - [R] grepl的绑定
- ARROW-12143 - [CI] R构建应在达到某个阈值后超时并失败,并转储输出。
- ARROW-12146 - [C++][Gandiva] 实现CONVERT_FROM(expression, ‘UTF8’, replacement char)函数
- ARROW-12151 - [Docs] 将Jira组件+摘要约定添加到文档中
- ARROW-12153 - [Rust] [Parquet] 写入Parquet文件后返回文件元数据
- ARROW-12160 - [Rust] 为ipc::writer::StreamWriter添加`into_inner()`方法
- ARROW-12164 - [Java] 使BaseAllocator.Config公开
- ARROW-12165 - [Rust] 内联构建器中的append函数以提高性能
- ARROW-12168 - [Go][IPC] 为IPC实现压缩处理
- ARROW-12170 - [Rust][DataFusion] 引入repartition优化
- ARROW-12173 - [GLib] 移除 #include <config.h>
- ARROW-12176 - parquet/low-level-api/reader-writer.cc有一些拼写错误。
- ARROW-12187 - [C++][FlightRPC] 在Flight基准测试中启用压缩
- ARROW-12188 - [Docs] 切换到pydata-sphinx-theme作为主sphinx文档主题
- ARROW-12190 - [Rust][DataFusion] 实现分区哈希连接
- ARROW-12192 - [Website] 使用可下载的URL进行存档下载
- ARROW-12193 - [Dev][Release] 使用可下载的URL进行存档下载
- ARROW-12194 - [Rust] [Parquet] 更新zstd版本
- ARROW-12197 - [R] dplyr绑定用于cast, dictionary_encode
- ARROW-12200 - [R] 导出和文档list_compute_functions
- ARROW-12204 - [Rust][CI] 减小集成测试中rust构建产物的大小
- ARROW-12206 - [Python] 修复Table文档字符串
- ARROW-12208 - [C++] 添加在不使用CPU线程池的情况下运行异步任务的功能
- ARROW-12210 - [Rust][DataFusion] 文档SHOW TABLES / SHOW COLUMNS / InformationSchema
- ARROW-12214 - [Rust][DataFusion] 添加一些限制测试
- ARROW-12215 - [C++] CSV读取器中固定大小的二进制列不能为null
- ARROW-12217 - [C++] 清理cpp示例源文件名
- ARROW-12222 - [Dev][Packaging] 在crossbow控制台报告中包含构建URL
- ARROW-12224 - [Rust] 对无默认测试使用稳定版rust,清理CI测试
- ARROW-12228 - [CI] 为conda环境创建基础镜像
- ARROW-12236 - [R][CI] 添加检查所有docs页面是否列在_pkgdown.yml中
- ARROW-12237 - [Packaging][Debian] 添加对bulleye的支持
- ARROW-12238 - [JS] 移除尾随空格
- ARROW-12239 - [JS] 切换到yarn
- ARROW-12242 - [Python][Doc] 调整夜间构建说明
- ARROW-12246 - [CI] 与上游feedstock同步conda配方
- ARROW-12248 - [C++] 允许静态构建更改内存分配器
- ARROW-12249 - [R] [CI] 修复test-r-install-local夜间构建
- ARROW-12251 - [Rust] [Ballista] 将Ballista测试添加到CI
- ARROW-12263 - [Dev][Packaging] 将Crossbow移到Archery
- ARROW-12269 - [JS] 迁移到eslint
- ARROW-12274 - [JS] 文档如何在不构建的情况下运行测试
- ARROW-12277 - [Rust][DataFusion] 时间戳类型不支持Min/Max
- ARROW-12278 - [Rust][DataFusion] SQL TIMESTAMP类型使用Timestamp(Nanosecond, None)
- ARROW-12280 - [Developer] 从合并工具的提交消息中移除@-提及
- ARROW-12281 - [JS] 移除shx, trash和rimraf
- ARROW-12283 - [R] dplyr动词中基本类型转换函数的绑定
- ARROW-12286 - [C++] 从Future<AsyncGenerator<T>>创建AsyncGenerator
- ARROW-12287 - [C++] 创建枚举生成器
- ARROW-12288 - [C++] 创建Scanner接口
- ARROW-12289 - [C++] 创建基本的AsyncScanner实现
- ARROW-12303 - [JS] 在关键代码路径中使用迭代器而不是生成器
- ARROW-12304 - [R] 更新 4.0 的新闻和完善文档
- ARROW-12305 - [JS] 基准测试数据生成脚本 generate.py 假定使用 Python 2
- ARROW-12309 - [JS] 将 es2015 bundles 设为默认
- ARROW-12316 - [C++] 在 macOS 上将默认内存分配器从 jemalloc 切换到 mimalloc
- ARROW-12317 - [Rust] JSON 写入器不支持时间、日期或间隔类型
- ARROW-12320 - [CI] conda-cpp-valgrind 中缺少 REPO 参数
- ARROW-12323 - [C++][Gandiva] 实现 castTIME(timestamp) 函数
- ARROW-12325 - [C++] [CI] 夜间 gandiva 构建失败,因为编译器未能移动返回值
- ARROW-12326 - [C++] 避免不必要的 c-ares 检测
- ARROW-12328 - [Rust] [Ballista] 修复代码格式
- ARROW-12329 - [Rust] [Ballista] 添加 README
- ARROW-12332 - [Rust] [Ballista] 调度器的 API 服务器
- ARROW-12333 - [JS] 移除 jest-environment-node-debug 且默认不从 typescript 发出
- ARROW-12335 - [Rust] [Ballista] 升级 DataFusion 版本
- ARROW-12337 - 添加 DoubleEndedIterator 和 ExactSizeIterator 特性
- ARROW-12351 - [CI][Ruby] 使用 ruby/setup-ruby 而非 actions/setup-ruby
- ARROW-12352 - [CI][R][Windows] 移除 MSYS2 的不必要变通方法
- ARROW-12353 - [打包][deb] 将 -archive-keyring 重命名为 -apt-source
- ARROW-12354 - [打包][RPM] 使用 apache.jfrog.io/artifactory/ 而非 apache.bintray.com/
- ARROW-12356 - [网站] 更新安装页面说明以指向 artifactory
- ARROW-12361 - [Rust] [DataFusion] 允许用户覆盖物理优化规则
- ARROW-12367 - [C++] 当 PushGenerator 被销毁时停止生产
- ARROW-12370 - [R] power kernel 的绑定
- ARROW-12374 - [CI][C++][cron] 使用 Ubuntu 20.04 而非 16.04
- ARROW-12375 - [发布] 移除发布后 rebase 脚本
- ARROW-12376 - [Dev] archery trigger-bot 应该使用 logger.exception
- ARROW-12380 - [Rust][Ballista] 添加调度器 UI
- ARROW-12381 - [打包][Python] macOS wheel 包构建时使用了错误的包类型
- ARROW-12383 - [JS] 更新直接依赖
- ARROW-12384 - [JS] 改进代码风格
- ARROW-12389 - [R] [文档] 添加关于自动类型转换的说明
- ARROW-12395 - [C++]:创建 RunInSerialExecutor 基准测试
- ARROW-12396 - [Python][文档] 澄清关于弃用状态的序列化文档字符串
- ARROW-12397 - [Rust] [DataFusion] 简化 readme 示例 #10038
- ARROW-12398 - [Rust] 移除迭代器中的双重边界检查
- ARROW-12400 - [Rust] 重新启用 transform 模块测试
- ARROW-12402 - [Rust] [DataFusion] 实现 SQL 指标框架
- ARROW-12406 - [R] 修复配置中的 checkbashims 违规
- ARROW-12409 - [R] 从 DESCRIPTION 中移除 LazyData
- ARROW-12419 - [Java] flatc 未在 mvn 中使用
- ARROW-12420 - [C++/Dataset] 无法再将空列读取为字典
- ARROW-12423 - [文档] 主 Readme 中的 Codecov 徽章仅适用于 Rust
- ARROW-12425 - [Rust] new_null_array 不为字典数组分配键缓冲区
- ARROW-12432 - [Rust] [DataFusion] 为 SortExec 添加指标
- ARROW-12436 - [Rust][Ballista] 为配置后端特性添加观察功能
- ARROW-12467 - [C++][Gandiva] 添加对 LLVM12 的支持
- ARROW-12477 - [发布] 在 verify-release-candidate.sh 中下载 linux aarch64 miniforge
- ARROW-12485 - [C++] 在 macOS 上使用 mimalloc 作为默认内存分配器
- ARROW-12488 - [GLib] GLib 2.68 或更高版本使用 g_memdup2()
- ARROW-12494 - [C++] ORC 适配器在 GCC 4.8 上编译失败
- PARQUET-1846 - [C++] 移除已弃用的 IO 类和相关函数
- PARQUET-1899 - [C++] 在 parquet/column_reader 中弃用 ReadBatchSpaced
- PARQUET-1990 - [C++] 在某些情况下会写入 ConvertedType::NA
- PARQUET-1993 - [C++] 公开预取完成时间
- PARQUET-1998 - [C++] 实现 LZ4_RAW 压缩
Bug 修复
- ARROW-4784 - [C++][CI] 重新启用不稳定的 mingw 测试。
- ARROW-6818 - [文档] 格式化文档令人困惑
- ARROW-7288 - [C++][R] read_parquet() 在 Windows 日语区域设置下冻结
- ARROW-7830 - [C++] Parquet 库版本不随发布而改变
- ARROW-9451 - [Python] 无符号整型将在 pyarrow.array 中接受字符串值
- ARROW-9634 - [C++][Python] 读取先前为 Arrow 的 Parquet 文件时恢复非 UTC 时区
- ARROW-9878 - [Python] table to_pandas self_destruct=True + split_blocks=True 无法防止内存翻倍
- ARROW-10038 - [C++] SetCpuThreadPoolCapacity(1) 启动 nCPUs 线程
- ARROW-10056 - [C++] 增加 flatbuffers max_tables 参数以读取宽表
- ARROW-10364 - [Dev][Archery] 测试因 semver 2.13.0 失败
- ARROW-10370 - [Python] 虚假的 s3fs 相关测试失败
- ARROW-10403 - [C++] 实现字典类型的 unique kernel
- ARROW-10405 - [C++] IsIn kernel 应该能够查找字符串中的字典
- ARROW-10457 - [CI] 修复 Spark branch-3.0 集成测试
- ARROW-10489 - [C++] 无法用 Intel 编译器配置或构建
- ARROW-10514 - [C++][Parquet] parquet-reader 输出模式中的数据不一致
- ARROW-10953 - [R] 创建带 schema 的 Table 时进行验证
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在错误
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在错误
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在错误
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在错误
- ARROW-11066 - [Java] flight AddWritableBuffer 中是否存在错误
- ARROW-11134 - [C++][CI] Travis-CI 上的 ARM64 作业不运行测试
- ARROW-11147 - [Python][CI] Nightly 构建中 Parquet 测试与 Dask master 失败
- ARROW-11180 - [Developer] cmake-format pre-commit 钩子不运行
- ARROW-11192 - [文档] 描述如何打开 Visual Studio 以继承工作环境
- ARROW-11223 - [Java] BaseVariableWidthVector/BaseLargeVariableWidthVector setNull 和 getBufferSizeFor 存在错误
- ARROW-11235 - [Python] 非默认区域内的 S3 测试失败
- ARROW-11239 - [Rust] array::transform::tests::test_struct 失败
- ARROW-11269 - [Rust] 由于列派生和嵌入 schema 不匹配,无法读取 Parquet 文件
- ARROW-11277 - [C++] 修复 macOS 10.11 上数据集表达式中的编译错误
- ARROW-11299 - [Python] Python 构建警告
- ARROW-11303 - [发布][C++] 在 Windows 验证脚本中启用 mimalloc
- ARROW-11305 - [Rust]: parquet-rowcount 二进制文件尝试将自身作为 parquet 文件打开
- ARROW-11311 - [Rust] unset_bit 正在切换位,而不是取消设置它们
- ARROW-11313 - [Rust] 迭代器的 Size hint 不正确
- ARROW-11315 - [打包][APT][arm64] 添加缺失的 gir1.2 文件
- ARROW-11320 - [C++] 创建临时目录时出现虚假的测试失败
- ARROW-11322 - [Rust] Arrow `memory` 设置为私有是破坏性 API 更改
- ARROW-11323 - [Rust][DataFusion] 对于返回空的 ORDER BY 或 GROUP BY 查询,ComputeError("concat requires input of at least one array"))
- ARROW-11328 - [R] 从数据集中收集零列返回整个数据集
- ARROW-11334 - [Python][CI] 夜间 pandas 构建失败,因为 pandas 内部更改
- ARROW-11337 - [C++] ThreadSanitizer 编译错误
- ARROW-11357 - [Rust] 原始 take 实现不健全
- ARROW-11376 - [C++] 启用 Thread Sanitizer 时 ThreadedTaskGroup 失败
- ARROW-11379 - [C++][Dataset] 过滤时间戳分区字段时读取数据集崩溃
- ARROW-11387 - [Rust] Arrow 3.0.0 发布时带有 simd 功能,但在没有 feature=avx512 的情况下无法编译。
- ARROW-11391 - [C++] HdfsOutputStream::Write 不安全地截断超过 INT32_MAX 的整数
- ARROW-11394 - [Rust] 结构体切片 + Concat 不正确
- ARROW-11400 - [Python] pyarrow 2.0 中,Pickled ParquetFileFragment 带有字典类型的 partition_expresion 无效
- ARROW-11403 - [Developer] archery benchmark list: 意外关键字 'benchmark_filter'
- ARROW-11412 - [Python] 表达式不适用于逻辑布尔运算符(and、or、not)
- ARROW-11412 - [Python] 表达式不适用于逻辑布尔运算符(and、or、not)
- ARROW-11427 - [C++] 即使操作系统不支持 AVX512 指令,Arrow 也会使用
- ARROW-11448 - [C++] Windows Visual Studio 上 tdigest 构建失败
- ARROW-11451 - [C++] 修复 gcc-4.8 构建错误
- ARROW-11452 - [Rust] Parquet reader 无法读取结构体列名与结构体成员列名相同的 Parquet 文件
- ARROW-11461 - [Flight][Go] GetSchema 不适用于 Java Flight Server
- ARROW-11464 - [Python] pyarrow.parquet.read_pandas 不符合其文档
- ARROW-11470 - [C++] ComputeRowMajorStrides、ComputeColumnMajorStrides 和 CheckTensorStridesValidity 中的整数乘法发生溢出
- ARROW-11472 - [Python][CI] Kartothek 集成构建因 numpy 1.20 失败
- ARROW-11472 - [Python][CI] Kartothek 集成构建因 numpy 1.20 失败
- ARROW-11480 - [Python] 使用 INT96 列日期过滤器读取 parquet 时发生段错误
- ARROW-11483 - [Java][C++][Integration] C++ 集成测试创建的 JSON 文件与 Java 不兼容
- ARROW-11488 - [Rust]: StructBuilder 的 Drop 实现内存泄漏
- ARROW-11490 - [C++] BM_ArrowBinaryDict/EncodeLowLevel 不确定
- ARROW-11494 - [Rust] 修复 take bench
- ARROW-11497 - [Python] pyarrow parquet list 写入器不符合 Apache Parquet 规范
- ARROW-11538 - [Python] 使用时间戳过滤器读取 Parquet 数据集时发生段错误
- ARROW-11547 - [打包][Conda][Drone] 夜间构建因未定义变量错误而失败
- ARROW-11548 - [C++] RandomArrayGenerator::List 大小不匹配
- ARROW-11551 - [C++][Gandiva] castTIMESTAMP(utf8) 函数对无效输入不显示错误
- ARROW-11560 - [FlightRPC][C++][Python] 中断 Flight 服务器导致中止
- ARROW-11567 - [C++][Compute] 方差 kernel 存在精度问题
- ARROW-11577 - [Rust] Concat kernel 在字符串数组切片上发生恐慌
- ARROW-11582 - [R] write_dataset "format" 参数的默认值和验证可以做得更好
- ARROW-11586 - [Rust] [Datafusion] 无效 SQL 有时会发生恐慌
- ARROW-11595 - [C++][NIGHTLY:test-conda-cpp-valgrind] GenerateBitsUnrolled 在未初始化输入上触发 valgrind
- ARROW-11596 - [Python][Dataset] 使用 Python 执行器执行扫描任务时发生 SIGSEGV
- ARROW-11603 - [Rust] 修复 clippy 错误
- ARROW-11607 - [Python] 从 parquet 读取带列表值的表时出错
- ARROW-11614 - [C++][Gandiva] 修复 round() 逻辑以在参数为零时返回正零
- ARROW-11617 - [C++][Gandiva] 修复 gandiva 中嵌套 if-else 优化
- ARROW-11620 - [Rust] [DataFusion] TableProvider 中 Box 和 Arc 的使用不一致
- ARROW-11630 - [Rust] 为 sort kernel 引入 partial_sort 和 limit 选项
- ARROW-11632 - [Rust] csv::Reader 不会将 schema 元数据传播到 RecordBatches
- ARROW-11639 - [C++][Gandiva] 修复 Ubuntu 夜间构建中 signbit 编译问题
- ARROW-11642 - [C++] Windows JVM 检测中不正确的预处理器指令
- ARROW-11657 - [R] group_by 带有 .drop 指定错误
- ARROW-11658 - [R] 处理 group_by 内部的 mutate/rename
- ARROW-11663 - [DataFusion] Master 无法编译
- ARROW-11668 - [C++] FutureStessTest.TryAddCallback 中 UBSAN 错误偶尔发生
- ARROW-11672 - [R] 修复 R 3.3 上的字符串函数测试失败
- ARROW-11681 - [Rust] IPC 写入器不应在析构函数中解包
- ARROW-11686 - [C++]flight-test-integration-client 有时会因 SIGABRT 退出,但不打印堆栈跟踪
- ARROW-11687 - [Rust][DataFusion] RepartitionExec 挂起
- ARROW-11694 - [C++] Array Take 可能解引用不存在的空位图
- ARROW-11695 - [C++][FlightRPC][Packaging] 更新对最新 gRPC 版本禁用 TLS 服务器验证的支持
- ARROW-11717 - [Integration] 使用 auth:basic_proto 时,航班集成间歇性(但频繁)失败
- ARROW-11718 - [Rust] IPC 写入器不应在 drop 时隐式完成
- ARROW-11741 - [C++] 大端模式下 Decimal 类型转换失败
- ARROW-11743 - [R] 使用 pkgdown 新增的自动链接 Jiras 功能
- ARROW-11746 - [Developer][Archery] 修复 prefer real time 检查
- ARROW-11756 - [R] 将分区作为 schema 传递导致段错误
- ARROW-11758 - [C++][Compute] 求和 kernel 舍入误差
- ARROW-11767 - [C++] Scalar::hash 对于空标量可能导致段错误
- ARROW-11771 - [Developer][Archery] 移动基准测试(以便 CI 运行它们)
- ARROW-11784 - [Rust][DataFusion] CoalesceBatchesStream 不遵循 Stream 接口
- ARROW-11785 - [R] 过滤不支持表达式的 Table 时回退失败
- ARROW-11786 - [C++] CMake 输出噪音大
- ARROW-11788 - [Java] 添加空列表向量导致 NPE
- ARROW-11791 - [Rust][DataFusion] RepartitionExec 阻塞
- ARROW-11802 - [Rust][DataFusion] crossbeam channel 和异步任务的混合可能导致死锁
- ARROW-11819 - [Rust] 添加文档链接
- ARROW-11821 - [Rust] 编辑 Rust README
- ARROW-11830 - [C++] gRPC 编译测试每次都发生
- ARROW-11832 - [R] 处理额外嵌套结构体列的转换
- ARROW-11836 - 目标 libarrow_bundled_dependencies.a 尚未创建但已被要求。
- ARROW-11845 - [Rust] Date32Array 的 Debug 实现如果数组包含负值会发生恐慌
- ARROW-11850 - [GLib] 缺少 GARROW_VERSION_0_16 宏
- ARROW-11855 - [C++] [Python] 转换 chunked struct array 时 to_pandas 内存泄漏
- ARROW-11857 - [Python] 使用新的 Dataset API 和 Pandas 时资源暂时不可用
- ARROW-11860 - [Rust] [DataFusion] 添加 DataFusion 标志
- ARROW-11866 - [C++] Arrow Flight SetShutdownOnSignals 导致 gRPC 中潜在的互斥锁死锁
- ARROW-11872 - [C++] GPU 缓冲区数组验证因不正确的验证检查而失败
- ARROW-11880 - [R] 正确处理空的或 NULL 的 transmute() 参数
- ARROW-11881 - [Rust][DataFusion] 修复 Clippy Lint
- ARROW-11896 - [Rust] AMD64 Debian 10 Rust 稳定测试工作区中的 CI 挂起/失败
- ARROW-11904 - [C++] arrow-csv-test 结束时“纯虚方法调用”崩溃
- ARROW-11905 - [C++] SIMD 信息在 MacOS 上始终返回 none
- ARROW-11914 - [R] [CI] r-sanitizer 夜间构建已损坏
- ARROW-11918 - [R] [文档] 文档清理
- ARROW-11923 - [CI] 更新 dask dev 集成测试的分支名称
- ARROW-11937 - [C++] GZip 编解码器如果刷新两次会挂起
- ARROW-11941 - [Dev] "DEBUG=1 merge_arrow_pr.py" 更新 Jira 问题
- ARROW-11942 - [C++] 如果任务提交速度快,线程池可能无法启动新线程
- ARROW-11945 - [R] 过滤器不接受负数作为有效值
- ARROW-11956 - [C++] 修复静态库的系统 re2 依赖检测
- ARROW-11965 - [R][Docs] 修复 R dev 文档中的 install.packages 命令
- ARROW-11970 - [C++][CI] 修复 Valgrind 失败
- ARROW-11971 - [打包] Vcpkg 补丁因行尾问题无法在 Windows 上应用
- ARROW-11975 - [CI][GLib] 更新 gcc 失败
- ARROW-11976 - [C++] TestThreadPool.SetCapacity 中 TSAN 错误偶尔发生
- ARROW-11983 - [Python] 在 ThreadPool 中调用 pyarrow from_pandas 时出现 ImportError
- ARROW-11997 - [Python] concat_tables 导致 python 解释器崩溃
- ARROW-12003 - [R] 修复关于未定义全局函数 group_by_drop_default 的 NOTE
- ARROW-12006 - [Java] 修复 checkstyle 配置以在 Windows 上工作
- ARROW-12012 - [Java] [JDBC] BinaryConsumer 无法正确重新分配内存
- ARROW-12013 - [C++][FlightRPC] 检测 gRPC 版本失败
- ARROW-12015 - [Rust] [DataFusion] 集成 doc-comment crate 以确保 readme 示例保持有效
- ARROW-12028 - [Rust][DataFusion] 不支持 Timestamp(Millisecond, None) 的 GROUP BY
- ARROW-12029 - 移除 FeatherReader$create v2 中的参数
- ARROW-12033 - [文档] 修复 developers/benchmarks.html 中的链接
- ARROW-12041 - [C++] 修复 tensor IPC 消息的字符串描述
- ARROW-12051 - [GLib] test_add_column_type(TestCSVReader::#read::options) 中 CI 间歇性失败
- ARROW-12057 - [Python] 移除对 pandas Block 子类的直接使用
- ARROW-12065 - [C++][Python] 读取 JSON 文件时发生段错误
- ARROW-12067 - [Python][文档] 文档 pyarrow_(un)wrap_scalar
- ARROW-12073 - [R] 修复 R CMD check 关于 ‘X_____X’ 的 NOTE
- ARROW-12076 - [Rust] 修复构建
- ARROW-12077 - [C++] ListArray::FromArrays 中越界写入
- ARROW-12086 - [C++] 离线构建不使用 ARROW_$LIBRARY_URL 搜索包
- ARROW-12088 - [Python][C++] pyarrow.dataset.RecordBatchIterator 中 offsetof 的警告
- ARROW-12089 - [文档] 修复构建 Sphinx 文档时的警告
- ARROW-12100 - [C#] 无法与 PyArrow 往返记录批次
- ARROW-12103 - [C++] Parquet 读取器中“未对齐地址加载”
- ARROW-12112 - [CI] 设备上无可用空间 - AMD64 Conda 集成测试
- ARROW-12112 - [CI] 设备上无可用空间 - AMD64 Conda 集成测试
- ARROW-12113 - [R] 修复 check_select_helpers() 中的 rlang 弃用警告
- ARROW-12130 - [C++] 如果 -DARROW_SIMD_LEVEL=NONE,Arm64 构建失败
- ARROW-12138 - [Go][IPC]
- ARROW-12140 - [C++][CI] Grouper 测试中 Valgrind 失败
- ARROW-12145 - [Developer][Archery] 不稳定测试:test_static_runner_from_json
- ARROW-12149 - [Dev] Archery 基准测试用例失败
- ARROW-12154 - [C++][Gandiva] 修复 gandiva 在某些 OS/CPU 组合下的崩溃
- ARROW-12155 - [R] 要求 Table 列长度相同
- ARROW-12161 - [C++][R] 异步流式 CSV 读取器在从数据集同步运行时死锁
- ARROW-12161 - [C++][R] 异步流式 CSV 读取器在从数据集同步运行时死锁
- ARROW-12169 - [C++] 修复文件末尾空流的压缩文件读取
- ARROW-12171 - [Rust] Clippy 错误
- ARROW-12172 - [Python][Packaging] 在 macOS wheel 构建中将 python 版本作为 setuptools pretend version 传递
- ARROW-12178 - [CI] 更新 ubuntu 镜像中的 setuptools
- ARROW-12186 - [Rust][DataFusion] 修复 regexp_match 测试
- ARROW-12209 - [JS] @apache-arrow/ts 和 apache-arrow 都无法编译
- ARROW-12220 - [C++][CI] 线程消毒器失败
- ARROW-12226 - [C++] s3fs_test.cc 中的 ASAN 错误
- ARROW-12227 - [R] 修复 RE2 和 median 夜间构建失败
- ARROW-12235 - [Rust][DataFusion] LIMIT 与几个小分区一起使用时返回不正确的结果
- ARROW-12241 - [Python] 并行 csv reader 取消测试导致 pytest 崩溃
- ARROW-12250 - [Rust] 测试 arrow::arrow_writer::tests::fixed_size_binary_single_column 失败
- ARROW-12254 - [Rust][DataFusion] 达到限制后 Limit 仍继续轮询输入
- ARROW-12258 - [R] 永远不要对 collect(as_data_frame = FALSE) 执行 as.data.frame()
- ARROW-12262 - [文档][C++][Python] 文档在禁用 S3 和 Flight 的情况下构建并推送
- ARROW-12267 - [Rust] JSON 写入器不支持时间戳类型
- ARROW-12273 - [JS] Coveralls 不再工作
- ARROW-12279 - [Rust][DataFusion] 为 hash join 中的 null 处理添加测试 (ARROW-12266)
- ARROW-12294 - [Rust] 修复没有余数的布尔 Kleene 内核
- ARROW-12299 - [Python] pq.write_to_dataset 不识别 S3FileSystem
- ARROW-12300 - [C++] ArrowCUDA 错误地链接到 CUDA Runtime,而只使用 CUDA Driver API
- ARROW-12313 - [Rust] [Ballista] 基准测试文档过时
- ARROW-12314 - [Python] pq.read_pandas with use_legacy_dataset=False 不接受列作为集合(kartothek 集成失败)
- ARROW-12327 - [Dev] 通过评论机器人提交 crossbow 作业时,使用 pull request 的 head 远程仓库
- ARROW-12330 - [Developer] 恢复 Archery 基准测试计数器列中的值
- ARROW-12334 - [Rust] [Ballista] 聚合查询产生不正确的结果
- ARROW-12342 - [打包] 修复 crossbow 模板中提交夜间构建的制表符
- ARROW-12357 - [Archery] 运行 "crossbow submit ..." 时出错
- ARROW-12377 - [文档][Java] Java 文档构建损坏
- ARROW-12379 - [C++][CI] SerialExecutor 中线程消毒器失败
- ARROW-12382 - [C++][CI] Conda 夜间作业因未捆绑 xsimd 而失败
- ARROW-12385 - [R] [CI] 修复 CI 中的 cran 选择
- ARROW-12390 - [Rust] 内联 from_trusted_len_iter, try_from_trusted_len_iter, extend_from_slice
- ARROW-12401 - [R] 修复 dataset___Scanner__TakeRows 周围的 guard
- ARROW-12405 - [打包] 修复 apt artifact 模式和 travis 上传 artifact
- ARROW-12408 - [R] 删除 Scan() 绑定
- ARROW-12421 - [Rust] [DataFusion] master 分支中 topk_query 测试失败
- ARROW-12421 - [Rust] [DataFusion] master 分支中 topk_query 测试失败
- ARROW-12429 - [C++] MergedGeneratorTestFixture 实例化不正确
- ARROW-12433 - [Rust] 构建因新的 flatbuffer 版本引入 const generics 而失败
- ARROW-12437 - [Rust] [Ballista] Ballista 计划不得包含 RepartitionExec
- ARROW-12440 - [发布] 各种打包、发布脚本和发布验证脚本修复
- ARROW-12466 - [Python] 将数组与 None 比较会引发错误
- ARROW-12475 - [C++] thread_pool_benchmark.cc 中的构建警告
- ARROW-12487 - [C++][Dataset] 如果扫描过程中出现错误,ScanBatches() 会挂起
- ARROW-12495 - [C++][Python] NumPy 缓冲区设置 is_mutable_ 为 true,但当 NumPy 数组可写时未设置 mutable_data_
- PARQUET-1655 - [C++] 用于 min/max 统计的 Decimal 比较不正确
- PARQUET-2008 - [C++] RowGroup::total_byte_size 中写入的错误信息