Apache Arrow 3.0.0 (2021 年 1 月 26 日)
这是一个重大版本,涵盖了超过 3 个月的开发。
下载
贡献者
此版本包含来自 106 位不同贡献者的 648 次提交。
$ git shortlog -sn apache-arrow-2.0.0..apache-arrow-3.0.0
71 Jorge C. Leitao
64 Sutou Kouhei
48 Antoine Pitrou
48 Heres, Daniel
27 Andy Grove
27 Neville Dipale
24 Joris Van den Bossche
19 Neal Richardson
15 Benjamin Kietzman
14 Carol (Nichols || Goulding)
14 Uwe L. Korn
12 Jonathan Keane
12 Krisztián Szűcs
11 Andrew Lamb
11 Mike Seddon
11 mqy
10 Kazuaki Ishizaki
10 Qingping Hou
8 Jörn Horstmann
8 Yibo Cai
8 alamb
7 Andrew Wieteska
7 Ian Cook
7 Mahmut Bulut
6 Dmitry Patsura
6 Projjal Chanda
6 liyafan82
6 rdettai
5 Daniel Russo
5 David Li
5 Florian Müller
5 Jacob Quinn
5 James Duong
4 Micah Kornfield
4 Weston Pace
3 Jimmy Lu
3 Maarten A. Breddels
3 Terence D. Honles
3 Will Jones
2 Bei
2 Benjamin Wilhelm
2 Christian Lundgren
2 Daniël Heres
2 Evan Chan
2 Fokko Driesprong
2 François Garillot
2 Greg Bowyer
2 Kirill Lykov
2 Kyle Porter
2 Lyndon Bauto
2 Markus Westerlind
2 Sagnik Chakraborty
2 Sean Moran
2 Wes McKinney
2 Yordan Pavlov
2 jensenrichardson
2 wayne
2 Östman Alexander
1 Bruno LE HYARIC
1 Chiyang Wan
1 Christoph Schulze
1 Diana Clarke
1 Eric Erhardt
1 Erik Fonselius
1 Frank Du
1 Frank Smith
1 Gidon Gershinsky
1 H-Plus-Time
1 Hongze Zhang
1 Jake Goulding
1 Jeremy
1 Johan Peltenburg
1 Jorge Leitao
1 Josiah
1 Kopilov Aleksandr
1 Marc Prud'hommeaux
1 Marius van Niekerk
1 Matthew Pollock
1 Matthew Topol
1 Michal
1 Mingyu Zhong
1 Nick Bruno
1 Paddy Horan
1 Pavel Tiunov
1 Prudhvi Porandla
1 Radu Teodorescu
1 Romain Francois
1 Ruan Pearce-Authers
1 Ruihang Xia
1 Sebastian Berg
1 Tao He
1 Tyrel Rink
1 Ulimo
1 Vivian Kong
1 Weiyang Zhao
1 Zhuo Peng
1 arw2019
1 david
1 jonathan.albrecht
1 naman1996
1 rjzamora
1 shawnding(丁晓坤)
1 tching
1 tianchen
1 tifflhl
1 xudingyu
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -csn apache-arrow-2.0.0..apache-arrow-3.0.0
100 Andrew Lamb
88 Antoine Pitrou
76 Sutou Kouhei
70 Jorge C. Leitao
69 Neville Dipale
54 Krisztián Szűcs
44 Neal Richardson
40 Andy Grove
26 Benjamin Kietzman
19 Joris Van den Bossche
12 David Li
8 liyafan82
7 Uwe L. Korn
7 alamb
6 Micah Kornfield
5 Praveen
4 Bryan Cutler
4 Eric Erhardt
2 GitHub
2 Paddy Horan
2 Pindikura Ravindra
2 Wes McKinney
1 Sebastien Binet
变更日志
Apache Arrow 3.0.0 (2021-01-26)
Bug 修复
- ARROW-2616 - [Python] 交叉编译 Pyarrow
- ARROW-6582 - [R] 字符串中嵌入空字符时,Arrow 到 R 失败
- ARROW-7363 - [Python] 向 ChunkedArray 添加 combine_chunks 方法
- ARROW-7909 - [网站] 添加如何在 Red Hat Enterprise Linux 上安装
- ARROW-8258 - [Rust] [Parquet] ArrowReader 在某些时间戳类型上失败
- ARROW-9027 - [Python] 将 pyarrow.parquet 测试拆分为多个文件 + 清理
- ARROW-9479 - [JS] Table.from 在零项列表、FixedSizeLists、Maps 上失败。同样 Table.empty
- ARROW-9636 - [Python] 更新 parquet.write_table 中关于“LZO”压缩的文档
- ARROW-9776 - [R] 如果文件不存在,read_feather 会导致 R 中的段错误
- ARROW-9897 - [C++][Gandiva] 从模式添加 to_date() 函数
- ARROW-9897 - [C++][Gandiva] 从模式添加 to_date() 函数
- ARROW-9898 - [C++][Gandiva] 在某些环境中,castINT 中的错误处理失败
- ARROW-9903 - [R] open_dataset 在 Windows 上打开 feather 文件时冻结
- ARROW-9963 - [Python] 将 datetime.timezone.utc 识别为 python->pyarrow 转换中的 UTC
- ARROW-10039 - [Rust] 不要求缓冲区的内存对齐
- ARROW-10042 - [Rust] 缓冲区相等性可能不正确
- ARROW-10080 - [R] Arrow 不释放未使用的内存
- ARROW-10122 - [Python] 选择多索引的一列会导致重复的值列。
- ARROW-10145 - [C++][Dataset] 分区中的断言整数溢出回退到字符串
- ARROW-10146 - [Python] Parquet 元数据 to_dict 引发属性错误
- ARROW-10174 - [Java] 读取字典编码的结构向量失败
- ARROW-10177 - [CI][Gandiva] 夜间 gandiva-jar-xenial 失败
- ARROW-10186 - [Rust] 按照 README 中的说明操作时,测试失败
- ARROW-10247 - [C++][Dataset] 无法将带有字典列的数据集作为分区字段写入
- ARROW-10264 - [C++][Python] Parquet 测试在使用 HadoopFileSystem URI 时失败
- ARROW-10270 - [R] 修复 R-devel 上的 CSV timestamp_parsers 测试
- ARROW-10283 - [Python] “PY_SSIZE_T_CLEAN 将成为 ‘#’ 格式的必需项” 的 Python 弃用警告
- ARROW-10293 - [Rust] [DataFusion] 修复基准测试
- ARROW-10294 - [Java] 解决 ArrowBufs 上 DecimalVector API 的问题
- ARROW-10321 - [C++] 在不应该构建时构建 AVX512 代码
- ARROW-10333 - [Java] 删除 arrow-memory-core 和 arrow-vectors 中的拆分包
- ARROW-10345 - [C++] NaN 打破排序
- ARROW-10346 - [Python] 即使使用 LANG=C,默认 S3 区域也是 eu-central-1
- ARROW-10348 - [C++] 修复无效 Parquet 文件上的崩溃 (OSS-Fuzz)
- ARROW-10350 - [Rust] parquet_derive crate 无法发布到 crates.io
- ARROW-10353 - [C++] Parquet 解压 DataPageV2 页面,即使 is_compressed==0
- ARROW-10358 - [R] 2.0.0 版本后续
- ARROW-10365 - [R] 删除 macOS 上重复设置的 S3 标志
- ARROW-10369 - [开发] 修复 archery 发布实用程序测试用例
- ARROW-10370 - [Python] 与 s3fs 相关的虚假测试失败
- ARROW-10371 - [R] Linux 系统要求检查需要支持较旧的 cmake 版本
- ARROW-10386 - [R] 列表列类属性在往返中未保留
- ARROW-10388 - [Java] 修复 Spark 集成构建失败
- ARROW-10390 - [Rust] [Parquet] 回归无法实现自定义 ParquetWriter,因为 `TryClone` 未公开导出
- ARROW-10393 - [Rust]:修复 jsonreader 中字典和字符串构建器的空值读取
- ARROW-10394 - [Rust] [Large]BinaryArray 可以从非二进制数据类型创建
- ARROW-10397 - [C++] 关于字典索引的过时且令人困惑的注释
- ARROW-10399 - [R] 修复 cpp11::r_string 带来的性能回归
- ARROW-10411 - [C++] 修复 FixedSizeList 连接的不正确的子数组长度
- ARROW-10412 - [C++] CMake 构建在 grpc 1.33.1 下失败,“GRPC_CPP_PLUGIN-NOTFOUND:未找到程序或不可执行”
- ARROW-10413 - [Rust] [Parquet] 取消忽略现在正在通过的一些往返测试
- ARROW-10414 - [R] open_dataset 在 Windows 上不适用于绝对/扩展路径
- ARROW-10426 - [C++] Arrow 类型 large_string 无法写入 Parquet 类型列描述符
- ARROW-10433 - [Python] pyarrow 不适用于 s3fs>=0.5
- ARROW-10434 - [Rust] 调试格式化长度大于 10 小于 20 的数组会产生不正确的值
- ARROW-10441 - [FlightRPC][Java] 来自 FlightGrpcUtils#createFlightClient 的 FlightClients 在关闭时关闭 gRPC 通道
- ARROW-10446 - [C++][Python] 时区感知的 pd.Timestamp 错误地转换为 Timestamp 数组
- ARROW-10448 - [Rust] PrimitiveArray::new 可以创建不符合规范的数组
- ARROW-10453 - [Rust] [DataFusion] 删除专业化后的性能下降
- ARROW-10457 - [CI] 修复 Spark branch-3.0 集成测试
- ARROW-10461 - [Rust] BitChunks::remainder_bits 中的偏移量相关 bug
- ARROW-10462 - [Python] 在 Windows 上使用 fsspec fs 时,ParquetDatasetPiece 的路径损坏
- ARROW-10463 - [R] 针对 open_dataset 中当前不受支持的 CSV 选项的更好消息
- ARROW-10470 - [R] 修复导致纽约出租车示例失败的缺少文件错误
- ARROW-10471 - [CI][Python] 确保我们有 s3fs 的测试并在 CI 上运行这些测试
- ARROW-10472 - [C++][Python] 将标量时间戳转换为 date32 会导致 Aborted (核心转储)
- ARROW-10475 - [C++][FlightRPC] Arrow Flight 服务器/客户端无法使用 Ipv6 主机初始化
- ARROW-10480 - [Python] Parquet write_table 创建 gzipped Parquet 文件,而不是具有 gzip 压缩的 Parquet
- ARROW-10482 - [Python] 在编写 Parquet 时按列指定压缩类型不起作用
- ARROW-10489 - [C++] 无法使用 Intel 编译器配置或构建
- ARROW-10489 - [C++] 无法使用 Intel 编译器配置或构建
- ARROW-10491 - [FlightRPC][Java] 修复使用没有拦截器的 FlightProducer 时的 NPE
- ARROW-10493 - [C++][Parquet] 写入可为空的嵌套字符串会导致文件中出现错误数据
- ARROW-10495 - [C++] find_package(Arrow) 在 Ubuntu 18 上损坏
- ARROW-10496 - [R][CI] 修复 conda-r 作业
- ARROW-10499 - [C++][Java] 修复 ORC Java JNI 崩溃
- ARROW-10502 - [C++/Python] CUDA 检测搞乱了夜间 conda-win 构建
- ARROW-10503 - [C++] Uriparser 将无法使用 Intel 编译器编译
- ARROW-10508 - [Java] 允许 FixedSizeListVector 具有空的子项
- ARROW-10509 - [C++] 为 clang+Windows 定义 operator«(ostream, ParquetException)
- ARROW-10511 - [Python] 元数据中时区感知不匹配时,Table.to_pandas() 失败
- ARROW-10518 - 修复 gandiva 中的类型转换函数问题
- ARROW-10519 - [Python] 当 PyArrow 从多个线程导入 Pandas 时发生死锁
- ARROW-10525 - [C++] 修复不支持的 IPC 流上的崩溃 (OSS-Fuzz)
- ARROW-10532 - [Python] 当指定的 schema 与 DataFrame 列的顺序不同时,pandas_metadata 会损坏
- ARROW-10545 - [C++] 修复无效 Parquet 文件上的崩溃 (OSS-Fuzz)
- ARROW-10546 - [Python] 弃用 S3FSWrapper 类
- ARROW-10547 - [Rust][DataFusion] 如果在用户定义的节点之下,则过滤器下推会丢失过滤器
- ARROW-10551 - [Rust]:修复不可重现的基准测试
- ARROW-10558 - [Python] 文件系统 S3 测试不是独立的(原生 s3 影响 s3fs)
- ARROW-10560 - [Python] 创建超过 2GB 的字符串数组时崩溃
- ARROW-10563 - [打包][C++] CMake find_package(Arrow 2.0 CONFIG REQUIRED) 损坏
- ARROW-10565 - [Python] Table.from_batches 和 Table.from_pandas 在文档中使用参数 Schema_schema 而不是 schema
- ARROW-10568 - [C++][Parquet] 当 Tell() 不成功时,Parquet 写入器会使进程崩溃
- ARROW-10569 - [C++][Python] 表过滤性能差
- ARROW-10577 - [Rust][DataFusion] 哈希聚合器流在进入 Pending 状态后意外完成
- ARROW-10578 - [C++] 字符串数组与空字符串标量进行比较内核时崩溃
- ARROW-10610 - [C++] arrow-utility-test 和 arrow-csv-test 在大端平台上导致失败
- ARROW-10616 - [开发人员] 将 PR 标签器扩展到所有支持的语言
- ARROW-10617 - [Python] RecordBatchStreamReader 的迭代器不适用于 python 3.8
- ARROW-10619 - [C++] 修复不支持的 IPC 流上的崩溃 (OSS-Fuzz)
- ARROW-10620 - [Rust][Parquet] 将列块范围逻辑移动到 metadata.rs
- ARROW-10621 - [Java] flight-cpre 测试在 s390x 上导致失败
- ARROW-10622 - [R] Nameof<>() 在 r-arrow 构建环境中不正确
- ARROW-10623 - [R] 当读取由 2.0.0 写入的文件时,1.0.1 版本会破坏 data.frame 属性
- ARROW-10624 - [R] 主动删除 “problems” 属性
- ARROW-10627 - [Rust] Github master 不会为 WASM 目标编译
- ARROW-10629 - [CI] MinGW 构建在 Github Actions 上损坏
- ARROW-10631 - [Rust] 固定大小二进制的相等性不正确。
- ARROW-10642 - [R] 无法从具有 0 个批次的 RecordBatchReader 获取表
- ARROW-10656 - [Rust] 新的 RecordBatch 需要数据类型的精确匹配
- ARROW-10656 - [Rust] 新的 RecordBatch 需要数据类型的精确匹配
- ARROW-10661 - [C#] 修复基准测试项目
- ARROW-10662 - [Java] 避免 Json 文件读取器的整数溢出
- ARROW-10663 - [C++/Doc] IsIn 内核忽略 SetLookupOptions 的 skip_nulls 选项
- ARROW-10667 - [Rust] [Parquet] 添加一个方便的类型,用于将 Parquet 写入内存
- ARROW-10668 - [R] 过滤不适用于 .data 代词
- ARROW-10681 - [Rust] [DataFusion] TPC-H 查询 12 因调度程序错误而失败
- ARROW-10684 - [Rust] 逻辑相等性应考虑父数组的可空性
- ARROW-10690 - [Java] 如果目标向量为非空,则 ComplexCopier 会为列表向量提供不正确的结果
- ARROW-10692 - [Rust] 数组缓冲区追加时发生段错误
- ARROW-10699 - [C++] BitmapUInt64Reader 在大端上不起作用
- ARROW-10701 - [Rust] [Datafusion] 基准测试 sort_limit_query_sql 失败,因为 order by 子句指定列索引而不是表达式
- ARROW-10705 - [Rust] IPC 写入器中的生命周期注释过于严格,阻止了代码重用
- ARROW-10710 - [Rust] Tokio 升级后(以及其他问题),示例飞行服务器已损坏
- ARROW-10711 - [CI] 从 auto-tune 中删除 set-env 以使用新的 GHA 设置
- ARROW-10719 - [C#] ArrowStreamWriter 不写入 schema 元数据
- ARROW-10746 - [C++] 在 parquet 编码测试中使用 GTEST_SKIP
- ARROW-10748 - [Java] TimeStampMilliVector 无法转换为 TimeStampMilliTZVector
- ARROW-10749 - [C++] 具有集合类型的 Datum 的字符串格式不正确
- ARROW-10751 - [C++] 将 RE2 添加到最小构建示例
- ARROW-10753 - [Rust] [DataFusion] SQL WHERE 子句中的负数解析不正确
- ARROW-10757 - [Rust] [CI] 由于磁盘填满而导致的零星故障
- ARROW-10760 - [Rust] [DataFusion] 谓词下推不支持正确连接
- ARROW-10769 - [CI] 集成测试在 master 中失败
- ARROW-10774 - [R] 设置最低 cpp11 版本
- ARROW-10777 - [打包][Python] PyPI pyarrow 源代码发行版 (sdist) 包含依赖于体系结构的二进制文件
- ARROW-10778 - [Python] RowGroupInfo.statistics 对于空行组出错
- ARROW-10779 - [Java] 如果该索引处的有效性已设置,则 UnionListWriter 中的 writeNull 方法无法正常工作
- ARROW-10780 - [R] 更新 CentOS 7 的已知 R 安装问题
- ARROW-10791 - [Rust] StreamReader,read_dictionary 复制 schema 信息
- ARROW-10801 - [Rust] [Flight] 支持为带有 RecordBatch 的字典发送 FlightData
- ARROW-10803 - [R] 支持 R >= 3.3 并添加 CI
- ARROW-10804 - [Rust] 删除 parquet crate 上的 UB
- ARROW-10807 - [Rust][DataFusion] 避免双重哈希
- ARROW-10810 - [Rust] 加速比较内核
- ARROW-10811 - [R][CI] 删除 nightly centos6 构建
- ARROW-10823 - use_null 为 false 的 MutableArrayData 产生错误的结果
- ARROW-10830 - [Rust] json 读取器不应在无效的 json 上硬崩溃
- ARROW-10833 - [Python] 避免使用 NumPy 的 PyArray_DescrCheck 宏
- ARROW-10834 - [R] 修复 SubTreeFileSystem 的 print 方法
- ARROW-10837 - [Rust] 对哈希键使用 `Vec<u8>`
- ARROW-10840 - [C++] 从 FileMetaDataBuilder 构建时,Parquet FileMetaData 没有 key_value_metadata
- ARROW-10842 - [Rust] 将 IO 与 json schema 推理代码分离
- ARROW-10844 - [Rust] [DataFusion] 无法连接两个 DataFrame
- ARROW-10850 - [R] 未识别的压缩类型:LZ4
- ARROW-10852 - [C++] 如果左侧数组的行数更多,则 AssertTablesEqual(verbose=true) 会导致段错误
- ARROW-10854 - [Rust] [DataFusion] 简化逻辑扫描
- ARROW-10855 - [Python][Numpy] 将 NumPy 升级到 1.20.0rc1 后出现 ArrowTypeError
- ARROW-10856 - [R] CentOS 7 未正确识别编译器版本
- ARROW-10859 - [Rust] [DataFusion] 使 collect 不需要 ExecutionContext
- ARROW-10860 - [Java] 避免向量中生成的类的整数溢出
- ARROW-10863 - [Python] ExtensionArray.to_pandas 不起作用
- ARROW-10863 - [Python] ExtensionArray.to_pandas 不起作用
- ARROW-10875 - 简化 simd cfg 检查
- ARROW-10876 - [Rust] json 读取器应验证值类型
- ARROW-10897 - [Rust] 将 DataType::Timestamp 中的 Arc<String> 替换为 String
- ARROW-10907 - [Rust] 将 UTF8 转换为 Date64 不正确
- ARROW-10913 - [Python][Doc] 文件系统文档中的代码块错别字
- ARROW-10914 - [Rust]:算术内核的 SIMD 实现读取超出范围
- ARROW-10915 - [Rust] 使 ARROW_TEST_DATA 和 PARQUET_TEST_DATA 为绝对目录
- ARROW-10921 - 使用 pyarrow 通过 s3fs >= 0.5 读取 parquet 分区时出现 `TypeError: ‘coroutine’ object is not iterable`
- ARROW-10930 - [Python] LargeListType 没有 value_field
- ARROW-10932 - [C++] 当数据为空时,BinaryMemoTable::CopyOffsets 访问越界地址
- ARROW-10932 - [C++] 当数据为空时,BinaryMemoTable::CopyOffsets 访问越界地址
- ARROW-10942 - [C++] S3FileSystem::Impl::IsEmptyDirectory 在 Amazon S3 上失败
- ARROW-10943 - [Rust] parquet 编码中出现间歇性构建失败
- ARROW-10954 - [C++][Doc] PlasmaClient 现在是线程安全的,文档未更新
- ARROW-10955 - [C++] 读取空的 json 列表会导致无效的非空空类型
- ARROW-10960 - [C++][FlightRPC] 缺少 protobuf data_body 应导致空字节的默认值,而不是 null
- ARROW-10962 - [Java][FlightRPC] FlightData 反序列化器应接受缺失的字段
- ARROW-10967 - [Rust] 使环境变量 ARROW_TEST_DATA 和 PARQUET_TEST_DATA 可选
- ARROW-10990 - [Rust]:比较内核的 SIMD 实现读取超出范围
- ARROW-10994 - [Rust] 修复 TPC-H 文件转换中的错误
- ARROW-10996 - [Rust] 通过 Result 为 get_arrow_schema_from_metadata 返回错误消息
- ARROW-10999 - [Rust] Apache Spark 无法读取 TPC-H parquet 文件
- ARROW-11014 - [Rust] [DataFusion] ParquetExec 报告不正确的统计信息
- ARROW-11023 - [C++][CMake] gRPC 不遵守 CMAKE_CXX_COMPILER
- ARROW-11024 - [C++][Parquet] 将 List<Struct> 写入 parquet 时有时会写入错误的数据
- ARROW-11025 - [Rust] 布尔内核的基准测试测量数组创建
- ARROW-11030 - [Rust] [DataFusion] HashJoinExec 在批次很多时速度很慢
- ARROW-11048 - [Rust] 添加 MutableBuffer 的基准测试
- ARROW-11050 - [R] 处理 write_parquet 中的 RecordBatch
- ARROW-11067 - [C++] CSV 读取器在 macOS 上对某些字符串返回 null
- ARROW-11069 - [C++] 当数据类型为结构体时,Parquet 写入器写入的数据不正确
- ARROW-11073 - [Rust] /arrow/rust/arrow/src/ipc/reader.rs 中的 CI 测试出现 Lint 错误
- ARROW-11083 - [CI] “Source Release and Merge Script” 构建失败
- ARROW-11084 - [Rust] Clippy 在 master 分支上失败
- ARROW-11085 - [Rust] Rust CI 由于使用 action-rs 而不再工作:将 CI 从 action-rs/* 迁移
- ARROW-11092 - [CI] (临时)将有问题的 workflow 移动到单独的文件中
- ARROW-11102 - [Rust][DataFusion] ScalarValue(Utf8) 的 fmt::Debug 始终被引用
- ARROW-11113 - [Rust] 支持 as_struct_array 转换
- ARROW-11114 - [Java] Field 类的元数据序列化已损坏
- ARROW-11132 - [CI] 使用 pip 为评论机器人安装 crossbow 的依赖项
- ARROW-11144 - [C++][Python][CI] 修复 HDFS 夜间构建
- ARROW-11152 - [CI][C++] 修复 macOS 构建上的 Homebrew numpy 安装
- ARROW-11162 - [C++] 修复 Decimal256 Parquet 文件上的崩溃问题 (OSS-Fuzz)
- ARROW-11163 - [C++][Python] 使用 pyarrow 0.17 写入的压缩 Feather 文件在 pyarrow 2.0.0+ 中不可读
- ARROW-11166 - [Python][Compute] 添加 ProjectOptions 的绑定
- ARROW-11171 - [Go] 在 s390x 上使用 noasm 标签构建失败
- ARROW-11189 - [Developer] Achery 基准测试差异无法比较两个 json
- ARROW-11190 - [C++][Dataset] 清理编译器警告
- ARROW-11202 - [R][CI] 夜间构建没有发生(或工件未导出)
- ARROW-11224 - [R] 不在旧的 R 版本上测试元数据序列化
- ARROW-11226 - [Python][CI] 文件系统测试在 s3fs 0.5.2 版本上失败
- ARROW-11227 - [Python][CI] AMD64 Conda Python 3.7 Pandas 0.24 cron 作业在 to_pandas 扩展 dtype 测试中失败
- ARROW-11229 - [C++][Dataset] 静态构建失败
- ARROW-11230 - [R] 修复在找到多个 libarrow 二进制文件时 Windows 上的构建失败
- ARROW-11232 - [C++] 如果 Table 没有列,Table::CombineChunks() 返回不正确的结果
- ARROW-11233 - [C++][Flight] 无法与捆绑的 gRPC 和 Abseil 链接
- ARROW-11237 - [C++] 启用 GLog 和 unity 构建时的编译器错误
- ARROW-11251 - [CI] 确保 devtoolset-8 已正确安装并正在使用
- ARROW-11253 - [R] 确保大型元数据测试是可重现的
- ARROW-11255 - [Packaging][Conda][macOS] 修复 Python 版本
- ARROW-11257 - [C++][Parquet] 从 Parquet 写入并重新加载后,PyArrow Table 包含不同的数据
- ARROW-11271 - [Rust] [Parquet] List 模式到 Arrow 解析器错误解释子元素的 nullability
- ARROW-11274 - [Packaging][wheel][Windows] 修复 Gemfury 的 wheel 路径
- ARROW-11275 - [Packaging][wheel][Linux] 修复 Gemfury 的路径
- ARROW-11277 - [C++] 修复 macOS 10.11 上数据集表达式中的编译错误
- ARROW-11283 - [Julia] 修复安装链接
- ARROW-11286 - [Release][Yum] 修复最小构建示例检查
- ARROW-11287 - [Packaging][RPM] 添加缺失的依赖项
- ARROW-11299 - [Python] python 中的构建警告
- ARROW-11301 - [C++] 修复读取 Java Parquet 实现生成的 LZ4 压缩 Parquet 文件
- ARROW-11302 - [Release][Python] 删除对 macOS 上 python 3.5 wheel 的验证
- ARROW-11303 - [Release][C++] 在 windows 验证脚本中启用 mimalloc
- ARROW-11305 - [Rust]:parquet-rowcount 二进制文件尝试将自身作为 parquet 文件打开
- ARROW-11306 - [Packaging][Ubuntu][16.04] 添加缺失的 libprotobuf-dev 依赖项
- ARROW-11320 - [C++] 创建临时目录时出现虚假的测试失败
- ARROW-11322 - [Rust] 将 Arrow `memory` 设置为私有属性是一个破坏性的 API 更改
- PARQUET-1935 - [C++][Parquet] 写入非 nullable 值的数组时出现 nullptr 访问冲突
新功能和改进
- ARROW-1846 - [C++] 实现布尔数据的“any”归约内核
- ARROW-3850 - [Python] 支持 MapType 和 StructType,以增强 PySpark 集成
- ARROW-4193 - [Rust] 添加对 decimal 数据类型的支持
- ARROW-4544 - [Rust] 将嵌套的 JSON 结构体读取到 StructArrays
- ARROW-4804 - [Rust] 从 CSV 读取时间值 - 在 CSV 读取器中解析 Date32 和 Date64
- ARROW-4960 - [R] 为 r-arrow-feedstock 添加 crossbow 任务
- ARROW-4970 - [C++][Parquet] 实现 parquet::FileMetaData::Equals
- ARROW-5336 - [C++] 为具有不相等字典的字典编码数组实现 arrow::Concatenate
- ARROW-5350 - [Rust] 支持对 primitive/string 列表进行过滤
- ARROW-5394 - [C++] IsIn 内核的基准测试
- ARROW-5679 - [Python] 从支持矩阵中删除 Python 3.5
- ARROW-5950 - [Rust] [DataFusion] 添加通过 logger 依赖项进行日志记录的功能
- ARROW-6071 - [C++] 实现 Binary <-> LargeBinary 的转换
- ARROW-6697 - [Rust] [DataFusion] 验证所有 parquet 分区是否具有相同的模式
- ARROW-6715 - [Website] 在安装页面中描述 Plasma 包所需的“非自由”组件
- ARROW-6883 - [C++] 在 IPC 流写入器类中支持发送增量 DictionaryBatch 或替换 DictionaryBatch
- ARROW-6995 - [Packaging][Crossbow] Windows conda 工件未上传到 GitHub 发布版本
- ARROW-7531 - [C++] 调查头文件成本降低
- ARROW-7633 - [C++][CI] 为张量和稀疏张量创建模糊测试目标
- ARROW-7800 - [Python] 在 PyArrow 中公开 GetRecordBatchReader API
- ARROW-7842 - [Rust] [Parquet] 实现列表类型的数组读取器
- ARROW-8113 - [C++] 实现一个更轻量级的变体
- ARROW-8199 - [C++] 添加对 Table 上多列排序的支持
- ARROW-8289 - [Rust] [Parquet] 实现最小的 Arrow Parquet 写入器,作为完整写入器的起点
- ARROW-8423 - [Rust] [Parquet] 在写入 parquet 时将 arrow 模式序列化到元数据中
- ARROW-8425 - [Rust] [Parquet] 添加对写入时间类型的支持
- ARROW-8426 - [Rust] [Parquet] 添加对写入字典类型的支持
- ARROW-8426 - [Rust] [Parquet] 添加对写入字典类型的支持
- ARROW-8853 - [Rust] [集成测试] 启用 Flight 测试
- ARROW-8876 - [C++] 实现从日期类型到时间戳的转换
- ARROW-8883 - [Rust] [集成测试] 启用通过的测试并更新规范文档
- ARROW-9001 - [R] 在 call_function 中将输出框定为正确的类型
- ARROW-9128 - [C++] 实现字符串空格修剪内核:trim、ltrim 和 rtrim
- ARROW-9164 - [C++] 提供 API,用于向 arrow::compute::Function 类添加“docstring”,这些“docstring”可以通过绑定访问
- ARROW-9187 - [R] 添加算术内核的绑定
- ARROW-9296 - [CI][Rust] 启用更多 clippy lint 检查
- ARROW-9304 - [C++] 添加“AppendEmptyValue”构建器 API,用于 StructBuilder::AppendNull 内部
- ARROW-9361 - [Rust] 将其他数组类型移动到它们自己的模块中
- ARROW-9400 - [Python] 不要在 Windows wheel 构建中依赖 conda-forge 静态库
- ARROW-9475 - [Java] 清理 BaseAllocator 的用法,改用 BufferAllocator
- ARROW-9489 - [C++] 为 (array[string], scalar[string]) 添加 fill_null 内核实现
- ARROW-9555 - [Rust] [DataFusion] 添加内部 (hash) 等值连接物理计划
- ARROW-9564 - [Packaging] 供应商 r-arrow-feedstock conda-forge 配方
- ARROW-9674 - [Rust] Parquet 读取器应实现 Send + Sync
- ARROW-9704 - [Java] TestEndianness.testLittleEndian 在大端平台上失败
- ARROW-9707 - [Rust] [DataFusion] 重新实现线程模型
- ARROW-9709 - [Java] arrow-vector 中的测试用例假定为小端平台
- ARROW-9728 - [Rust] [Parquet] 计算结构体的嵌套定义和重复
- ARROW-9747 - [C++][Java][Format] 支持 Decimal256 类型
- ARROW-9771 - [Rust] [DataFusion] 谓词下推改进:单独处理以 AND 分隔的谓词
- ARROW-9803 - [Go] 添加对 s390x 的初始支持
- ARROW-9804 - [FlightRPC] 身份验证重新设计
- ARROW-9828 - [Rust] [DataFusion] TableProvider trait 应支持谓词下推
- ARROW-9861 - [Java] 大端平台上失败的 Arrow Vector
- ARROW-9862 - 在大端平台上,在 UnsafeDirectLittleEndian 中抛出异常
- ARROW-9911 - [Rust][DataFusion] 没有 FROM 子句的 SELECT <expression> 应生成单行输出
- ARROW-9945 - [C++][Dataset] 重构 Expression::Assume 以返回 Result
- ARROW-9991 - [C++] 拆分字符串/二进制的内核
- ARROW-10002 - [Rust] 特性专业化需要 nightly
- ARROW-10021 - [C++][计算] 支持在众数内核中查找第 n 个最常用的值
- ARROW-10032 - [文档] C++ Windows 文档已过时
- ARROW-10079 - [Rust]: 基准测试并改进 count_set_bits 函数
- ARROW-10095 - [Rust] [Parquet] 更新以适应 IPC 更改
- ARROW-10097 - [C++] 在过滤数据集批次时,在 IsIn 的使用之间持久化 SetLookupState
- ARROW-10106 - [FlightRPC][Java] 在 OutboundStreamListener 上公开 onIsReady() 回调
- ARROW-10108 - [Rust] [Parquet] 修复关于未使用返回值的编译器警告
- ARROW-10109 - [Rust] 添加支持以生成 C 数据接口
- ARROW-10110 - [Rust] 添加支持以使用 C 数据接口
- ARROW-10131 - [C++][数据集] 在 ParquetDatasetFactory 和 ParquetFileFragment 中延迟解析 parquet 元数据/统计信息
- ARROW-10135 - [Rust] [Parquet] 重构文件模块以帮助添加源
- ARROW-10143 - [C++] ArrayRangeEquals 应该接受 EqualOptions
- ARROW-10144 - [Flight] 添加使用 TLS_SNI 扩展的支持
- ARROW-10149 - [Rust] 添加支持外部释放非拥有的缓冲区
- ARROW-10163 - [Rust] [DataFusion] 添加 DictionaryArray 强制类型转换支持
- ARROW-10168 - [Rust] [Parquet] 将 arrow schema 转换扩展到投影字段
- ARROW-10173 - [Rust][DataFusion] 提高对常数谓词支持的相等性的性能
- ARROW-10180 - [C++][文档] 在添加 aws-sdk-cpp 后更新依赖项管理文档
- ARROW-10182 - [C++] 向 futures 添加基本延续支持
- ARROW-10191 - [Rust] [Parquet] 为单列批次添加往返测试
- ARROW-10197 - [Gandiva][python] 在过滤的数据上执行表达式
- ARROW-10203 - [文档] 在贡献者指南中捕获关于字节序支持的指导
- ARROW-10207 - [C++] 导致列表的一元内核没有预分配的偏移缓冲区
- ARROW-10208 - [C++] 字符串分割内核在切片输入上不能正确传播 null 值
- ARROW-10216 - [Rust] 原始类型的 min/max 聚合内核的 SIMD 实现
- ARROW-10224 - [Python] 添加对 Python 3.9 的支持,但 macOS wheel 和 Windows wheel 除外
- ARROW-10225 - [Rust] [Parquet] 修复往返测试中的 null 位图比较
- ARROW-10228 - [Julia] 捐赠 Julia 实现
- ARROW-10236 - [Rust] [DataFusion] 使 DataFusion 强制转换规则与强制转换内核一致
- ARROW-10241 - [C++][计算] 添加方差内核基准
- ARROW-10249 - [Rust]: 在 arrow json 读取器中支持 ListArrays 的 Dictionary 类型
- ARROW-10259 - [Rust] 支持字段元数据
- ARROW-10261 - [Rust] [重大更改] 列表应该接受 Field 而不是 DataType
- ARROW-10263 - [C++][计算] 提高方差合并的数值稳定性
- ARROW-10268 - [Rust] 支持将字典写入 IPC 文件和流
- ARROW-10269 - [Rust] 更新 nightly: 2020 年 10 月版
- ARROW-10277 - [C++] 支持近似比较标量
- ARROW-10289 - [Rust] 支持读取字典流
- ARROW-10292 - [Rust] [DataFusion] 简化合并
- ARROW-10295 - [Rust] [DataFusion] 简化累加器
- ARROW-10299 - [Rust] 支持读取和写入 V5 的 IPC 元数据
- ARROW-10300 - [Rust] 改进生成/转换 TPC-H 数据的基准测试文档
- ARROW-10301 - [C++] 添加“全部”布尔归约内核
- ARROW-10302 - [Python] 不要重复打包 plasma-store-server
- ARROW-10304 - [C++][计算] 优化整数的方差内核
- ARROW-10310 - [C++][Gandiva] 在 Gandiva 中添加单参数 round()
- ARROW-10311 - [发布] 更新 crossbow 验证过程
- ARROW-10313 - [C++] 提高 UTF8 验证速度和 CSV 字符串转换
- ARROW-10318 - [C++] 在 CSV 解析器中使用 pimpl 习惯用法
- ARROW-10319 - [Flight][Go] 为 Flight 的客户端身份验证处理程序函数添加上下文
- ARROW-10320 - [Rust] 将 RecordBatchIterator 转换为流
- ARROW-10322 - [C++][数据集] 将表达式最小化为 compute::Function 周围的包装器
- ARROW-10323 - [发布][wheel] 添加缺失的验证设置步骤
- ARROW-10325 - [C++][计算] 分离聚合内核注册
- ARROW-10328 - [C++] 考虑使用 fast-double-parser
- ARROW-10330 - [Rust][Datafusion] 为 DataFusion 实现 nullif() 函数
- ARROW-10331 - [Rust] [DataFusion] 重新组织错误
- ARROW-10332 - [Rust] 允许 CSV 读取器从某一行开始
- ARROW-10334 - [Rust] [Parquet] 支持读取和写入 Arrow NullArray
- ARROW-10336 - [Rust] 支持字符串的 fromIter 和 toIter
- ARROW-10337 - [C++] 更宽松地解析带有小数秒的 ISO8601 时间戳
- ARROW-10338 - [Rust]: 为适用的方法使用 const fn
- ARROW-10340 - [打包][deb][RPM] 将 Python 3.8 用于 pygit2
- ARROW-10356 - [Rust] [DataFusion] 添加对 is_in 的支持
- ARROW-10363 - [Python] 删除 manylinux 中 CMake bug 的解决方法
- ARROW-10366 - [Rust] [DataFusion] 从合并中删除 collect
- ARROW-10375 - [Rust] 删除 PrimitiveArrayOps
- ARROW-10378 - [Rust] 更新 take() 内核以支持大型列表
- ARROW-10381 - [Rust] 将 Arrow 泛化以支持 MergeSort
- ARROW-10382 - [Rust] 修复错别字和拼写错误
- ARROW-10383 - [文档] 修复错别字和拼写错误
- ARROW-10384 - [C++] 修复错别字和拼写错误
- ARROW-10385 - [C++][Gandiva] 添加对 LLVM 11 的支持
- ARROW-10389 - [Rust][DataFusion] 使自定义源实现 API 更加明确
- ARROW-10392 - [C++][Gandiva] 在计算 IN 表达式时避免字符串复制
- ARROW-10396 - [Rust] [Parquet] 公开 SliceableCursor 和 FileSource
- ARROW-10398 - [Rust] [Parquet] 重新导出 parquet::record::api::Field
- ARROW-10400 - 在使用双向 TLS 时传播 TLS 客户端 peer_identity
- ARROW-10402 - [Rust] 改进数组相等性
- ARROW-10407 - [C++] Decimal256 中的除法支持
- ARROW-10408 - [Java] 将 Avro 依赖项升级到 1.10
- ARROW-10410 - [Rust] 一些重构
- ARROW-10416 - [R] 支持 Flight 中的表
- ARROW-10422 - [Rust] 删除了未使用的 BinaryArrayBuilder
- ARROW-10424 - [Rust] 简化 impl PrimitiveArray 的代码
- ARROW-10428 - [FlightRPC][Java] 添加对 HTTP cookie 的支持
- ARROW-10445 - [Rust] 向 PrimitiveArrayIter 添加 DoubleEnded
- ARROW-10449 - [Rust] 使字典键成为 PrimitiveArray
- ARROW-10454 - [Rust][Datafusion] 支持从外部解析的文件列表和模式创建 ParquetExec
- ARROW-10455 - [Rust] 修复 Windows 上的 CI 缓存未命中问题
- ARROW-10458 - [Rust] [Datafusion] context.create_logical_plan 不应采用可变 self 引用
- ARROW-10464 - [Rust] 实现将 TPC-H tbl 文件转换为 CSV 和 Parquet 的实用程序
- ARROW-10466 - [Rust] [网站] 更新实现状态页面
- ARROW-10467 - [FlightRPC][Java] 将任意客户端属性传递给服务器的能力
- ARROW-10468 - [C++][计算] 重构 FunctionExecutor -> KernelExecutor
- ARROW-10476 - [Rust] 允许从 &str 的迭代器构建字符串数组
- ARROW-10477 - [Rust] 添加对二进制数组的迭代器的支持
- ARROW-10478 - [开发][发布] 将 Java 版本更正为 3.0.0-SNAPSHOT
- ARROW-10481 - [R] 添加、删除、替换表列的绑定
- ARROW-10483 - [C++] 将 Executor 移动到单独的头文件中
- ARROW-10484 - [C++] Future<{void,Status}> 可以更通用
- ARROW-10487 - [FlightRPC][C++] 客户端中基于标头的身份验证
- ARROW-10490 - [C++][GLib] 无法使用 Xcode 12.0.1 构建
- ARROW-10492 - [Java][JDBC] 允许用户配置 SQL 类型和 Arrow 类型之间的映射
- ARROW-10504 - [C++] 在 RapidJSON 中抑制 UBSAN 指针溢出警告
- ARROW-10510 - [Rust] [DataFusion] 为 COUNT(DISTINCT) 添加基准
- ARROW-10515 - [Julia][文档] 更新受支持语言列表以包含 Julia
- ARROW-10522 - [R] 允许使用 names() 重命名表和 RecordBatch 列
- ARROW-10526 - [FlightRPC][C++] 客户端中的 HTTP cookie 处理
- ARROW-10530 - [R] 可选地在 linuxlibs.R 中使用发行版软件包
- ARROW-10531 - [Rust] [DataFusion] 更好地显示逻辑计划:Graphviz 和 Schema 信息
- ARROW-10539 - [打包][Python] 使用 GitHub Actions 为 Windows 构建 wheels
- ARROW-10540 - [Rust] 允许任意数组类型的一元内核
- ARROW-10541 - [C++] 将 re2 库添加到核心 arrow / ARROW_WITH_RE2
- ARROW-10542 - [C#][Flight] 为 .net core 添加 Flight 代码的开始
- ARROW-10543 - [开发人员] 更新开发说明以说明可能存在时间延迟
- ARROW-10552 - [Rust] 从 Buffer 中移除未使用的 Result
- ARROW-10559 - [Rust] [DataFusion] 将 logical_plan/mod.rs 分解为更小的模块
- ARROW-10561 - [Rust] 简化 `MutableBuffer::write` 和 `MutableBuffer::write_bytes`
- ARROW-10562 - [Rust] unsafe 代码中潜在的 UB (未定义行为)
- ARROW-10566 - [C++] 数组验证应该在 ArrayData 上工作
- ARROW-10567 - [C++][FlightRPC] 添加选项以帮助提高 arrow-flight-benchmark 的精度
- ARROW-10572 - [Rust][DataFusion] 对聚合/去重使用 aHash 和 std::collections hashmap
- ARROW-10574 - [Python][Parquet] 允许集合用于 ‘in’ / ‘not in’ 过滤器 (除了 set)
- ARROW-10575 - [Rust] 重命名 union.rs 以与其他数组保持一致
- ARROW-10581 - [Doc] IPC 字典参考相关部分
- ARROW-10582 - [Rust] [DataFusion] 实现 “repartition” 操作符
- ARROW-10584 - [Rust] [DataFusion] 使用显式的 JOIN ON 语法实现 SQL 连接支持
- ARROW-10585 - [Rust] [DataFusion] 向 DataFrame 和 LogicalPlan 添加连接支持
- ARROW-10586 - [Rust] [DataFusion] 向查询计划器添加连接支持
- ARROW-10589 - [Rust]: 实现 AVX-512 位与操作
- ARROW-10590 - [Rust] 从测试中移除 Date32(Millisecond)
- ARROW-10591 - [Rust] 为 MutableArrayData 添加对 structArrays 的支持
- ARROW-10595 - [Rust] 简化非空情况下 min/max 内核的内部循环
- ARROW-10596 - [Rust] 改进 take 基准测试
- ARROW-10598 - [C++] 提高 GenerateBitsUnrolled 的性能
- ARROW-10604 - [Ruby] 支持 Decimal256 类型
- ARROW-10607 - [C++][Parquet] 支持在 Parquet 中读/写 Decimal256 类型
- ARROW-10609 - [Rust] 优化非空字符串的 min/max
- ARROW-10628 - [Rust] 使 clippy 在 clippy 警告时报错
- ARROW-10633 - [Rust][DataFusion] 依赖项版本升级
- ARROW-10634 - [C#][CI] 将 CI 中的构建版本从 2.2 更改为 3.1
- ARROW-10636 - [Rust] 从 Rust parquet 中移除特殊化
- ARROW-10637 - [Rust] 向布尔内核添加示例
- ARROW-10638 - [Rust] 改进布尔内核的测试
- ARROW-10639 - [Rust] 简化 is_null 的签名并添加示例
- ARROW-10644 - [Python] 在 pyarrow.dataset 和 pyarrow.fs 中整合路径/文件系统处理
- ARROW-10646 - [C++][FlightRPC] 禁用不稳定的测试
- ARROW-10648 - [Java] 准备 Java 代码库以进行源代码发布,而无需创建或推送任何 git 标签
- ARROW-10651 - [C++] s3fs.cc 中的 alloc-dealloc-mismatch
- ARROW-10652 - [C++][Gandiva] 使 gandiva 缓存大小可配置
- ARROW-10653 - [Rust]: 更新工具链版本以引入新功能
- ARROW-10654 - [Rust] 特殊化浮点数/布尔值的解析
- ARROW-10660 - [Rust] 实现 AVX-512 位或操作
- ARROW-10665 - [Rust] 为常见的 utf8 模式添加快速路径
- ARROW-10666 - [Rust] [DataFusion] 支持嵌套的 SELECT 语句
- ARROW-10669 - [C++][Compute] 支持布尔内核的标量输入
- ARROW-10672 - [Rust] [DataFusion] 使 limit 作为流计算
- ARROW-10673 - [Rust] [DataFusion] 使 sort 在流上计算
- ARROW-10674 - [Rust] 为 Decimal 类型添加集成测试
- ARROW-10677 - [Rust] 修复 Bug 并添加测试作为文档,展示支持的 csv 解析
- ARROW-10679 - [Rust] [DataFusion] 实现 SQL CASE WHEN 物理表达式
- ARROW-10680 - [Rust] [DataFusion] 实现 TPC-H 查询 12
- ARROW-10682 - [Rust] 排序内核性能调整
- ARROW-10685 - [Rust] [DataFusion] 为连接添加过滤器下推优化器支持
- ARROW-10688 - [Rust] [DataFusion] 从 DataFrame API 支持 CASE WHEN
- ARROW-10689 - [Rust] [DataFusion] 从 SQL 支持 CASE WHEN
- ARROW-10693 - [Rust] [DataFusion] 添加对左连接的支持
- ARROW-10696 - [C++] 研究一个仅返回设置位运行的位运行读取器
- ARROW-10697 - [C++] 整合位图字读取器
- ARROW-10703 - [Rust] [DataFusion] 使连接不会在每个部分都收集左侧数据
- ARROW-10704 - [Rust][DataFusion] 从表达式枚举中删除 Nested
- ARROW-10708 - [Packaging][deb] 添加对 Ubuntu 20.10 的支持
- ARROW-10709 - [Python] 难以在 Python 中创建高效的零拷贝文件读取器
- ARROW-10712 - [Rust] [DataFusion] 向 TPC-H 基准测试添加测试
- ARROW-10717 - [Rust] [DataFusion] 添加对右连接的支持
- ARROW-10720 - [C++] 添加 BasicDecimal256 重新缩放支持
- ARROW-10721 - [C#][CI] 默认使用 .NET 3.1
- ARROW-10722 - [Rust][DataFusion] 减少聚合/连接中数据类型的开销,改进基准测试
- ARROW-10723 - [Packaging][deb][RPM] 启用 Parquet 加密
- ARROW-10724 - [Developer Tools] 添加标签器,以便在 PR 需要变基时发出通知
- ARROW-10725 - [Python][Compute] 公开排序选项的绑定
- ARROW-10728 - [Rust] [DataFusion] 添加对带有 USING 子句的 JOIN 的 SQL 支持
- ARROW-10729 - [Rust] [DataFusion] 添加对使用隐式语法的 JOIN 的 SQL 支持
- ARROW-10732 - [Rust] [DataFusion] 添加对表/关系别名和复合标识符的 SQL 支持
- ARROW-10733 - [R] 改进 Linux 安装故障排除
- ARROW-10740 - [Rust][DataFusion] 删除 clippy 发现的冗余克隆
- ARROW-10741 - 将 clippy lint 应用于源代码,并从忽略列表中删除它们
- ARROW-10742 - [Python] 从 numpy 数组创建数组时,未检查掩码
- ARROW-10745 - [Rust] 在过滤器上下文中分配填充字节
- ARROW-10747 - [Rust] csv 读取器的优化
- ARROW-10750 - [Rust] [DataFusion] 添加对 LEFT 和 RIGHT 连接的 SQL 支持
- ARROW-10752 - [GLib] 添加 garrow_schema_has_metadata()
- ARROW-10754 - [GLib] 为 GArrowField 添加元数据支持
- ARROW-10755 - [Rust] [Parquet] 添加写入布尔类型的支持
- ARROW-10756 - [Rust] Clippy - 修复冗余克隆
- ARROW-10759 - [Rust][DataFusion] 实现 SQL 表达式中将字符串转换为日期的支持
- ARROW-10763 - [Rust] 加快 take 内核的速度
- ARROW-10765 - [Rust] 优化非空数组的 take 字符串
- ARROW-10767 - [Rust] 加快带空值的 sum 内核的速度
- ARROW-10770 - [Rust] 支持读取嵌套的 JSON 列表
- ARROW-10772 - [Rust] 改进 take 性能
- ARROW-10775 - [Rust][DataFusion] 在哈希连接中使用 ahash
- ARROW-10776 - [C++] 提供对 Array 内的原始元素的迭代器访问
- ARROW-10781 - [Rust] [DataFusion] TableProvider 应该提供行计数统计信息
- ARROW-10783 - [Rust] [DataFusion] 为 Parquet TableProvider 实现行计数统计信息
- ARROW-10785 - 进一步优化 take 字符串
- ARROW-10786 - [Packaging][RPM] 停止支持 CentOS 6
- ARROW-10788 - [C++] 使 S3 递归遍历并行化
- ARROW-10789 - [Rust][DataFusion] 使 TableProvider 动态类型化
- ARROW-10790 - [C++][Compute] 研究 ChunkedArray 排序性能
- ARROW-10792 - [Rust] [CI] 将 CI 模块化以实现更快更小的构建
- ARROW-10795 - [Rust] 修复箭头数据类型的特殊化
- ARROW-10796 - [C++] 研究 RecordBatch 排序性能
- ARROW-10800 - [Rust] [Parquet] 提供对 parquet::record::{List, Map} 元素的访问
- ARROW-10802 - [C++] 删除 Parquet 列写入器中的 Dictionary[NullType] 特殊情况处理
- ARROW-10808 - [Rust] [DataFusion] 支持聚合中的嵌套表达式
- ARROW-10809 - [C++] 使用 Datum 作为 SortIndices() 的输入
- ARROW-10812 - [Rust] 使 BooleanArray 不再是 PrimitiveArray
- ARROW-10813 - [Rust] [DataFusion] 实现 DFSchema
- ARROW-10814 - [Packaging][deb] 停止支持 Debian GNU/Linux Stretch
- ARROW-10817 - [Rust] [DataFusion] 实现 TypedString
- ARROW-10820 - [Rust] [DataFusion] 完成 TPC-H 基准查询
- ARROW-10821 - [Rust] [Datafusion] 实现负表达式
- ARROW-10822 - [Rust] [Datafusion] 支持使用 SIMD 支持编译 datafusion
- ARROW-10824 - [Rust] 为 NullArray 添加 PartialEq
- ARROW-10825 - [Rust] 为 MutableArrayData 的 NullArrays 添加支持
- ARROW-10826 - [Rust] 为 MutableArrayData 的 FixedSizeBinary 添加支持
- ARROW-10827 - [Rust] 将 concatenate 扩展到所有类型
- ARROW-10828 - [Rust][DataFusion] 启用更多 clippy lints
- ARROW-10829 - [Rust] [DataFusion] 为 DFSchema 实现 Into<Schema>
- ARROW-10832 - [Rust] 评估最新的快照 flatc
- ARROW-10836 - [Rust] 将 take 内核扩展到 FixedSizeListArray
- ARROW-10838 - [Rust] [CI] 为 wasm32 目标添加 CI
- ARROW-10839 - [Rust] [DataFusion] 实现 BETWEEN 运算符
- ARROW-10843 - [C++] 在排序族内核中添加对时间类型的支持
- ARROW-10845 - [Python][CI] 使用 numpy nightly 添加 python CI 构建
- ARROW-10849 - [Python] 处理内置类型别名的 numpy 弃用警告
- ARROW-10851 - [C++] 减小 vector_sort.cc 的代码大小
- ARROW-10857 - [Packaging] 遵循 CentOS 8 上的 PowerTools 存储库名称更改
- ARROW-10858 - [C++][MSVC] 添加缺失的 Boost 依赖项
- ARROW-10861 - [Python] 将最小 NumPy 版本更新为 1.16.6
- ARROW-10864 - [Rust] 对浮点数使用标准排序
- ARROW-10865 - [Rust][DataFusion] Schema、SchemaRef、DFSchema 和 DFSchemaRef 之间更符合人体工程学的转换
- ARROW-10867 - 在 aarch64 上使用 -DARROW_PYTHON=ON 和 gcc 构建失败
- ARROW-10869 - [GLib] 添加 garrow_*_sort_indices() 和相关选项
- ARROW-10870 - [Julia] 使用 Julia 实现更新网站
- ARROW-10871 - [Julia] 通过 GitHub Actions 设置 Julia CI
- ARROW-10873 - [C++] 在 CMake 中,Apple Silicon 被报告为 arm64
- ARROW-10874 - [Rust][DataFusion] 为 MemTable 添加表统计信息
- ARROW-10877 - [Rust] [DataFusion] 添加基于 kaggle 电影的基准测试
- ARROW-10878 - [Rust] 简化 extend_from_slice
- ARROW-10879 - [Packaging][deb] 恢复 Debian GNU/Linux Buster 配置
- ARROW-10881 - [C++] BaseSetBitRunReader<false>::NextRun 中的 EXC_BAD_ACCESS
- ARROW-10885 - [Rust][DataFusion] 基于行数的统计信息优化连接构建与探测
- ARROW-10887 - [C++][Doc] 文档化 IPC API
- ARROW-10889 - [Rust] 在 README 中记录我们对不安全代码的处理方法
- ARROW-10890 - [Rust] [DataFusion] 连接支持
- ARROW-10891 - [Rust][DataFusion] 更多 clippy lints
- ARROW-10893 - [Rust] [DataFusion] 更容易的 clippy 修复
- ARROW-10896 - [C++][CMake] 将内部 RE2 包名称从“RE2”重命名为“re2”
- ARROW-10900 - [Rust][DataFusion] 尽早解析 TableScan 提供程序
- ARROW-10904 - [Python] 添加对 Python 3.9 macOS wheels 的支持
- ARROW-10905 - [Python] 添加对 Python 3.9 windows wheels 的支持
- ARROW-10908 - [Rust] [DataFusion] 使用 BETWEEN 更新相关的 tpch 查询
- ARROW-10917 - [Rust][Doc] 更新功能矩阵
- ARROW-10918 - [C++][Doc] 文档化支持的 Parquet 功能
- ARROW-10927 - [Rust] [Parquet] 为物理类型固定大小二进制添加 Decimal 到 ArrayBuilderReader
- ARROW-10927 - [Rust] [Parquet] 为物理类型固定大小二进制添加 Decimal 到 ArrayBuilderReader
- ARROW-10927 - [Rust] [Parquet] 为物理类型固定大小二进制添加 Decimal 到 ArrayBuilderReader
- ARROW-10929 - [Rust] 将 CI 测试迁移到稳定的 rust
- ARROW-10933 - [Rust] 更新关于稳定 rust 的文档
- ARROW-10934 - [Python] 测试使用 fsspec-0.8.5 失败
- ARROW-10938 - [Rust] 将依赖项“flatbuffers”升级到 0.8
- ARROW-10940 - [Rust] 将排序内核扩展到 ListArray
- ARROW-10941 - [Doc][C++] 文档化支持的 Parquet 加密功能
- ARROW-10944 - [Rust] 为 BooleanArray 实现 min/max 内核
- ARROW-10946 - [Rust] 使 ChunkIter 不依赖于缓冲区
- ARROW-10947 - [Rust][DataFusion] 为性能将 UTF8 重构为 Date32
- ARROW-10948 - [C++] 始终使用 GTestConfig.cmake
- ARROW-10949 - [Rust] 避免在获取布尔数组的值时进行克隆
- ARROW-10951 - [Python][CI] 由于 pytest monkeypatch 问题,夜间 pandas 构建失败
- ARROW-10952 - [Rust] 添加 pre-commit hook
- ARROW-10966 - [C++] 对 ThreadPool 的任务使用 FnOnce 而不是 std::function
- ARROW-10968 - [Rust][DataFusion] 不为连接的右侧构建哈希表
- ARROW-10969 - [Rust][DataFusion] 实现 ANSI SQL 函数
- ARROW-10985 - [Rust] 更新添加 JIRA 引用的不安全指南
- ARROW-10986 - [Rust][DataFusion] 也为 TCP-H 基准测试添加平均统计信息
- ARROW-10988 - [C++] 要求 CMake 3.5 或更高版本
- ARROW-10989 - [Rust] 使用切片迭代原始数组
- ARROW-10993 - [CI][macOS] 通过 Homebrew 修复 Python 3.9 安装
- ARROW-10995 - [Rust] [DataFusion] 改进读取 Parquet 文件时的并行性
- ARROW-11004 - [FlightRPC][Python] 客户端中的基于标头的身份验证
- ARROW-11005 - [Rust] 从 take 内核中删除间接引用并简化接口
- ARROW-11008 - [Rust][DataFusion] 简化计数累加器
- ARROW-11009 - [Python] 添加环境变量以选择默认使用系统内存分配器而不是 jemalloc/mimalloc
- ARROW-11010 - [Python] `_pandas_logical_type_map` 中的 `np.float` 弃用警告
- ARROW-11012 - [Rust] [DataFusion] 使 write_csv 和 write_parquet 并发
- ARROW-11015 - [CI][Gandiva] 将 gandiva 夜间构建从 travis 迁移到 github action
- ARROW-11018 - [Rust][DataFusion] 添加空计数列统计信息
- ARROW-11026 - [Rust]:无需环境变量即可运行测试
- ARROW-11028 - [Rust] 有点迂腐的模式匹配
- ARROW-11029 - [Rust] [DataFusion] 记录连接顺序优化不适用于过滤器下推的原因
- ARROW-11032 - [C++][FlightRPC] 添加通过 unix 套接字进行本地 RPC 的基准测试
- ARROW-11033 - [Rust] CSV 写入器性能改进
- ARROW-11034 - [Rust] rustfmt 清理
- ARROW-11035 - [Rust] 通过 FromIter 改进转换为 utf8 的性能
- ARROW-11037 - [Rust] 改进字符串 fromIter 的性能
- ARROW-11038 - [Rust] 删除 `BufferBuilderTrait` 和相关的 Result 要求。
- ARROW-11039 - [Rust] 改进 utf8 到 float 转换的性能
- ARROW-11040 - [Rust] 使用泛型简化构建器
- ARROW-11042 - [Rust][DataFusion] 增加默认批次大小
- ARROW-11043 - [C++] 添加“is_nan”内核
- ARROW-11046 - [Rust][DataFusion] 将 count_distinct 添加到 dataframe API
- ARROW-11049 - [Python] 公开备用内存池
- ARROW-11052 - [Rust] [DataFusion] 在连接运算符中实现指标
- ARROW-11053 - [Rust] [DataFusion] 使用动态容量优化连接以获得输出批次
- ARROW-11054 - 将 SQLParser 更新到 0.70
- ARROW-11055 - [Rust] [DataFusion] 支持 date_trunc 函数
- ARROW-11058 - [Rust] [DataFusion] 实现“合并批次”运算符
- ARROW-11063 - [Rust] 在构建数组时验证空计数
- ARROW-11064 - [Rust][DataFusion] 加速较小批次上的哈希连接
- ARROW-11072 - [Rust] [Parquet] 支持 int32 和 int64 物理类型
- ARROW-11076 - [Rust][DataFusion] 重构哈希连接中右索引的使用
- ARROW-11079 - [R] 赶上 2.0 以来的变更日志
- ARROW-11080 - [C++][Dataset] 改进隐式转换
- ARROW-11082 - [Rust] 为 LargeUtf8 添加 FFI
- ARROW-11086 - [Rust] 扩展 take 以支持更多索引类型
- ARROW-11091 - [Rust][DataFusion] 修复 rust 1.49 中的 clippy 警告
- ARROW-11095 - [Python] 通过名称访问 pyarrow.RecordBatch 列
- ARROW-11096 - [Rust] 为 [Large]Binary 添加 FFI
- ARROW-11097 - [Rust] 简化测试
- ARROW-11099 - [Rust]:从 PrimitiveArray 和 BooleanArray 中删除不安全的 value_slice 方法
- ARROW-11100 - [Rust] 使用 lexical_core 加速数字到字符串的转换
- ARROW-11101 - [Rust] 在 git pre-commit hook 中启用“cargo +nightly fmt”
- ARROW-11104 - [GLib] 向 GArrowArrayBuilder 添加 append_null/append_nulls 并使用它们
- ARROW-11105 - [Rust] 在 MutableBuffer 中优先使用 From/Into traits
- ARROW-11108 - [Rust] 提升 MutableBuffer 的性能
- ARROW-11109 - [GLib] 添加 garrow_array_builder_append_empty_value() 和 values()
- ARROW-11110 - [Rust] [Datafusion] context.table 不应使用可变的 self 引用
- ARROW-11111 - [GLib] 添加 GArrowFixedSizeBinaryArrayBuilder
- ARROW-11121 - [Developer] 将 pull_request_target 用于 PR JIRA 集成
- ARROW-11122 - [Rust] 为日期和时间添加 FFI
- ARROW-11124 - [Doc] 更新 Decimal256 的状态矩阵
- ARROW-11125 - [Rust] 实现列表数组的逻辑相等性
- ARROW-11126 - [Rust] 文档化并测试 ARROW-10656
- ARROW-11127 - [C++] 非 x86 架构上未使用的 cpu_info
- ARROW-11129 - [Rust][DataFusion] 使用 tokio 线程池加载 parquet
- ARROW-11130 - [Website][CentOS 8][RHEL 8] 默认启用所有必需的仓库
- ARROW-11131 - [Rust] 提高 bool_equal 的性能
- ARROW-11136 - [R] is.nan 的绑定
- ARROW-11137 - [Rust][DataFusion] 修复 Clippy needless_range_loop, needless_lifetimes
- ARROW-11138 - [Rust] [DataFusion] 支持 ltrim,rtrim
- ARROW-11139 - [GLib] 添加对扩展类型的支持
- ARROW-11155 - [C++][Packaging] 将 gandiva crossbow 作业从 Travis-CI 移出
- ARROW-11158 - [Julia] 实现 Decimal256 支持
- ARROW-11159 - [Developer] 合并与 pull request 相关的作业
- ARROW-11165 - [Rust] [DataFusion] 文档化 DataFusion 所需的 SQL 方言
- ARROW-11168 - [Rust] 修复 cargo doc 警告
- ARROW-11169 - [Rust] 添加注释解释浮点 total_order 算法的来源
- ARROW-11175 - [R] 小型文档修复
- ARROW-11176 - [R] 公开内存池名称并文档化设置
- ARROW-11187 - [Rust] [Parquet] 固定特定的 parquet-format-rs 版本
- ARROW-11188 - [Rust] 实现 PostgreSQL 方言的加密函数
- ARROW-11193 - [Documentation] 添加 Java ListVector 的文档
- ARROW-11194 - [Rust] 启用 aarch64 的 SIMD
- ARROW-11195 - [Rust] [DataFusion] 内置的表提供者应公开相关字段
- ARROW-11196 - [GLib] 添加对带有工厂函数的 mock、HDFS 和 S3 文件系统的支持
- ARROW-11198 - [Packaging][Python] 确保构建期间 setuptools 版本支持 markdown
- ARROW-11200 - [Rust] [DateFusion] 物理运算符和表达式应具有公共访问器方法
- ARROW-11201 - [Rust] create_batch_empty - 支持更多类型
- ARROW-11203 - [Developer][Website] 启用 JIRA 和 pull request 集成
- ARROW-11204 - [C++] 修复捆绑 gRPC 和 Protobuf 的构建失败问题
- ARROW-11205 - [GLib][Dataset] 添加 GADFileFormat 及其系列
- ARROW-11209 - [Rust] DF - 为不支持的 GROUP BY 提供更好的错误消息
- ARROW-11210 - [CI] 恢复被 INFRA 阻止的工作流
- ARROW-11212 - [Packaging][Python] 使用 vcpkg 作为 manylinux 和 windows wheels 的依赖项源
- ARROW-11213 - [Packaging][Python] 在 windows 上 docker 化 wheel 构建
- ARROW-11215 - [CI] 默认使用命名卷进行 docker-compose 中的缓存
- ARROW-11216 - [Rust] 改进 StringDictionaryBuilder 的文档
- ARROW-11218 - [R] 使 SubTreeFileSystem print 方法更具信息性
- ARROW-11219 - [CI][Ruby][MinGW] 减少 CI 时间
- ARROW-11221 - [Rust] DF 为 Float32/Float64 实现 GROUP BY 支持
- ARROW-11231 - [Packaging] 将 mimalloc 添加到 Linux 构建
- ARROW-11234 - [CI][Ruby][macOS] 减少 CI 时间
- ARROW-11236 - [Java] 将 Jackson 升级到 2.11.4
- ARROW-11240 - [Packaging][R] 将 mimalloc 添加到 R 打包
- ARROW-11242 - [CI] 删除 CMake 3.2 作业
- ARROW-11245 - [C++][Gandiva] 添加对 LLVM 11.1 的支持
- ARROW-11247 - [C++] 在 CSV 中推断 date32 列
- ARROW-11256 - [Packaging][Linux] 不要缓冲打包输出
- ARROW-11268 - [Rust][DataFusion] 支持在 MemTable 中指定重新分区
- ARROW-11272 - [Release][wheel] 删除不支持的 Python 3.5 和 manylinux1
- ARROW-11273 - [Release][deb] 删除不支持的 Debian GNU/Linux stretch
- ARROW-11278 - [Release][NodeJS] 不要修改 ~/.bash_profile
- ARROW-11280 - [Release][APT] 修复最小构建示例检查
- ARROW-11281 - [C++] 删除不必要的运行时 RapidJSON 依赖
- ARROW-11282 - [Packaging][deb] 添加缺失的 libgflags-dev 依赖项
- ARROW-11285 - [Release][APT] 添加对 Ubuntu Groovy 的支持
- ARROW-11292 - [Release][JS] 使用 Node.JS LTS
- ARROW-11293 - [C++] 使用 find_package(Arrow) 时,不需要 Boost 和 gflags
- ARROW-11307 - [Release][Ubuntu][20.10] 添加针对依赖项问题的解决方法
- ARROW-11309 - [Release][C#] 使用 .NET 3.1 进行验证
- ARROW-11329 - [Rust] 不要每次更改都重建库
- ARROW-11372 - 在 macOS-ARM64 上支持 RC 验证
- PARQUET-1566 - [C++] 指示列统计信息中是否存在空计数和唯一计数