Apache Arrow 3.0.0 (2021 年 1 月 26 日)
这是涵盖了超过 3 个月开发的重大版本发布。
下载
贡献者
此版本包含来自 106 位不同贡献者的 648 个提交。
$ git shortlog -sn apache-arrow-2.0.0..apache-arrow-3.0.0
71 Jorge C. Leitao
64 Sutou Kouhei
48 Antoine Pitrou
48 Heres, Daniel
27 Andy Grove
27 Neville Dipale
24 Joris Van den Bossche
19 Neal Richardson
15 Benjamin Kietzman
14 Carol (Nichols || Goulding)
14 Uwe L. Korn
12 Jonathan Keane
12 Krisztián Szűcs
11 Andrew Lamb
11 Mike Seddon
11 mqy
10 Kazuaki Ishizaki
10 Qingping Hou
8 Jörn Horstmann
8 Yibo Cai
8 alamb
7 Andrew Wieteska
7 Ian Cook
7 Mahmut Bulut
6 Dmitry Patsura
6 Projjal Chanda
6 liyafan82
6 rdettai
5 Daniel Russo
5 David Li
5 Florian Müller
5 Jacob Quinn
5 James Duong
4 Micah Kornfield
4 Weston Pace
3 Jimmy Lu
3 Maarten A. Breddels
3 Terence D. Honles
3 Will Jones
2 Bei
2 Benjamin Wilhelm
2 Christian Lundgren
2 Daniël Heres
2 Evan Chan
2 Fokko Driesprong
2 François Garillot
2 Greg Bowyer
2 Kirill Lykov
2 Kyle Porter
2 Lyndon Bauto
2 Markus Westerlind
2 Sagnik Chakraborty
2 Sean Moran
2 Wes McKinney
2 Yordan Pavlov
2 jensenrichardson
2 wayne
2 Östman Alexander
1 Bruno LE HYARIC
1 Chiyang Wan
1 Christoph Schulze
1 Diana Clarke
1 Eric Erhardt
1 Erik Fonselius
1 Frank Du
1 Frank Smith
1 Gidon Gershinsky
1 H-Plus-Time
1 Hongze Zhang
1 Jake Goulding
1 Jeremy
1 Johan Peltenburg
1 Jorge Leitao
1 Josiah
1 Kopilov Aleksandr
1 Marc Prud'hommeaux
1 Marius van Niekerk
1 Matthew Pollock
1 Matthew Topol
1 Michal
1 Mingyu Zhong
1 Nick Bruno
1 Paddy Horan
1 Pavel Tiunov
1 Prudhvi Porandla
1 Radu Teodorescu
1 Romain Francois
1 Ruan Pearce-Authers
1 Ruihang Xia
1 Sebastian Berg
1 Tao He
1 Tyrel Rink
1 Ulimo
1 Vivian Kong
1 Weiyang Zhao
1 Zhuo Peng
1 arw2019
1 david
1 jonathan.albrecht
1 naman1996
1 rjzamora
1 shawnding(丁晓坤)
1 tching
1 tianchen
1 tifflhl
1 xudingyu
补丁提交者
以下 Apache 提交者合并了贡献者提交的补丁到仓库。
$ git shortlog -csn apache-arrow-2.0.0..apache-arrow-3.0.0
100 Andrew Lamb
88 Antoine Pitrou
76 Sutou Kouhei
70 Jorge C. Leitao
69 Neville Dipale
54 Krisztián Szűcs
44 Neal Richardson
40 Andy Grove
26 Benjamin Kietzman
19 Joris Van den Bossche
12 David Li
8 liyafan82
7 Uwe L. Korn
7 alamb
6 Micah Kornfield
5 Praveen
4 Bryan Cutler
4 Eric Erhardt
2 GitHub
2 Paddy Horan
2 Pindikura Ravindra
2 Wes McKinney
1 Sebastien Binet
变更日志
Apache Arrow 3.0.0 (2021-01-26)
错误修复
- ARROW-2616 - [Python] 交叉编译 Pyarrow
- ARROW-6582 - [R] Arrow 到 R 转换失败,字符串中包含嵌入的 null 字符
- ARROW-7363 - [Python] 为 ChunkedArray 添加 combine_chunks 方法
- ARROW-7909 - [网站] 添加如何在 Red Hat Enterprise Linux 上安装的说明
- ARROW-8258 - [Rust] [Parquet] ArrowReader 在某些时间戳类型上失败
- ARROW-9027 - [Python] 拆分为多个文件 + 清理 pyarrow.parquet 测试
- ARROW-9479 - [JS] Table.from 对于零项 Lists, FixedSizeLists, Maps 失败。Table.empty 同样失败
- ARROW-9636 - [Python] 更新 parquet.write_table 中关于 ‘LZO’ 压缩的文档
- ARROW-9776 - [R] 如果文件不存在,read_feather 在 R 中导致段错误
- ARROW-9897 - [C++][Gandiva] 从模式添加 to_date() 函数
- ARROW-9897 - [C++][Gandiva] 从模式添加 to_date() 函数
- ARROW-9898 - [C++][Gandiva] 在某些环境中 castINT 的错误处理失败
- ARROW-9903 - [R] open_dataset 在 Windows 上打开 feather 文件时冻结
- ARROW-9963 - [Python] 在 python->pyarrow 转换时识别 datetime.timezone.utc 为 UTC
- ARROW-10039 - [Rust] 不要求缓冲区的内存对齐
- ARROW-10042 - [Rust] 缓冲区相等性可能不正确
- ARROW-10080 - [R] Arrow 没有释放未使用的内存
- ARROW-10122 - [Python] 选择多索引的一列导致值列重复。
- ARROW-10145 - [C++][Dataset] 断言分区中的整数溢出回退到字符串
- ARROW-10146 - [Python] Parquet metadata to_dict 引发属性错误
- ARROW-10174 - [Java] 读取字典编码的结构向量失败
- ARROW-10177 - [CI][Gandiva] 夜间构建 gandiva-jar-xenial 失败
- ARROW-10186 - [Rust] 遵循 README 中的说明时测试失败
- ARROW-10247 - [C++][Dataset] 无法将带有字典列的数据集作为分区字段写入
- ARROW-10264 - [C++][Python] Parquet 测试使用 HadoopFileSystem URI 时失败
- ARROW-10270 - [R] 修复 R-devel 上的 CSV timestamp_parsers 测试
- ARROW-10283 - [Python] Python 弃用警告:“PY_SSIZE_T_CLEAN 将成为 ‘#’ 格式所需”
- ARROW-10293 - [Rust] [DataFusion] 修复基准测试
- ARROW-10294 - [Java] 解决 ArrowBufs 上 DecimalVector API 的问题
- ARROW-10321 - [C++] 在不应该构建时构建 AVX512 代码
- ARROW-10333 - [Java] 移除 arrow-memory-core 和 arrow-vectors 中的拆分包
- ARROW-10345 - [C++] NaN 破坏排序
- ARROW-10346 - [Python] 即使 LANG=C,默认 S3 区域也是 eu-central-1
- ARROW-10348 - [C++] 修复无效 Parquet 文件导致的崩溃 (OSS-Fuzz)
- ARROW-10350 - [Rust] parquet_derive crate 无法发布到 crates.io
- ARROW-10353 - [C++] Parquet 在 is_compressed==0 时仍解压 DataPageV2 页面
- ARROW-10358 - [R] 2.0.0 版本发布的后续问题
- ARROW-10365 - [R] 移除 macOS 上 S3 标志的重复设置
- ARROW-10369 - [开发者] 修复 archery 版本实用工具测试用例
- ARROW-10370 - [Python] 虚假的 s3fs 相关测试失败
- ARROW-10371 - [R] Linux 系统需求检查需要支持更旧的 cmake 版本
- ARROW-10386 - [R] 列表列类属性在往返过程中未保留
- ARROW-10388 - [Java] 修复 Spark 集成构建失败
- ARROW-10390 - [Rust] [Parquet] 回归:无法实现自定义 ParquetWriter,因为 `TryClone` 未公开导出
- ARROW-10393 - [Rust]: 修复 jsonreader 中字典和 stringbuilders 的 null 值读取问题
- ARROW-10394 - [Rust] [Large]BinaryArray 可以从非二进制数据类型创建
- ARROW-10397 - [C++] 关于字典索引的过期且令人困惑的注释
- ARROW-10399 - [R] 修复 cpp11::r_string 导致的性能回归
- ARROW-10411 - [C++] 修复 Concatenate FixedSizeList 时子数组长度不正确的问题
- ARROW-10412 - [C++] CMake 构建失败,grpc 1.33.1 提示 “GRPC_CPP_PLUGIN-NOTFOUND: 程序未找到或不可执行”
- ARROW-10413 - [Rust] [Parquet] 取消忽略一些现在通过的往返测试
- ARROW-10414 - [R] open_dataset 在 Windows 上不适用于绝对/扩展路径
- ARROW-10426 - [C++] Arrow 类型 large_string 无法写入 Parquet 类型列描述符
- ARROW-10433 - [Python] pyarrow 不适用于 s3fs>=0.5
- ARROW-10434 - [Rust] Debug 格式化长度大于 10 且小于 20 的数组产生不正确的值
- ARROW-10441 - [FlightRPC][Java] FlightGrpcUtils#createFlightClient 创建的 FlightClients 在关闭时关闭 gRPC 通道
- ARROW-10446 - [C++][Python] 带时区信息的 pd.Timestamp 被错误地转换为 Timestamp 数组
- ARROW-10448 - [Rust] PrimitiveArray::new 可以创建不在规范中的数组
- ARROW-10453 - [Rust] [DataFusion] 移除特化后性能下降
- ARROW-10457 - [CI] 修复 Spark branch-3.0 集成测试
- ARROW-10461 - [Rust] BitChunks::remainder_bits 中与偏移量相关的错误
- ARROW-10462 - [Python] 在 Windows 上使用 fsspec fs 时 ParquetDatasetPiece 的路径损坏
- ARROW-10463 - [R] 改进 open_dataset 中当前不支持的 CSV 选项的提示信息
- ARROW-10470 - [R] 修复导致 NYC taxi 示例失败的缺失文件错误
- ARROW-10471 - [CI][Python] 确保我们有 s3fs 的测试并在 CI 上运行这些测试
- ARROW-10472 - [C++][Python] 将标量时间戳转换为 date32 导致中止 (core dump)
- ARROW-10475 - [С++][FlightRPC] Arrow Flight Server / Client 无法使用 Ipv6 主机初始化
- ARROW-10480 - [Python] Parquet write_table 创建的是 gzipped Parquet 文件,而不是带有 gzip 压缩的 Parquet 文件
- ARROW-10482 - [Python] 在写入 Parquet 时按列指定压缩类型不工作
- ARROW-10489 - [C++] 无法使用 intel 编译器配置或 make
- ARROW-10489 - [C++] 无法使用 intel 编译器配置或 make
- ARROW-10491 - [FlightRPC][Java] 修复使用 FlightProducer 没有拦截器时出现的 NPE
- ARROW-10493 - [C++][Parquet] 写入可空嵌套字符串导致文件中的数据不正确
- ARROW-10495 - [C++] find_package(Arrow) 在 Ubuntu 18 上损坏
- ARROW-10496 - [R][CI] 修复 conda-r 任务
- ARROW-10499 - [C++][Java] 修复 ORC Java JNI 崩溃
- ARROW-10502 - [C++/Python] CUDA 检测破坏夜间 conda-win 构建
- ARROW-10503 - [C++] Uriparser 无法使用 Intel 编译器编译
- ARROW-10508 - [Java] 允许 FixedSizeListVector 拥有空子项
- ARROW-10509 - [C++] 为 clang+Windows 定义 operator«(ostream, ParquetException)
- ARROW-10511 - [Python] Table.to_pandas() 在元数据中时区感知不匹配时失败
- ARROW-10518 - 修复 gandiva 中的 cast 函数问题
- ARROW-10519 - [Python] PyArrow 从多个线程导入 Pandas 时发生死锁
- ARROW-10525 - [C++] 修复不支持的 IPC 流导致的崩溃 (OSS-Fuzz)
- ARROW-10532 - [Python] 指定 schema 与 DataFrame 列顺序不同时 pandas_metadata 损坏
- ARROW-10545 - [C++] 修复无效 Parquet 文件导致的崩溃 (OSS-Fuzz)
- ARROW-10546 - [Python] 弃用 S3FSWrapper 类
- ARROW-10547 - [Rust][DataFusion] 如果位于用户定义节点下方,Filter pushdown 会丢失过滤器
- ARROW-10551 - [Rust]: 修复不可重现的基准测试
- ARROW-10558 - [Python] 文件系统 S3 测试不独立(原生 s3 影响 s3fs)
- ARROW-10560 - [Python] 创建字符串长度超过 2GB 的数组时崩溃
- ARROW-10563 - [打包][C++] CMake find_package(Arrow 2.0 CONFIG REQUIRED) 损坏
- ARROW-10565 - [Python] Table.from_batches 和 Table.from_pandas 文档中参数名为 Schema_schema 而不是 schema
- ARROW-10568 - [C++][Parquet] 当 Tell() 不成功时 Parquet writer 导致进程崩溃
- ARROW-10569 - [C++][Python] Table 过滤性能差
- ARROW-10577 - [Rust][DataFusion] Hash Aggregator 流进入 Pending 状态后意外结束
- ARROW-10578 - [C++] 比较内核对包含 null 字符串标量的字符串数组崩溃
- ARROW-10610 - [C++] arrow-utility-test 和 arrow-csv-test 在大端平台上导致失败
- ARROW-10616 - [开发者] 将 PR 标签器扩展到所有支持的语言
- ARROW-10617 - [Python] RecordBatchStreamReader 的迭代器不适用于 python 3.8
- ARROW-10619 - [C++] 修复不支持的 IPC 流导致的崩溃 (OSS-Fuzz)
- ARROW-10620 - [Rust][Parquet] 将列块范围逻辑移动到 metadata.rs
- ARROW-10621 - [Java] flight-cpre 测试在 s390x 上导致失败
- ARROW-10622 - [R] Nameof<>() 在 r-arrow 构建环境中不正确
- ARROW-10623 - [R] 版本 1.0.1 在读取由 2.0.0 写入的文件时破坏 data.frame 属性
- ARROW-10624 - [R] 主动移除“problems”属性
- ARROW-10627 - [Rust] Github master 不编译 WASM 目标
- ARROW-10629 - [CI] MinGW 构建在 Github Actions 上损坏
- ARROW-10631 - [Rust] 固定大小二进制的相等性不正确。
- ARROW-10642 - [R] 无法从包含 0 个批次的 RecordBatchReader 获取 Table
- ARROW-10656 - [Rust] 新的 RecordBatch 要求数据类型完全匹配
- ARROW-10656 - [Rust] 新的 RecordBatch 要求数据类型完全匹配
- ARROW-10661 - [C#] 修复基准测试项目
- ARROW-10662 - [Java] 避免 Json 文件读取器中的整数溢出
- ARROW-10663 - [C++/文档] IsIn 内核忽略 SetLookupOptions 的 skip_nulls 选项
- ARROW-10667 - [Rust] [Parquet] 添加用于将 Parquet 写入内存的便捷类型
- ARROW-10668 - [R] 过滤不适用于 .data 代词
- ARROW-10681 - [Rust] [DataFusion] TPC-H Query 12 因调度器错误失败
- ARROW-10684 - [Rust] 逻辑相等性应考虑父数组的可空性
- ARROW-10690 - [Java] 如果目标向量非空,ComplexCopier 会为列表向量提供不正确的结果
- ARROW-10692 - [Rust] 数组缓冲区追加时发生段错误
- ARROW-10699 - [C++] BitmapUInt64Reader 在大端平台上不工作
- ARROW-10701 - [Rust] [Datafusion] 基准测试 sort_limit_query_sql 失败,因为 order by 子句指定的是列索引而不是表达式
- ARROW-10705 - [Rust] IPC writer 中的生命周期注解过于严格,阻止代码重用
- ARROW-10710 - [Rust] 示例 flight 服务器在 tokio 升级后损坏 (包括其他问题)
- ARROW-10711 - [CI] 从 auto-tune 中移除 set-env 以适应新的 GHA 设置
- ARROW-10719 - [C#] ArrowStreamWriter 不写入 schema 元数据
- ARROW-10746 - [C++] 在 parquet 编码测试中使用 GTEST_SKIP
- ARROW-10748 - [Java] TimeStampMilliVector 无法转换为 TimeStampMilliTZVector
- ARROW-10749 - [C++] 包含集合类型的 Datum 字符串格式不正确
- ARROW-10751 - [C++] 将 RE2 添加到最小构建示例
- ARROW-10753 - [Rust] [DataFusion] SQL WHERE 子句中的负数解析不正确
- ARROW-10757 - [Rust] [CI] 由于磁盘空间不足导致的偶发性失败
- ARROW-10760 - [Rust] [DataFusion] Predicate push down 不正确地支持 joins
- ARROW-10769 - [CI] 集成测试在 master 分支中失败
- ARROW-10774 - [R] 设置最低 cpp11 版本
- ARROW-10777 - [打包][Python] PyPI pyarrow 源代码分发 (sdist) 包含架构依赖的二进制文件
- ARROW-10778 - [Python] RowGroupInfo.statistics 对空行组出错
- ARROW-10779 - [Java] UnionListWriter 中的 writeNull 方法在指定索引的 validity 已设置时无法正常工作
- ARROW-10780 - [R] 更新 CentOS 7 上已知的 R 安装问题
- ARROW-10791 - [Rust] StreamReader, read_dictionary 复制 schema 信息
- ARROW-10801 - [Rust] [Flight] 支持发送包含 RecordBatch 字典信息的 FlightData
- ARROW-10803 - [R] 支持 R >= 3.3 并添加 CI
- ARROW-10804 - [Rust] 移除 parquet crate 上的 UB
- ARROW-10807 - [Rust][DataFusion] 避免双重哈希
- ARROW-10810 - [Rust] 加速比较内核
- ARROW-10811 - [R][CI] 移除夜间 centos6 构建
- ARROW-10823 - use_null 为 false 的 MutableArrayData 产生错误的结果
- ARROW-10830 - [Rust] json reader 不应在无效 json 上硬性崩溃
- ARROW-10833 - [Python] 避免使用 NumPy 的 PyArray_DescrCheck 宏
- ARROW-10834 - [R] 修复 SubTreeFileSystem 的打印方法
- ARROW-10837 - [Rust] 改用 `Vec
` 作为哈希键 - ARROW-10840 - [C++] 从 FileMetaDataBuilder 构建时 Parquet FileMetaData 没有 key_value_metadata
- ARROW-10842 - [Rust] 将 IO 与 json schema 推断代码解耦
- ARROW-10844 - [Rust] [DataFusion] 两个 DataFrames 的连接不可能
- ARROW-10850 - [R] 未识别的压缩类型:LZ4
- ARROW-10852 - [C++] 如果左侧数组行数更多,AssertTablesEqual(verbose=true) 会发生段错误
- ARROW-10854 - [Rust] [DataFusion] 简化逻辑扫描
- ARROW-10855 - [Python][Numpy] 将 NumPy 升级到 1.20.0rc1 后出现 ArrowTypeError
- ARROW-10856 - [R] CentOS 7 未正确识别编译器版本
- ARROW-10859 - [Rust] [DataFusion] 使 collect 不再需要 ExecutionContext
- ARROW-10860 - [Java] 避免 Vector 中生成类的整数溢出
- ARROW-10863 - [Python] ExtensionArray.to_pandas 不工作
- ARROW-10863 - [Python] ExtensionArray.to_pandas 不工作
- ARROW-10875 - 简化 simd cfg 检查
- ARROW-10876 - [Rust] json reader 应验证值类型
- ARROW-10897 - [Rust] 在 DataType::Timestamp 中用 String 替换 Arc
- ARROW-10907 - [Rust] UTF8 到 Date64 的转换不正确
- ARROW-10913 - [Python][文档] 文件系统文档中的代码块拼写错误
- ARROW-10914 - [Rust]: 算术内核的 SIMD 实现读取越界
- ARROW-10915 - [Rust] 使 ARROW_TEST_DATA 和 PARQUET_TEST_DATA 为绝对目录
- ARROW-10921 - 使用 pyarrow 经由 s3fs >= 0.5 读取 parquet 分区时出现 `TypeError: ‘coroutine’ object is not iterable`
- ARROW-10930 - [Python] LargeListType 没有 value_field
- ARROW-10932 - [C++] 数据为空时 BinaryMemoTable::CopyOffsets 访问越界地址
- ARROW-10932 - [C++] 数据为空时 BinaryMemoTable::CopyOffsets 访问越界地址
- ARROW-10942 - [C++] S3FileSystem::Impl::IsEmptyDirectory 在 Amazon S3 上失败
- ARROW-10943 - [Rust] parquet 编码中偶发性构建失败
- ARROW-10954 - [C++][文档] PlasmaClient 现在是线程安全的,文档未更新
- ARROW-10955 - [C++] 读取空 json 列表导致无效的非可空 null 类型
- ARROW-10960 - [C++][FlightRPC] 缺失的 protobuf data_body 应该默认为空字节,而不是 null
- ARROW-10962 - [Java][FlightRPC] FlightData 反序列化器应接受缺失字段
- ARROW-10967 - [Rust] 使环境变量 ARROW_TEST_DATA 和 PARQUET_TEST_DATA 可选
- ARROW-10990 - [Rust]: 比较内核的 SIMD 实现读取越界
- ARROW-10994 - [Rust] 修复 TPC-H 文件转换中的错误
- ARROW-10996 - [Rust] 通过 Result 返回 get_arrow_schema_from_metadata 的错误消息
- ARROW-10999 - [Rust] Apache Spark 无法读取 TPC-H parquet 文件
- ARROW-11014 - [Rust] [DataFusion] ParquetExec 报告不正确的统计信息
- ARROW-11023 - [C++][CMake] gRPC 不遵循 CMAKE_CXX_COMPILER
- ARROW-11024 - [C++][Parquet] 将 List
写入 parquet 有时会写入错误的数据 - ARROW-11025 - [Rust] 布尔内核的基准测试测量数组创建
- ARROW-11030 - [Rust] [DataFusion] HashJoinExec 在批次很多时速度慢
- ARROW-11048 - [Rust] 为 MutableBuffer 添加基准测试
- ARROW-11050 - [R] 在 write_parquet 中处理 RecordBatch
- ARROW-11067 - [C++] CSV reader 在 macOS 上对某些字符串返回 null
- ARROW-11069 - [C++] 当数据类型为 struct 时,Parquet writer 写入的数据不正确
- ARROW-11073 - [Rust] /arrow/rust/arrow/src/ipc/reader.rs 中的 CI 测试出现 Lint 错误
- ARROW-11083 - [CI] “Source Release and Merge Script” 构建损坏
- ARROW-11084 - [Rust] Clippy 在 master 分支中失败
- ARROW-11085 - [Rust] Rust CI 不再工作,因为它使用了 action-rs:将 CI 从 action-rs/* 迁移出去
- ARROW-11092 - [CI] (临时) 将有问题的工作流移到单独的文件中
- ARROW-11102 - [Rust][DataFusion] ScalarValue(Utf8) 的 fmt::Debug 总是带引号
- ARROW-11113 - [Rust] 支持 as_struct_array 转换
- ARROW-11114 - [Java] Field 类的元数据序列化损坏
- ARROW-11132 - [CI] 使用 pip 安装 crossbow 的评论机器人依赖项
- ARROW-11144 - [C++][Python][CI] 修复 HDFS 夜间构建
- ARROW-11152 - [CI][C++] 修复 macOS 构建上 Homebrew numpy 安装问题
- ARROW-11162 - [C++] 修复 Decimal256 Parquet 文件导致的崩溃 (OSS-Fuzz)
- ARROW-11163 - [C++][Python] 用 pyarrow 0.17 写入的压缩 Feather 文件在 pyarrow 2.0.0+ 中无法读取
- ARROW-11166 - [Python][Compute] 为 ProjectOptions 添加绑定
- ARROW-11171 - [Go] 在 s390x 上使用 noasm 标签构建失败
- ARROW-11189 - [开发者] Achery 基准测试 diff 无法比较两个 json
- ARROW-11190 - [C++][Dataset] 清理编译器警告
- ARROW-11202 - [R][CI] 夜间构建未发生 (或 artifact 未导出)
- ARROW-11224 - [R] 不在旧版本 R 上测试元数据序列化
- ARROW-11226 - [Python][CI] 文件系统测试在使用 s3fs 0.5.2 时失败
- ARROW-11227 - [Python][CI] AMD64 Conda Python 3.7 Pandas 0.24 cron 任务在 to_pandas extension dtype 测试中失败
- ARROW-11229 - [C++][Dataset] 静态构建失败
- ARROW-11230 - [R] 修复 Windows 上找到多个 libarrow 二进制文件时的构建失败
- ARROW-11232 - [C++] 如果 Table 没有列,Table::CombineChunks() 返回不正确的结果
- ARROW-11237 - [C++] 启用 GLog 和 unity build 时发生编译器错误
- ARROW-11251 - [CI] 确保 devtoolset-8 确实已安装并正在使用
- ARROW-11253 - [R] 确保大型元数据测试可重现
- ARROW-11255 - [打包][Conda][macOS] 修复 Python 版本
- ARROW-11257 - [C++][Parquet] PyArrow Table 写入 Parquet 并重新加载后数据不同
- ARROW-11271 - [Rust] [Parquet] List schema to Arrow 解析器错误解释子节点的 nullability
- ARROW-11274 - [打包][wheel][Windows] 修复 Gemfury 的 wheels 路径
- ARROW-11275 - [打包][wheel][Linux] 修复 Gemfury 的路径
- ARROW-11277 - [C++] 修复 macOS 10.11 上数据集表达式的编译错误
- ARROW-11283 - [Julia] 修复安装链接
- ARROW-11286 - [版本发布][Yum] 修复最小构建示例检查
- ARROW-11287 - [打包][RPM] 添加缺失的依赖项
- ARROW-11299 - [Python] python 中的构建警告
- ARROW-11301 - [C++] 修复读取 Java Parquet 实现生成的 LZ4 压缩 Parquet 文件的问题
- ARROW-11301 - [C++] 修复读取由 Java Parquet 实现生成的 LZ4 压缩的 Parquet 文件
- ARROW-11302 - [发布][Python] 移除在 macOS 上验证 python 3.5 wheel 的步骤
- ARROW-11303 - [发布][C++] 在 Windows 验证脚本中启用 mimalloc
- ARROW-11305 - [Rust]: parquet-rowcount 二进制文件尝试将自身打开为 parquet 文件
- ARROW-11306 - [打包][Ubuntu][16.04] 添加缺少的 libprotobuf-dev 依赖
- ARROW-11320 - [C++] 创建临时目录时出现的虚假测试失败
- ARROW-11322 - [Rust] 将 Arrow `memory` 设置为私有是破坏性的 API 更改
- PARQUET-1935 - [C++][Parquet] 写入非可空值数组时出现 nullptr 访问冲突
新特性和改进
- ARROW-1846 - [C++] 为布尔数据实现“any”归约核
- ARROW-3850 - [Python] 支持 MapType 和 StructType 以增强 PySpark 集成
- ARROW-4193 - [Rust] 添加对 Decimal 数据类型的支持
- ARROW-4544 - [Rust] 将嵌套的 JSON 结构体读取到 StructArrays 中
- ARROW-4804 - [Rust] 从 CSV 读取时间值 - 在 CSV 阅读器中解析 Date32 和 Date64
- ARROW-4960 - [R] 为 r-arrow-feedstock 添加 crossbow 任务
- ARROW-4970 - [C++][Parquet] 实现 parquet::FileMetaData::Equals
- ARROW-5336 - [C++] 实现 arrow::Concatenate 以用于字典编码且字典不相等的数组
- ARROW-5350 - [Rust] 支持对原生/字符串列表进行过滤
- ARROW-5394 - [C++] IsIn 核的基准测试
- ARROW-5679 - [Python] 从支持矩阵中移除 Python 3.5
- ARROW-5950 - [Rust] [DataFusion] 添加通过 logger 依赖记录日志的功能
- ARROW-6071 - [C++] 实现 Binary <-> LargeBinary 的类型转换
- ARROW-6697 - [Rust] [DataFusion] 验证所有 parquet 分区具有相同的 Schema
- ARROW-6715 - [网站] 在安装页面描述 Plasma 包需要“non-free”组件
- ARROW-6883 - [C++] 支持在 IPC 流写入器类中发送 delta DictionaryBatch 或 replacement DictionaryBatch
- ARROW-6995 - [打包][Crossbow] Windows conda 构建产物未上传到 GitHub Releases
- ARROW-7531 - [C++] 调查减少头文件开销
- ARROW-7633 - [C++][CI] 为张量和稀疏张量创建 fuzz 目标
- ARROW-7800 - [Python] 在 PyArrow 中暴露 GetRecordBatchReader API
- ARROW-7842 - [Rust] [Parquet] 为 list 类型实现数组读取器
- ARROW-8113 - [C++] 实现一个更轻量级的变体
- ARROW-8199 - [C++] 为 Table 添加多列排序支持
- ARROW-8289 - [Rust] [Parquet] 实现最小化的 Arrow Parquet 写入器作为完整写入器的起点
- ARROW-8423 - [Rust] [Parquet] 写入 parquet 时将 Arrow schema 序列化到元数据中
- ARROW-8425 - [Rust] [Parquet] 添加对写入时间类型的支持
- ARROW-8426 - [Rust] [Parquet] 添加对写入字典类型的支持
- ARROW-8426 - [Rust] [Parquet] 添加对写入字典类型的支持
- ARROW-8853 - [Rust] [集成测试] 启用 Flight 测试
- ARROW-8876 - [C++] 实现日期类型到 Timestamp 的类型转换
- ARROW-8883 - [Rust] [集成测试] 启用通过测试并更新规范文档
- ARROW-9001 - [R] 在 call_function 中将输出框定为正确类型
- ARROW-9128 - [C++] 实现字符串空格修剪核:trim, ltrim 和 rtrim
- ARROW-9164 - [C++] 提供 API 为 arrow::compute::Function 类添加可供绑定访问的“文档字符串”
- ARROW-9187 - [R] 为算术核添加绑定
- ARROW-9296 - [CI][Rust] 启用更多 clippy 检查
- ARROW-9304 - [C++] 添加“AppendEmptyValue”构建器 API 以在 StructBuilder::AppendNull 内部使用
- ARROW-9361 - [Rust] 将其他数组类型移动到它们自己的模块中
- ARROW-9400 - [Python] Windows wheel 构建不再依赖 conda-forge 静态库
- ARROW-9475 - [Java] 清理 BaseAllocator 的使用,改用 BufferAllocator
- ARROW-9489 - [C++] 为 (array[string], scalar[string]) 添加 fill_null 核实现
- ARROW-9555 - [Rust] [DataFusion] 添加内部 (哈希) 等值连接物理计划
- ARROW-9564 - [打包] Vendor r-arrow-feedstock conda-forge recipe
- ARROW-9674 - [Rust] Parquet 读取器应实现 Send + Sync
- ARROW-9704 - [Java] TestEndianness.testLittleEndian 在大端平台失败
- ARROW-9707 - [Rust] [DataFusion] 重新实现线程模型
- ARROW-9709 - [Java] arrow-vector 中的测试用例假定为小端平台
- ARROW-9728 - [Rust] [Parquet] 计算结构体的嵌套定义和重复
- ARROW-9747 - [C++][Java][格式] 支持 Decimal256 类型
- ARROW-9771 - [Rust] [DataFusion] 谓词下推改进:分别处理由 AND 分隔的谓词
- ARROW-9803 - [Go] 添加对 s390x 的初步支持
- ARROW-9804 - [FlightRPC] 重新设计认证
- ARROW-9828 - [Rust] [DataFusion] TableProvider trait 应支持谓词下推
- ARROW-9861 - [Java] Arrow Vector 在大端平台失败
- ARROW-9862 - 在大端平台上的 UnsafeDirectLittleEndian 中抛出异常
- ARROW-9911 - [Rust][DataFusion] 没有 FROM 子句的 SELECT
应产生一行输出 - ARROW-9945 - [C++][Dataset] 重构 Expression::Assume 以返回 Result
- ARROW-9991 - [C++] 分割字符串/二进制的核
- ARROW-10002 - [Rust] Trait 特化需要 nightly 版本
- ARROW-10021 - [C++][Compute] 支持在 mode 核中查找第 n 个常用值
- ARROW-10032 - [文档] C++ Windows 文档已过期
- ARROW-10079 - [Rust]: 对 count_set_bits 函数进行基准测试并改进
- ARROW-10095 - [Rust] [Parquet] 根据 IPC 更改进行更新
- ARROW-10097 - [C++] 在过滤数据集批次时,在使用 IsIn 之间保留 SetLookupState
- ARROW-10106 - [FlightRPC][Java] 在 OutboundStreamListener 上暴露 onIsReady() 回调
- ARROW-10108 - [Rust] [Parquet] 修复有关未使用返回值的编译器警告
- ARROW-10109 - [Rust] 添加支持以生成 C Data 接口
- ARROW-10110 - [Rust] 添加支持以消费 C Data 接口
- ARROW-10131 - [C++][Dataset] 在 ParquetDatasetFactory 和 ParquetFileFragment 中惰性解析 parquet 元数据/统计信息
- ARROW-10135 - [Rust] [Parquet] 重构文件模块以帮助添加来源
- ARROW-10143 - [C++] ArrayRangeEquals 应接受 EqualOptions
- ARROW-10144 - [Flight] 添加支持使用 TLS_SNI 扩展
- ARROW-10149 - [Rust] 添加支持外部释放非拥有的缓冲区
- ARROW-10163 - [Rust] [DataFusion] 添加 DictionaryArray 强制转换支持
- ARROW-10168 - [Rust] [Parquet] 将 Arrow Schema 转换扩展到投影字段
- ARROW-10173 - [Rust][DataFusion] 提高相等常量谓词支持的性能
- ARROW-10180 - [C++][文档] 更新添加 aws-sdk-cpp 后的依赖管理文档
- ARROW-10182 - [C++] 为 futures 添加基本延续支持
- ARROW-10191 - [Rust] [Parquet] 为单列批次添加往返测试
- ARROW-10197 - [Gandiva][python] 在过滤数据上执行表达式
- ARROW-10203 - [文档] 在贡献者指南中记录字节序支持的指导
- ARROW-10207 - [C++] 结果为列表的一元核没有预分配的偏移缓冲区
- ARROW-10208 - [C++] 字符串分割核在切片输入上未正确传播 null
- ARROW-10216 - [Rust] 原生类型 min/max 聚合核的 SIMD 实现
- ARROW-10224 - [Python] 添加对 Python 3.9 的支持,但 macOS wheel 和 Windows wheel 除外
- ARROW-10225 - [Rust] [Parquet] 修复往返测试中的 null 位图比较问题
- ARROW-10228 - [Julia] 捐赠 Julia 实现
- ARROW-10236 - [Rust] [DataFusion] 使 DataFusion 的类型转换规则与 cast 核保持一致
- ARROW-10241 - [C++][Compute] 添加方差核的基准测试
- ARROW-10249 - [Rust]: 在 Arrow json 读取器中支持 ListArrays 的 Dictionary 类型
- ARROW-10259 - [Rust] 支持字段元数据
- ARROW-10261 - [Rust] [破坏性改动] Lists 应接收 Field 而不是 DataType
- ARROW-10263 - [C++][Compute] 改进方差合并的数值稳定性
- ARROW-10268 - [Rust] 支持将字典写入 IPC 文件和流
- ARROW-10269 - [Rust] 更新 nightly: 2020 年 10 月版
- ARROW-10277 - [C++] 支持近似比较标量
- ARROW-10289 - [Rust] 支持读取字典流
- ARROW-10292 - [Rust] [DataFusion] 简化 merge
- ARROW-10295 - [Rust] [DataFusion] 简化 accumulators
- ARROW-10299 - [Rust] 支持读写 IPC 元数据的 V5 版本
- ARROW-10300 - [Rust] 改进生成/转换 TPC-H 数据的基准测试文档
- ARROW-10301 - [C++] 添加“all”布尔归约核
- ARROW-10302 - [Python] 不对 plasma-store-server 进行双重打包
- ARROW-10304 - [C++][Compute] 优化整数的方差核
- ARROW-10310 - [C++][Gandiva] 在 Gandiva 中添加单参数 round() 函数
- ARROW-10311 - [发布] 更新 crossbow 验证流程
- ARROW-10313 - [C++] 提高 UTF8 验证速度和 CSV 字符串转换速度
- ARROW-10318 - [C++] 在 CSV 解析器中使用 pimpl 惯用法
- ARROW-10319 - [Flight][Go] 为 Flight 的客户端认证处理函数添加 Context
- ARROW-10320 - [Rust] 将 RecordBatchIterator 转换为 Stream
- ARROW-10322 - [C++][Dataset] 将 Expression 最小化为 compute::Function 的包装器
- ARROW-10323 - [发布][wheel] 添加缺少的验证设置步骤
- ARROW-10325 - [C++][Compute] 分离聚合核注册
- ARROW-10328 - [C++] 考虑使用 fast-double-parser
- ARROW-10330 - [Rust][Datafusion] 为 DataFusion 实现 nullif() 函数
- ARROW-10331 - [Rust] [DataFusion] 重新组织错误
- ARROW-10332 - [Rust] 允许 CSV 读取器从某一行开始
- ARROW-10334 - [Rust] [Parquet] 支持读写 Arrow NullArray
- ARROW-10336 - [Rust] 支持字符串的 fromIter 和 toIter
- ARROW-10337 - [C++] 更宽松地解析带小数秒的 ISO8601 时间戳
- ARROW-10338 - [Rust]: 对适用方法使用 const fn
- ARROW-10340 - [打包][deb][RPM] 为 pygit2 使用 Python 3.8
- ARROW-10356 - [Rust] [DataFusion] 添加对 is_in 的支持
- ARROW-10363 - [Python] 移除 manylinux 中 CMake bug 的 workaround
- ARROW-10366 - [Rust] [DataFusion] 从 merge 中移除 collect
- ARROW-10375 - [Rust] 移除 PrimitiveArrayOps
- ARROW-10378 - [Rust] 更新 take() 核以支持大型列表
- ARROW-10381 - [Rust] 通用化 Arrow 以支持 MergeSort
- ARROW-10382 - [Rust] 修复错字和拼写错误
- ARROW-10383 - [文档] 修复错字和拼写错误
- ARROW-10384 - [C++] 修复错字和拼写错误
- ARROW-10385 - [C++][Gandiva] 添加对 LLVM 11 的支持
- ARROW-10389 - [Rust][DataFusion] 使自定义源实现 API 更明确
- ARROW-10392 - [C++][Gandiva] 在评估 IN 表达式时避免字符串复制
- ARROW-10396 - [Rust] [Parquet] 暴露 SliceableCursor 和 FileSource
- ARROW-10398 - [Rust] [Parquet] 重新导出 parquet::record::api::Field
- ARROW-10400 - 使用 mutual TLS 时传播 TLS 客户端 peer_identity
- ARROW-10402 - [Rust] 改进数组相等性检查
- ARROW-10407 - [C++] Decimal256 中的除法支持
- ARROW-10408 - [Java] 将 Avro 依赖升级到 1.10
- ARROW-10410 - [Rust] 一些重构
- ARROW-10416 - [R] 在 Flight 中支持 Tables
- ARROW-10422 - [Rust] 移除未使用的 BinaryArrayBuilder
- ARROW-10424 - [Rust] 简化 impl PrimitiveArray 的代码
- ARROW-10428 - [FlightRPC][Java] 添加对 HTTP cookie 的支持
- ARROW-10445 - [Rust] 为 PrimitiveArrayIter 添加 DoubleEnded
- ARROW-10449 - [Rust] 使字典键成为 PrimitiveArray
- ARROW-10454 - [Rust][Datafusion] 支持从外部解析的文件列表和 Schema 创建 ParquetExec
- ARROW-10455 - [Rust] 修复 Windows CI 缓存未命中的问题
- ARROW-10458 - [Rust] [Datafusion] context.create_logical_plan 不应接收可变 self 引用
- ARROW-10464 - [Rust] 实现将 TPC-H tbl 文件转换为 CSV 和 Parquet 的工具
- ARROW-10466 - [Rust] [网站] 更新实现状态页面
- ARROW-10467 - [FlightRPC][Java] 能够向服务器传递任意客户端属性
- ARROW-10468 - [C++][Compute] 重构 FunctionExecutor -> KernelExecutor
- ARROW-10476 - [Rust] 允许从 &str 的迭代器构建字符串数组
- ARROW-10477 - [Rust] 添加对二进制数组迭代器的支持
- ARROW-10478 - [开发][发布] 将 Java 版本更正为 3.0.0-SNAPSHOT
- ARROW-10481 - [R] 用于添加、移除、替换 Table 列的绑定
- ARROW-10483 - [C++] 将 Executor 移动到单独的头文件中
- ARROW-10484 - [C++] Future<{void,Status}> 可以更通用
- ARROW-10487 - [FlightRPC][C++] 客户端中的基于 Header 的认证
- ARROW-10490 - [C++][GLib] 使用 Xcode 12.0.1 构建失败
- ARROW-10492 - [Java][JDBC] 允许用户配置 SQL 类型和 Arrow 类型之间的映射
- ARROW-10504 - [C++] 抑制 RapidJSON 中的 UBSAN 指针溢出警告
- ARROW-10510 - [Rust] [DataFusion] 为 COUNT(DISTINCT) 添加基准测试
- ARROW-10515 - [Julia][文档] 更新支持语言列表以包含 Julia
- ARROW-10522 - [R] 允许使用 names() 重命名 Table 和 RecordBatch 列
- ARROW-10526 - [FlightRPC][C++] 客户端中的 HTTP cookie 处理
- ARROW-10530 - [R] 在 linuxlibs.R 中可选使用发行版包
- ARROW-10531 - [Rust] [DataFusion] 改进逻辑计划的显示:Graphviz 和 Schema 信息
- ARROW-10539 - [打包][Python] 使用 GitHub Actions 构建 Windows wheel
- ARROW-10540 - [Rust] 允许任意数组类型的一元核
- ARROW-10541 - [C++] 将 re2 库添加到核心 Arrow / ARROW_WITH_RE2
- ARROW-10542 - [C#][Flight] 添加 .NET Core 的 flight 代码起点
- ARROW-10543 - [开发者] 更新开发说明以注明可能存在时间延迟
- ARROW-10552 - [Rust] 从 Buffer 中移除未使用的 Result
- ARROW-10559 - [Rust] [DataFusion] 将 logical_plan/mod.rs 分拆成更小的模块
- ARROW-10561 - [Rust] 简化 `MutableBuffer::write` 和 `MutableBuffer::write_bytes`
- ARROW-10562 - [Rust] 不安全代码中潜在的未定义行为
- ARROW-10566 - [C++] 数组验证应在 ArrayData 上工作
- ARROW-10567 - [C++][FlightRPC] 添加选项以帮助提高 arrow-flight-benchmark 的精度
- ARROW-10572 - [Rust][DataFusion] 为聚合/distinct 使用 aHash 和 std::collections hashmap
- ARROW-10574 - [Python][Parquet] 允许集合用于 'in' / 'not in' 过滤 (除了集合之外)
- ARROW-10575 - [Rust] 将 union.rs 重命名以与其他数组保持一致
- ARROW-10581 - [文档] IPC 字典参考相关部分
- ARROW-10582 - [Rust] [DataFusion] 实现“repartition”操作符
- ARROW-10584 - [Rust] [DataFusion] 使用显式 JOIN ON 语法实现 SQL join 支持
- ARROW-10585 - [Rust] [DataFusion] 为 DataFrame 和 LogicalPlan 添加 join 支持
- ARROW-10586 - [Rust] [DataFusion] 为查询规划器添加 join 支持
- ARROW-10589 - [Rust]: 实现 AVX-512 位与操作
- ARROW-10590 - [Rust] 从测试中移除 Date32(Millisecond)
- ARROW-10591 - [Rust] 为 structArrays 添加对 MutableArrayData 的支持
- ARROW-10595 - [Rust] 简化 min/max 核非空情况下的内循环
- ARROW-10596 - [Rust] 改进 take 的基准测试
- ARROW-10598 - [C++] 提高 GenerateBitsUnrolled 的性能
- ARROW-10604 - [Ruby] 支持 Decimal256 类型
- ARROW-10607 - [C++][Parquet] 在 Parquet 中支持读写 Decimal256 类型
- ARROW-10609 - [Rust] 优化非空字符串的 min/max 操作
- ARROW-10628 - [Rust] 使 clippy 对 clippy 警告报错
- ARROW-10633 - [Rust][DataFusion] 依赖版本升级
- ARROW-10634 - [C#][CI] 在 CI 中将构建版本从 2.2 更改为 3.1
- ARROW-10636 - [Rust] 从 Rust parquet 中移除特化
- ARROW-10637 - [Rust] 为布尔核添加示例
- ARROW-10638 - [Rust] 改进布尔核的测试
- ARROW-10639 - [Rust] 简化 is_null 的签名并添加示例
- ARROW-10644 - [Python] 整合 pyarrow.dataset 和 pyarrow.fs 中的路径/文件系统处理
- ARROW-10646 - [C++][FlightRPC] 禁用不稳定的测试
- ARROW-10648 - [Java] 准备 Java 代码库用于源发布,无需创建或推送任何 git 标签
- ARROW-10651 - [C++] s3fs.cc 中的 alloc-dealloc-mismatch
- ARROW-10652 - [C++][Gandiva] 使 gandiva 缓存大小可配置
- ARROW-10653 - [Rust]: 更新工具链版本以引入新特性
- ARROW-10654 - [Rust] 特化浮点数/布尔值的解析
- ARROW-10660 - [Rust] 实现 AVX-512 位或操作
- ARROW-10665 - [Rust] 为常见 utf8 类模式添加快速路径
- ARROW-10666 - [Rust] [DataFusion] 支持嵌套 SELECT 语句
- ARROW-10669 - [C++][Compute] 支持向布尔核输入 Scalar
- ARROW-10672 - [Rust] [DataFusion] 使 limit 以流式计算
- ARROW-10673 - [Rust] [DataFusion] 使 sort 在流上计算
- ARROW-10674 - [Rust] 添加 Decimal 类型的集成测试
- ARROW-10677 - [Rust] 修复 Bug 并添加测试作为文档,展示支持的 CSV 解析
- ARROW-10679 - [Rust] [DataFusion] 实现 SQL CASE WHEN 物理表达式
- ARROW-10680 - [Rust] [DataFusion] 实现 TPC-H 查询 12
- ARROW-10682 - [Rust] Sort 核性能调优
- ARROW-10685 - [Rust] [DataFusion] 添加 join on filter pushdown 优化器支持
- ARROW-10688 - [Rust] [DataFusion] 从 DataFrame API 支持 CASE WHEN
- ARROW-10689 - [Rust] [DataFusion] 从 SQL 支持 CASE WHEN
- ARROW-10693 - [Rust] [DataFusion] 添加对 left join 的支持
- ARROW-10696 - [C++] 研究一种仅返回设置位运行的位运行读取器
- ARROW-10697 - [C++] 整合位图字读取器
- ARROW-10703 - [Rust] [DataFusion] 使 join 不在每个部分收集 left
- ARROW-10704 - [Rust][DataFusion] 从表达式枚举中移除 Nested
- ARROW-10708 - [打包][deb] 添加对 Ubuntu 20.10 的支持
- ARROW-10709 - [Python] 在 Python 中难以实现高效的零拷贝文件读取器
- ARROW-10712 - [Rust] [DataFusion] 为 TPC-H 基准测试添加测试
- ARROW-10717 - [Rust] [DataFusion] 添加对 right join 的支持
- ARROW-10720 - [C++] 添加 BasicDecimal256 Rescale 支持
- ARROW-10721 - [C#][CI] 默认使用 .NET 3.1
- ARROW-10722 - [Rust][DataFusion] 减少聚合/连接中数据类型的开销,改进基准测试
- ARROW-10723 - [打包][deb][RPM] 启用 Parquet 加密
- ARROW-10724 - [开发者工具] 添加标签器,用于标识 PR 需要 rebase 的情况
- ARROW-10725 - [Python][Compute] 暴露 sort options 的绑定
- ARROW-10728 - [Rust] [DataFusion] 添加使用 USING 子句的 JOIN 的 SQL 支持
- ARROW-10729 - [Rust] [DataFusion] 添加使用隐式语法的 JOIN 的 SQL 支持
- ARROW-10732 - [Rust] [DataFusion] 添加表/关系别名和复合标识符的 SQL 支持
- ARROW-10733 - [R] 改进 Linux 安装疑难解答
- ARROW-10740 - [Rust][DataFusion] 移除 clippy 发现的冗余 clone
- ARROW-10741 - 对源代码应用 clippy lints,并将其从忽略列表中移除
- ARROW-10742 - [Python] 从 numpy 数组创建数组时未检查 Mask
- ARROW-10745 - [Rust] 在 filter context 中分配填充字节
- ARROW-10747 - [Rust] CSV 读取器的优化
- ARROW-10750 - [Rust] [DataFusion] 添加 LEFT 和 RIGHT join 的 SQL 支持
- ARROW-10752 - [GLib] 添加 garrow_schema_has_metadata()
- ARROW-10754 - [GLib] 为 GArrowField 添加元数据支持
- ARROW-10755 - [Rust] [Parquet] 添加对写入 boolean 类型的支持
- ARROW-10756 - [Rust] Clippy - 修复冗余 clone
- ARROW-10759 - [Rust][DataFusion] 实现 SQL 表达式中将字符串转换为 date 的支持
- ARROW-10763 - [Rust] 加速 take 核
- ARROW-10765 - [Rust] 优化非空字符串的 take 操作
- ARROW-10767 - [Rust] 加速带 null 的 sum 核
- ARROW-10770 - [Rust] 支持读取嵌套 JSON 列表
- ARROW-10772 - [Rust] 改进 take 性能
- ARROW-10775 - [Rust][DataFusion] 在哈希连接中使用 ahash
- ARROW-10776 - [C++] 提供对 Array 内部原始元素的迭代器访问
- ARROW-10781 - [Rust] [DataFusion] TableProvider 应提供行数统计信息
- ARROW-10783 - [Rust] [DataFusion] 为 Parquet TableProvider 实现行数统计信息
- ARROW-10785 - 进一步优化 take 字符串
- ARROW-10786 - [Packaging][RPM] 放弃对 CentOS 6 的支持
- ARROW-10788 - [C++] 使 S3 递归遍历并行化
- ARROW-10789 - [Rust][DataFusion] 使 TableProvider 动态类型化
- ARROW-10790 - [C++][Compute] 研究 ChunkedArray 排序性能
- ARROW-10792 - [Rust] [CI] 将 CI 模块化以实现更快更小的构建
- ARROW-10795 - [Rust] 修复 arrow 数据类型的特化
- ARROW-10796 - [C++] 研究 RecordBatch 排序性能
- ARROW-10800 - [Rust] [Parquet] 提供对 parquet::record::{List, Map} 元素的访问
- ARROW-10802 - [C++] 移除 parquet 列写入器中 Dictionary[NullType] 的特殊处理
- ARROW-10808 - [Rust] [DataFusion] 支持聚合中的嵌套表达式
- ARROW-10809 - [C++] 对 SortIndices() 输入使用 Datum
- ARROW-10812 - [Rust] 使 BooleanArray 不是 PrimitiveArray
- ARROW-10813 - [Rust] [DataFusion] 实现 DFSchema
- ARROW-10814 - [Packaging][deb] 放弃对 Debian GNU/Linux Stretch 的支持
- ARROW-10817 - [Rust] [DataFusion] 实现 TypedString
- ARROW-10820 - [Rust] [DataFusion] 完成 TPC-H 基准测试查询
- ARROW-10821 - [Rust] [Datafusion] 实现负数表达式
- ARROW-10822 - [Rust] [Datafusion] 支持编译带有 SIMD 支持的 datafusion
- ARROW-10824 - [Rust] 为 NullArray 添加 PartialEq
- ARROW-10825 - [Rust] 为 MutableArrayData 添加对 NullArrays 的支持
- ARROW-10826 - [Rust] 为 MutableArrayData 添加对 FixedSizeBinary 的支持
- ARROW-10827 - [Rust] 将 concatenate 扩展到所有类型
- ARROW-10828 - [Rust][DataFusion] 启用更多 clippy lint
- ARROW-10829 - [Rust] [DataFusion] 为 DFSchema 实现 Into<Schema>
- ARROW-10832 - [Rust] 评估最新的 flatc 快照
- ARROW-10836 - [Rust] 将 take kernel 扩展到 FixedSizeListArray
- ARROW-10838 - [Rust] [CI] 为 wasm32 目标添加 CI
- ARROW-10839 - [Rust] [DataFusion] 实现 BETWEEN 运算符
- ARROW-10843 - [C++] 在排序系列 kernel 中添加对 temporal 类型 的支持
- ARROW-10845 - [Python][CI] 使用 numpy nightly 添加 Python CI 构建
- ARROW-10849 - [Python] 处理 numpy 对内置类型别名的弃用警告
- ARROW-10851 - [C++] 减小 vector_sort.cc 的代码大小
- ARROW-10857 - [Packaging] 在 CentOS 8 上遵循 PowerTools 仓库名称更改
- ARROW-10858 - [C++][MSVC] 添加缺失的 Boost 依赖
- ARROW-10861 - [Python] 将最小 NumPy 版本更新至 1.16.6
- ARROW-10864 - [Rust] 对浮点数使用标准排序
- ARROW-10865 - [Rust][DataFusion] Schema, SchemaRef, DFSchema 和 DFSchemaRef 之间更符合人体工程学的转换
- ARROW-10867 - 在 aarch64 上使用 -DARROW_PYTHON=ON 和 gcc 时构建失败
- ARROW-10869 - [GLib] 添加 garrow_*_sort_indices() 及相关选项
- ARROW-10870 - [Julia] 使用 Julia 实现更新网站
- ARROW-10871 - [Julia] 通过 GitHub Actions 设置 Julia CI
- ARROW-10873 - [C++] Apple Silicon 在 CMake 中被报告为 arm64
- ARROW-10874 - [Rust][DataFusion] 为 MemTable 添加表统计信息
- ARROW-10877 - [Rust] [DataFusion] 添加基于 kaggle 电影的基准测试
- ARROW-10878 - [Rust] 简化 extend_from_slice
- ARROW-10879 - [Packaging][deb] 恢复 Debian GNU/Linux Buster 配置
- ARROW-10881 - [C++] BaseSetBitRunReader<false>::NextRun 中的 EXC_BAD_ACCESS
- ARROW-10885 - [Rust][DataFusion] 根据行数统计信息优化 join 构建和探测
- ARROW-10887 - [C++][Doc] 文档化 IPC API
- ARROW-10889 - [Rust] 在 README 中记录我们处理非安全代码的方法
- ARROW-10890 - [Rust] [DataFusion] JOIN 支持
- ARROW-10891 - [Rust][DataFusion] 更多 clippy lint
- ARROW-10893 - [Rust] [DataFusion] 更简单的 clippy 修复
- ARROW-10896 - [C++][CMake] 将内部 RE2 包名从“RE2”重命名为“re2”
- ARROW-10900 - [Rust][DataFusion] 立即解析 TableScan provider
- ARROW-10904 - [Python] 添加对 Python 3.9 macOS wheel 的支持
- ARROW-10905 - [Python] 添加对 Python 3.9 Windows wheel 的支持
- ARROW-10908 - [Rust] [DataFusion] 使用 BETWEEN 更新相关的 tpch-queries
- ARROW-10917 - [Rust][Doc] 更新功能矩阵
- ARROW-10918 - [C++][Doc] 文档化支持的 Parquet 特性
- ARROW-10927 - [Rust] [Parquet] 为物理类型固定大小二进制添加 Decimal 到 ArrayBuilderReader
- ARROW-10927 - [Rust] [Parquet] 为物理类型固定大小二进制添加 Decimal 到 ArrayBuilderReader
- ARROW-10927 - [Rust] [Parquet] 为物理类型固定大小二进制添加 Decimal 到 ArrayBuilderReader
- ARROW-10929 - [Rust] 将 CI 测试迁移到 stable Rust
- ARROW-10933 - [Rust] 更新有关 stable Rust 的文档
- ARROW-10934 - [Python] 测试在 fsspec-0.8.5 下失败
- ARROW-10938 - [Rust] 将依赖“flatbuffers”升级到 0.8
- ARROW-10940 - [Rust] 将 sort kernel 扩展到 ListArray
- ARROW-10941 - [Doc][C++] 文档化支持的 Parquet 加密特性
- ARROW-10944 - [Rust] 为 BooleanArray 实现 min/max kernel
- ARROW-10946 - [Rust] 使 ChunkIter 不依赖于缓冲区
- ARROW-10947 - [Rust][DataFusion] 为提高性能重构 UTF8 到 Date32
- ARROW-10948 - [C++] 总是使用 GTestConfig.cmake
- ARROW-10949 - [Rust] 获取 boolean 数组值时避免克隆
- ARROW-10951 - [Python][CI] 由于 pytest monkeypatch 问题,pandas 每夜构建失败
- ARROW-10952 - [Rust] 添加 pre-commit hook
- ARROW-10966 - [C++] 对 ThreadPool 的任务使用 FnOnce 而不是 std::function
- ARROW-10968 - [Rust][DataFusion] 不为 join 的右侧构建哈希表
- ARROW-10969 - [Rust][DataFusion] 实现 ANSI SQL 函数
- ARROW-10985 - [Rust] 更新添加 JIRA 引用时的非安全代码指南
- ARROW-10986 - [Rust][DataFusion] 也将平均统计信息添加到 TCP-H 基准测试中
- ARROW-10988 - [C++] 要求 CMake 3.5 或更高版本
- ARROW-10989 - [Rust] 使用 slice 迭代 primitive 数组
- ARROW-10993 - [CI][macOS] 修复通过 Homebrew 安装 Python 3.9 的问题
- ARROW-10995 - [Rust] [DataFusion] 阅读 Parquet 文件时提高并行度
- ARROW-11004 - [FlightRPC][Python] 客户端中的基于头的认证
- ARROW-11005 - [Rust] 移除 take kernel 中的间接性并简化接口
- ARROW-11008 - [Rust][DataFusion] 简化 count accumulator
- ARROW-11009 - [Python] 添加环境变量以选择默认使用系统内存分配器而非 jemalloc/mimalloc
- ARROW-11010 - [Python] _pandas_logical_type_map 中的 np.float 弃用警告
- ARROW-11012 - [Rust] [DataFusion] 使 write_csv 和 write_parquet 并发
- ARROW-11015 - [CI][Gandiva] 将 gandiva 每夜构建从 travis 移至 github action
- ARROW-11018 - [Rust][DataFusion] 添加 null count 列统计信息
- ARROW-11026 - [Rust]: 运行测试无需环境变量
- ARROW-11028 - [Rust] 有点迂腐的模式匹配
- ARROW-11029 - [Rust] [DataFusion] 文档化为什么 join order 优化不适用于 filter pushdown
- ARROW-11032 - [C++][FlightRPC] 添加通过 unix socket 进行本地 RPC 的基准测试
- ARROW-11033 - [Rust] CSV 写入器性能改进
- ARROW-11034 - [Rust] rustfmt 清理
- ARROW-11035 - [Rust] 通过 FromIter 改进 cast 到 utf8 的性能
- ARROW-11037 - [Rust] 改进 string fromIter 的性能
- ARROW-11038 - [Rust] 移除 BufferBuilderTrait 及相关的 Result 要求。
- ARROW-11039 - [Rust] 改进 utf8 到 float cast 的性能
- ARROW-11040 - [Rust] 使用泛型简化 builders
- ARROW-11042 - [Rust][DataFusion] 增加默认 batch 大小
- ARROW-11043 - [C++] 添加“is_nan” kernel
- ARROW-11046 - [Rust][DataFusion] 向 dataframe API 添加 count_distinct
- ARROW-11049 - [Python] 暴露备用内存池
- ARROW-11052 - [Rust] [DataFusion] 在 join 运算符中实现指标
- ARROW-11053 - [Rust] [DataFusion] 优化 join,为输出 batch 提供动态容量
- ARROW-11054 - 将 SQLParser 更新到 0.70
- ARROW-11055 - [Rust] [DataFusion] 支持 date_trunc 函数
- ARROW-11058 - [Rust] [DataFusion] 实现“合并 batch”运算符
- ARROW-11063 - [Rust] 构建数组时验证 null counts
- ARROW-11064 - [Rust][DataFusion] 在较小的 batch 上加速哈希 join
- ARROW-11072 - [Rust] [Parquet] 支持 int32 和 int64 物理类型
- ARROW-11076 - [Rust][DataFusion] 重构哈希 join 中右侧索引的使用
- ARROW-11079 - [R] 追赶 2.0 以来变更日志
- ARROW-11080 - [C++][Dataset] 改进隐式转换
- ARROW-11082 - [Rust] 添加 LargeUtf8 的 FFI
- ARROW-11086 - [Rust] 扩展 take 以支持更多索引类型
- ARROW-11091 - [Rust][DataFusion] 修复 rust 1.49 中的 clippy 警告
- ARROW-11095 - [Python] 按名称访问 pyarrow.RecordBatch 列
- ARROW-11096 - [Rust] 添加 [Large]Binary 的 FFI
- ARROW-11097 - [Rust] 简化测试
- ARROW-11099 - [Rust]: 从 PrimitiveArray 和 BooleanArray 移除不安全的 value_slice 方法
- ARROW-11100 - [Rust] 使用 lexical_core 加速 numeric 到 string 的 cast
- ARROW-11101 - [Rust] 在 git pre-commit hook 中启用 “cargo +nightly fmt”
- ARROW-11104 - [GLib] 向 GArrowArrayBuilder 添加 append_null/append_nulls 并使用它们
- ARROW-11105 - [Rust] 在 MutableBuffer 中偏好 From/Into trait
- ARROW-11108 - [Rust] 改进 MutableBuffer 的性能
- ARROW-11109 - [GLib] 添加 garrow_array_builder_append_empty_value() 和 values()
- ARROW-11110 - [Rust] [Datafusion] context.table 不应接受可变 self 引用
- ARROW-11111 - [GLib] 添加 GArrowFixedSizeBinaryArrayBuilder
- ARROW-11121 - [Developer] 对 PR JIRA 集成使用 pull_request_target
- ARROW-11122 - [Rust] 添加 date 和 time 的 FFI
- ARROW-11124 - [Doc] 更新 Decimal256 的状态矩阵
- ARROW-11125 - [Rust] 为 list 数组实现逻辑相等性
- ARROW-11126 - [Rust] 文档化并测试 ARROW-10656
- ARROW-11127 - [C++] 在非 x86 架构上未使用的 cpu_info
- ARROW-11129 - [Rust][DataFusion] 使用 tokio 线程池加载 parquet
- ARROW-11130 - [Website][CentOS 8][RHEL 8] 默认启用所有必需的仓库
- ARROW-11131 - [Rust] 改进 bool_equal 性能
- ARROW-11136 - [R] is.nan 的绑定
- ARROW-11137 - [Rust][DataFusion] 修复 Clippy needless_range_loop, needless_lifetimes 警告
- ARROW-11138 - [Rust] [DataFusion] 支持 ltrim, rtrim
- ARROW-11139 - [GLib] 添加对扩展类型的支持
- ARROW-11155 - [C++][Packaging] 将 gandiva crossbow 任务从 Travis-CI 移出
- ARROW-11158 - [Julia] 实现 Decimal256 支持
- ARROW-11159 - [Developer] 合并与 pull request 相关的任务
- ARROW-11165 - [Rust] [DataFusion] 文档化 DataFusion 期望的 SQL 方言
- ARROW-11168 - [Rust] 修复 cargo doc 警告
- ARROW-11169 - [Rust] 添加注释解释 float total_order 算法的来源
- ARROW-11175 - [R] 小型文档修复
- ARROW-11176 - [R] 暴露内存池名称并文档化其设置
- ARROW-11187 - [Rust] [Parquet] 固定特定 parquet-format-rs 版本
- ARROW-11188 - [Rust] 实现 PostgreSQL 方言中的加密函数
- ARROW-11193 - [Documentation] 添加 Java ListVector 的文档
- ARROW-11194 - [Rust] 为 aarch64 启用 SIMD
- ARROW-11195 - [Rust] [DataFusion] 内置 table provider 应暴露相关字段
- ARROW-11196 - [GLib] 添加通过工厂函数支持 mock, HDFS 和 S3 文件系统
- ARROW-11198 - [Packaging][Python] 确保构建期间的 setuptools 版本支持 markdown
- ARROW-11200 - [Rust] [DateFusion] 物理运算符和表达式应具有公共访问器方法
- ARROW-11201 - [Rust] create_batch_empty - 支持更多类型
- ARROW-11203 - [Developer][Website] 启用 JIRA 和 pull request 集成
- ARROW-11204 - [C++] 修复使用捆绑的 gRPC 和 Protobuf 构建失败的问题
- ARROW-11205 - [GLib][Dataset] 添加 GADFileFormat 及其系列
- ARROW-11209 - [Rust] DF - 对不支持的 GROUP BY 提供更好的错误消息
- ARROW-11210 - [CI] 恢复曾被 INFRA 阻塞的工作流程
- ARROW-11212 - [Packaging][Python] 对 manylinux 和 Windows wheel 使用 vcpkg 作为依赖源
- ARROW-11213 - [Packaging][Python] 在 Windows 上使用 Docker 构建 wheel
- ARROW-11215 - [CI] 在 docker-compose 中默认使用命名卷进行缓存
- ARROW-11216 - [Rust] 改进 StringDictionaryBuilder 的文档
- ARROW-11218 - [R] 使 SubTreeFileSystem 的 print 方法更具信息量
- ARROW-11219 - [CI][Ruby][MinGW] 减少 CI 时间
- ARROW-11221 - [Rust] DF 为 Float32/Float64 实现 GROUP BY 支持
- ARROW-11231 - [Packaging] 向 Linux 构建添加 mimalloc
- ARROW-11234 - [CI][Ruby][macOS] 减少 CI 时间
- ARROW-11236 - [Java] 将 Jackson 升级到 2.11.4
- ARROW-11240 - [Packaging][R] 向 R 打包添加 mimalloc
- ARROW-11242 - [CI] 移除 CMake 3.2 任务
- ARROW-11245 - [C++][Gandiva] 添加对 LLVM 11.1 的支持
- ARROW-11247 - [C++] 在 CSV 中推断 date32 列
- ARROW-11256 - [Packaging][Linux] 不要缓冲打包输出
- ARROW-11268 - [Rust][DataFusion] 支持在 MemTable 中指定再分区
- ARROW-11272 - [Release][wheel] 移除不受支持的 Python 3.5 和 manylinux1
- ARROW-11273 - [Release][deb] 移除不受支持的 Debian GNU/Linux stretch
- ARROW-11278 - [Release][NodeJS] 不要修改 ~/.bash_profile
- ARROW-11280 - [Release][APT] 修复最小构建示例检查
- ARROW-11281 - [C++] 移除不必要的运行时 RapidJSON 依赖
- ARROW-11282 - [Packaging][deb] 添加缺失的 libgflags-dev 依赖
- ARROW-11285 - [Release][APT] 添加对 Ubuntu Groovy 的支持
- ARROW-11292 - [Release][JS] 使用 Node.JS LTS
- ARROW-11293 - [C++] 使用 find_package(Arrow) 时不要求 Boost 和 gflags
- ARROW-11307 - [Release][Ubuntu][20.10] 添加依赖问题的临时解决方法
- ARROW-11309 - [Release][C#] 使用 .NET 3.1 进行验证
- ARROW-11329 - [Rust] 不在每次更改时重新构建库
- ARROW-11372 - 支持在 macOS-ARM64 上进行 RC 验证
- PARQUET-1566 - [C++] 指示列统计信息中是否存在 null count, distinct count