Apache Arrow 3.0.0 (2021年1月26日)
这是一个涵盖超过3个月开发的大版本发布。
下载
贡献者
此版本包含来自 106 位不同贡献者的 648 次提交。
$ git shortlog -sn apache-arrow-2.0.0..apache-arrow-3.0.0
71 Jorge C. Leitao
64 Sutou Kouhei
48 Antoine Pitrou
48 Heres, Daniel
27 Andy Grove
27 Neville Dipale
24 Joris Van den Bossche
19 Neal Richardson
15 Benjamin Kietzman
14 Carol (Nichols || Goulding)
14 Uwe L. Korn
12 Jonathan Keane
12 Krisztián Szűcs
11 Andrew Lamb
11 Mike Seddon
11 mqy
10 Kazuaki Ishizaki
10 Qingping Hou
8 Jörn Horstmann
8 Yibo Cai
8 alamb
7 Andrew Wieteska
7 Ian Cook
7 Mahmut Bulut
6 Dmitry Patsura
6 Projjal Chanda
6 liyafan82
6 rdettai
5 Daniel Russo
5 David Li
5 Florian Müller
5 Jacob Quinn
5 James Duong
4 Micah Kornfield
4 Weston Pace
3 Jimmy Lu
3 Maarten A. Breddels
3 Terence D. Honles
3 Will Jones
2 Bei
2 Benjamin Wilhelm
2 Christian Lundgren
2 Daniël Heres
2 Evan Chan
2 Fokko Driesprong
2 François Garillot
2 Greg Bowyer
2 Kirill Lykov
2 Kyle Porter
2 Lyndon Bauto
2 Markus Westerlind
2 Sagnik Chakraborty
2 Sean Moran
2 Wes McKinney
2 Yordan Pavlov
2 jensenrichardson
2 wayne
2 Östman Alexander
1 Bruno LE HYARIC
1 Chiyang Wan
1 Christoph Schulze
1 Diana Clarke
1 Eric Erhardt
1 Erik Fonselius
1 Frank Du
1 Frank Smith
1 Gidon Gershinsky
1 H-Plus-Time
1 Hongze Zhang
1 Jake Goulding
1 Jeremy
1 Johan Peltenburg
1 Jorge Leitao
1 Josiah
1 Kopilov Aleksandr
1 Marc Prud'hommeaux
1 Marius van Niekerk
1 Matthew Pollock
1 Matthew Topol
1 Michal
1 Mingyu Zhong
1 Nick Bruno
1 Paddy Horan
1 Pavel Tiunov
1 Prudhvi Porandla
1 Radu Teodorescu
1 Romain Francois
1 Ruan Pearce-Authers
1 Ruihang Xia
1 Sebastian Berg
1 Tao He
1 Tyrel Rink
1 Ulimo
1 Vivian Kong
1 Weiyang Zhao
1 Zhuo Peng
1 arw2019
1 david
1 jonathan.albrecht
1 naman1996
1 rjzamora
1 shawnding(丁晓坤)
1 tching
1 tianchen
1 tifflhl
1 xudingyu
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-2.0.0..apache-arrow-3.0.0
100 Andrew Lamb
88 Antoine Pitrou
76 Sutou Kouhei
70 Jorge C. Leitao
69 Neville Dipale
54 Krisztián Szűcs
44 Neal Richardson
40 Andy Grove
26 Benjamin Kietzman
19 Joris Van den Bossche
12 David Li
8 liyafan82
7 Uwe L. Korn
7 alamb
6 Micah Kornfield
5 Praveen
4 Bryan Cutler
4 Eric Erhardt
2 GitHub
2 Paddy Horan
2 Pindikura Ravindra
2 Wes McKinney
1 Sebastien Binet
更新日志
Apache Arrow 3.0.0 (2021-01-26)
Bug 修复
- ARROW-2616 - [Python] 交叉编译 Pyarrow
- ARROW-6582 - [R] 当字符串中嵌入空字符时,Arrow 到 R 的转换失败
- ARROW-7363 - [Python] 为 ChunkedArray 添加 combine_chunks 方法
- ARROW-7909 - [网站] 添加如何在 Red Hat Enterprise Linux 上安装
- ARROW-8258 - [Rust] [Parquet] ArrowReader 在某些时间戳类型上失败
- ARROW-9027 - [Python] 拆分到多个文件 + 清理 pyarrow.parquet 测试
- ARROW-9479 - [JS] 对于零项的 Lists、FixedSizeLists、Maps,Table.from 失败。Table.empty 也一样
- ARROW-9636 - [Python] 更新关于 parquet.write_table 中 'LZO' 压缩的文档
- ARROW-9776 - [R] 如果文件不存在,read_feather 会导致 R 中出现段错误
- ARROW-9897 - [C++][Gandiva] 从模式添加 to_date() 函数
- ARROW-9897 - [C++][Gandiva] 从模式添加 to_date() 函数
- ARROW-9898 - [C++][Gandiva] castINT 中的错误处理在某些环境中失败
- ARROW-9903 - [R] 在 Windows 上打开 feather 文件时 open_dataset 冻结
- ARROW-9963 - [Python] 在 python->pyarrow 转换时将 datetime.timezone.utc 识别为 UTC
- ARROW-10039 - [Rust] 不要求缓冲区的内存对齐
- ARROW-10042 - [Rust] 缓冲区相等性判断可能不正确
- ARROW-10080 - [R] Arrow 不释放未使用的内存
- ARROW-10122 - [Python] 选择多索引的一列导致值列重复
- ARROW-10145 - [C++][Dataset] 断言分区中的整数溢出回退到字符串
- ARROW-10146 - [Python] Parquet 元数据的 to_dict 引发属性错误
- ARROW-10174 - [Java] 读取字典编码的结构体向量失败
- ARROW-10177 - [CI][Gandiva] 夜间构建 gandiva-jar-xenial 失败
- ARROW-10186 - [Rust] 按照 README 中的说明操作时测试失败
- ARROW-10247 - [C++][Dataset] 无法写入以字典列作为分区字段的数据集
- ARROW-10264 - [C++][Python] 使用 HadoopFileSystem URI 的 Parquet 测试失败
- ARROW-10270 - [R] 修复 R-devel 上的 CSV timestamp_parsers 测试
- ARROW-10283 - [Python] Python 废弃警告 "PY_SSIZE_T_CLEAN will be required for '#' formats"
- ARROW-10293 - [Rust] [DataFusion] 修复基准测试
- ARROW-10294 - [Java] 解决 ArrowBufs 上 DecimalVector API 的问题
- ARROW-10321 - [C++] 在不应构建时构建了 AVX512 代码
- ARROW-10333 - [Java] 移除 arrow-memory-core 和 arrow-vectors 中的拆分包
- ARROW-10345 - [C++] NaN 破坏了排序
- ARROW-10346 - [Python] 即使设置了 LANG=C,默认的 S3 区域也是 eu-central-1
- ARROW-10348 - [C++] 修复无效 Parquet 文件导致的崩溃 (OSS-Fuzz)
- ARROW-10350 - [Rust] parquet_derive crate 无法发布到 crates.io
- ARROW-10353 - [C++] 即使 is_compressed==0,Parquet 仍解压 DataPageV2 页面
- ARROW-10358 - [R] 2.0.0 版本发布的后续跟进
- ARROW-10365 - [R] 移除 macOS 上重复设置的 S3 标志
- ARROW-10369 - [Dev] 修复 archery 发布实用程序的测试用例
- ARROW-10370 - [Python] 与 s3fs 相关的虚假测试失败
- ARROW-10371 - [R] Linux 系统需求检查需要支持旧版 cmake
- ARROW-10386 - [R] 列表列的类属性在往返过程中未被保留
- ARROW-10388 - [Java] 修复 Spark 集成构建失败
- ARROW-10390 - [Rust] [Parquet] 回归问题:无法实现自定义 ParquetWriter,因为 `TryClone` 未公开导出
- ARROW-10393 - [Rust]:修复 jsonreader 中字典和字符串构建器的空值读取
- ARROW-10394 - [Rust] [Large]BinaryArray 可以从非二进制数据类型创建
- ARROW-10397 - [C++] 关于字典索引的注释过时且令人困惑
- ARROW-10399 - [R] 修复由 cpp11::r_string 引起的性能回归
- ARROW-10411 - [C++] 修复 FixedSizeList 的 Concatenate 导致的不正确的子数组长度
- ARROW-10412 - [C++] 使用 grpc 1.33.1 时 CMake 构建失败,“GRPC_CPP_PLUGIN-NOTFOUND: program not found or is not executable”
- ARROW-10413 - [Rust] [Parquet] 取消忽略一些现在可以通过的往返测试
- ARROW-10414 - [R] 在 Windows 上 open_dataset 不适用于绝对/展开的路径
- ARROW-10426 - [C++] Arrow 类型 large_string 无法写入 Parquet 类型的列描述符
- ARROW-10433 - [Python] pyarrow 不适用于 s3fs>=0.5
- ARROW-10434 - [Rust] 调试格式化长度大于 10 小于 20 的数组会产生不正确的值
- ARROW-10441 - [FlightRPC][Java] 来自 FlightGrpcUtils#createFlightClient 的 FlightClients 在关闭时会关闭 gRPC 通道
- ARROW-10446 - [C++][Python] 带有感知时区的 pd.Timestamp 被错误地转换为 Timestamp 数组
- ARROW-10448 - [Rust] PrimitiveArray::new 可以创建不符合规范的数组
- ARROW-10453 - [Rust] [DataFusion] 移除特化后性能下降
- ARROW-10457 - [CI] 修复 Spark branch-3.0 集成测试
- ARROW-10461 - [Rust] BitChunks::remainder_bits 中与偏移相关的错误
- ARROW-10462 - [Python] 在 Windows 上使用 fsspec fs 时 ParquetDatasetPiece 的路径损坏
- ARROW-10463 - [R] 针对 open_dataset 中当前不支持的 CSV 选项提供更好的消息
- ARROW-10470 - [R] 修复导致 NYC 出租车示例失败的文件缺失错误
- ARROW-10471 - [CI][Python] 确保我们有使用 s3fs 的测试并在 CI 上运行它们
- ARROW-10472 - [C++][Python] 将标量时间戳转换为 date32 会导致 Aborted (core dump)
- ARROW-10475 - [С++][FlightRPC] Arrow Flight 服务器/客户端无法使用 Ipv6 主机初始化
- ARROW-10480 - [Python] Parquet write_table 创建 gzipped Parquet 文件,而不是带 gzip 压缩的 Parquet 文件
- ARROW-10482 - [Python] 写入 Parquet 时按列指定压缩类型无效
- ARROW-10489 - [C++] 无法使用 Intel 编译器进行配置或 make
- ARROW-10489 - [C++] 无法使用 Intel 编译器进行配置或 make
- ARROW-10491 - [FlightRPC][Java] 修复在没有拦截器的情况下使用 FlightProducer 时的 NPE
- ARROW-10493 - [C++][Parquet] 写入可空嵌套字符串导致文件中数据错误
- ARROW-10495 - [C++] 在 Ubuntu 18 上 find_package(Arrow) 已损坏
- ARROW-10496 - [R][CI] 修复 conda-r 作业
- ARROW-10499 - [C++][Java] 修复 ORC Java JNI 崩溃
- ARROW-10502 - [C++/Python] CUDA 检测搞乱了夜间 conda-win 构建
- ARROW-10503 - [C++] Uriparser 无法使用 Intel 编译器编译
- ARROW-10508 - [Java] 允许 FixedSizeListVector 有空的子元素
- ARROW-10509 - [C++] 为 clang+Windows 定义 operator<<(ostream, ParquetException)
- ARROW-10511 - [Python] 当元数据中时区感知不匹配时 Table.to_pandas() 失败
- ARROW-10518 - 修复 gandiva 中的 cast 函数问题
- ARROW-10519 - [Python] 当 PyArrow 从多个线程导入 Pandas 时发生死锁
- ARROW-10525 - [C++] 修复不支持的 IPC 流导致的崩溃 (OSS-Fuzz)
- ARROW-10532 - [Python] 当指定的 schema 与 DataFrame 列的顺序不同时,pandas_metadata 损坏
- ARROW-10545 - [C++] 修复无效 Parquet 文件导致的崩溃 (OSS-Fuzz)
- ARROW-10546 - [Python] 弃用 S3FSWrapper 类
- ARROW-10547 - [Rust][DataFusion] 如果位于用户定义节点之下,过滤器下推会丢失过滤器
- ARROW-10551 - [Rust]:修复不可复现的基准测试
- ARROW-10558 - [Python] 文件系统 S3 测试不独立(原生 s3 影响 s3fs)
- ARROW-10560 - [Python] 创建超过 2GB 的字符串数组时崩溃
- ARROW-10563 - [Packaging][C++] CMake find_package(Arrow 2.0 CONFIG REQUIRED) 已损坏
- ARROW-10565 - [Python] Table.from_batches 和 Table.from_pandas 在文档中的参数是 Schema_schema 而不是 schema
- ARROW-10568 - [C++][Parquet] 当 Tell() 不成功时 Parquet 写入器使进程崩溃
- ARROW-10569 - [C++][Python] Table 过滤性能差
- ARROW-10577 - [Rust][DataFusion] Hash Aggregator 流在进入 Pending 状态后意外结束
- ARROW-10578 - [C++] 对于带空字符串标量的字符串数组,比较内核崩溃
- ARROW-10610 - [C++] arrow-utility-test 和 arrow-csv-test 在大端平台上导致失败
- ARROW-10616 - [开发者] 将 PR 标签器扩展到所有支持的语言
- ARROW-10617 - [Python] RecordBatchStreamReader 的迭代器不适用于 python 3.8
- ARROW-10619 - [C++] 修复不支持的 IPC 流导致的崩溃 (OSS-Fuzz)
- ARROW-10620 - [Rust][Parquet] 将列块范围逻辑移动到 metadata.rs
- ARROW-10621 - [Java] flight-cpre 测试在 s390x 上导致失败
- ARROW-10622 - [R] 在 r-arrow 构建环境中 Nameof<>() 不正确
- ARROW-10623 - [R] 版本 1.0.1 在读取由 2.0.0 写入的文件时破坏了 data.frame 属性
- ARROW-10624 - [R] 主动移除 "problems" 属性
- ARROW-10627 - [Rust] Github master 无法为 WASM 目标编译
- ARROW-10629 - [CI] MinGW 在 Github Actions 上的构建已损坏
- ARROW-10631 - [Rust] 固定大小二进制的相等性判断不正确
- ARROW-10642 - [R] 无法从包含 0 个批次的 RecordBatchReader 获取 Table
- ARROW-10656 - [Rust] 新的 RecordBatch 要求数据类型完全匹配
- ARROW-10656 - [Rust] 新的 RecordBatch 要求数据类型完全匹配
- ARROW-10661 - [C#] 修复基准测试项目
- ARROW-10662 - [Java] 避免 Json 文件读取器整数溢出
- ARROW-10663 - [C++/Doc] IsIn 内核忽略了 SetLookupOptions 的 skip_nulls 选项
- ARROW-10667 - [Rust] [Parquet] 添加一个方便的类型用于将 Parquet 写入内存
- ARROW-10668 - [R] 过滤不适用于 .data 代词
- ARROW-10681 - [Rust] [DataFusion] TPC-H 查询 12 因调度程序错误而失败
- ARROW-10684 - [Rust] 逻辑相等性应考虑父数组的可空性
- ARROW-10690 - [Java] 如果目标向量非空,ComplexCopier 对列表向量给出不正确的结果
- ARROW-10692 - [Rust] 数组缓冲区追加时出现段错误
- ARROW-10699 - [C++] BitmapUInt64Reader 在大端平台上不工作
- ARROW-10701 - [Rust] [Datafusion] 基准测试 sort_limit_query_sql 失败,因为 order by 子句指定了列索引而不是表达式
- ARROW-10705 - [Rust] IPC 写入器中的生命周期注解过于严格,妨碍了代码重用
- ARROW-10710 - [Rust] 在 tokio 升级后(以及其他原因)示例 flight 服务器已损坏
- ARROW-10711 - [CI] 从 auto-tune 中移除 set-env 以适应新的 GHA 设置
- ARROW-10719 - [C#] ArrowStreamWriter 不写入 schema 元数据
- ARROW-10746 - [C++] 在 parquet 编码测试中使用 GTEST_SKIP
- ARROW-10748 - [Java] TimeStampMilliVector 无法转换为 TimeStampMilliTZVector
- ARROW-10749 - [C++] 集合类型的 Datum 的字符串格式不正确
- ARROW-10751 - [C++] 将 RE2 添加到最小构建示例中
- ARROW-10753 - [Rust] [DataFusion] SQL WHERE 子句中的负数未被正确解析
- ARROW-10757 - [Rust] [CI] 因磁盘满而导致的零星故障
- ARROW-10760 - [Rust] [DataFusion] 谓词下推不能正确支持连接
- ARROW-10769 - [CI] 集成测试在 master 分支中失败
- ARROW-10774 - [R] 设置 cpp11 最低版本
- ARROW-10777 - [打包][Python] PyPI pyarrow 源码分发包 (sdist) 包含架构相关的二进制文件
- ARROW-10778 - [Python] 对空行组,RowGroupInfo.statistics 出错
- ARROW-10779 - [Java] 如果在该索引处的有效性已设置,UnionListWriter 中的 writeNull 方法无法正常工作
- ARROW-10780 - [R] 更新 CentOS 7 上已知的 R 安装问题
- ARROW-10791 - [Rust] StreamReader, read_dictionary 复制了 schema 信息
- ARROW-10801 - [Rust] [Flight] 支持发送与 RecordBatch 一起使用的字典的 FlightData
- ARROW-10803 - [R] 支持 R >= 3.3 并添加 CI
- ARROW-10804 - [Rust] 移除 parquet crate 中的未定义行为(UB)
- ARROW-10807 - [Rust][DataFusion] 避免双重哈希
- ARROW-10810 - [Rust] 加速比较内核
- ARROW-10811 - [R][CI] 移除夜间 centos6 构建
- ARROW-10823 - use_null 为 false 的 MutableArrayData 产生错误结果
- ARROW-10830 - [Rust] json 读取器不应在无效 json 上硬性崩溃
- ARROW-10833 - [Python] 避免使用 NumPy 的 PyArray_DescrCheck 宏
- ARROW-10834 - [R] 修复 SubTreeFileSystem 的 print 方法
-
ARROW-10837 - [Rust] 改为使用 `Vec
`作为哈希键 - ARROW-10840 - [C++] 从 FileMetaDataBuilder 构建的 Parquet FileMetaData 没有 key_value_metadata
- ARROW-10842 - [Rust] 将 IO 与 json schema 推断代码解耦
- ARROW-10844 - [Rust] [DataFusion] 无法连接两个 DataFrame
- ARROW-10850 - [R] 未识别的压缩类型:LZ4
- ARROW-10852 - [C++] 如果左侧数组有更多行,AssertTablesEqual(verbose=true) 会出现段错误
- ARROW-10854 - [Rust] [DataFusion] 简化的逻辑扫描
- ARROW-10855 - [Python][Numpy] 升级 NumPy 到 1.20.0rc1 后出现 ArrowTypeError
- ARROW-10856 - [R] CentOS 7 未正确识别编译器版本
- ARROW-10859 - [Rust] [DataFusion] 使 collect 不需要 ExecutionContext
- ARROW-10860 - [Java] 避免 Vector 中生成的类整数溢出
- ARROW-10863 - [Python] ExtensionArray.to_pandas 不工作
- ARROW-10863 - [Python] ExtensionArray.to_pandas 不工作
- ARROW-10875 - 简化 simd cfg 检查
- ARROW-10876 - [Rust] json 读取器应验证值类型
-
ARROW-10897 - [Rust] 在 DataType::Timestamp 中用 String 替换 Arc
- ARROW-10907 - [Rust] UTF8 到 Date64 的转换不正确
- ARROW-10913 - [Python][Doc] 文件系统文档中的代码块拼写错误
- ARROW-10914 - [Rust]:算术内核的 SIMD 实现读取越界
- ARROW-10915 - [Rust] 使 ARROW_TEST_DATA 和 PARQUET_TEST_DATA 成为绝对目录
- ARROW-10921 - 通过 s3fs >= 0.5 使用 pyarrow 读取 parquet 分区时出现 `TypeError: 'coroutine' object is not iterable`
- ARROW-10930 - [Python] LargeListType 没有 value_field
- ARROW-10932 - [C++] 当数据为空时,BinaryMemoTable::CopyOffsets 访问越界地址
- ARROW-10932 - [C++] 当数据为空时,BinaryMemoTable::CopyOffsets 访问越界地址
- ARROW-10942 - [C++] S3FileSystem::Impl::IsEmptyDirectory 在 Amazon S3 上失败
- ARROW-10943 - [Rust] parquet 编码中间歇性构建失败
- ARROW-10954 - [C++][Doc] PlasmaClient 现在是线程安全的,文档未更新
- ARROW-10955 - [C++] 读取空的 json 列表导致无效的不可为空的 null 类型
- ARROW-10960 - [C++][FlightRPC] 缺失的 protobuf data_body 应导致默认值为空字节,而不是 null
- ARROW-10962 - [Java][FlightRPC] FlightData 反序列化器应接受缺失字段
- ARROW-10967 - [Rust] 使环境变量 ARROW_TEST_DATA 和 PARQUET_TEST_DATA 成为可选
- ARROW-10990 - [Rust]:比较内核的 SIMD 实现读取越界
- ARROW-10994 - [Rust] 修复 TPC-H 文件转换中的错误
- ARROW-10996 - [Rust] 通过 Result 返回 get_arrow_schema_from_metadata 的错误消息
- ARROW-10999 - [Rust] TPC-H parquet 文件无法被 Apache Spark 读取
- ARROW-11014 - [Rust] [DataFusion] ParquetExec 报告不正确的统计信息
- ARROW-11023 - [C++][CMake] gRPC 不尊重 CMAKE_CXX_COMPILER
-
ARROW-11024 - [C++][Parquet] 将 List
写入 parquet 有时会写入错误的数据 - ARROW-11025 - [Rust] 布尔内核的基准测试测量了数组创建过程
- ARROW-11030 - [Rust] [DataFusion] HashJoinExec 在批次多时速度慢
- ARROW-11048 - [Rust] 为 MutableBuffer 添加基准测试
- ARROW-11050 - [R] 在 write_parquet 中处理 RecordBatch
- ARROW-11067 - [C++] CSV 读取器在 macOS 上对某些字符串返回 null
- ARROW-11069 - [C++] 当数据类型为 struct 时,Parquet 写入器写入的数据不正确
- ARROW-11073 - [Rust] /arrow/rust/arrow/src/ipc/reader.rs 中的 CI 测试出现 Lint 错误
- ARROW-11083 - [CI] 构建“Source Release and Merge Script”已损坏
- ARROW-11084 - [Rust] Clippy 在 master 分支中失败
- ARROW-11085 - [Rust] Rust CI 不再工作,因为它使用 action-rs:将 CI 迁移出 action-rs/*
- ARROW-11092 - [CI] (临时)将有问题的 workflows 移至单独文件
- ARROW-11102 - [Rust][DataFusion] fmt::Debug for ScalarValue(Utf8) 总是带引号
- ARROW-11113 - [Rust] 支持 as_struct_array 转换
- ARROW-11114 - [Java] Field 类的元数据序列化已损坏
- ARROW-11132 - [CI] 使用 pip 为评论机器人安装 crossbow 的依赖项
- ARROW-11144 - [C++][Python][CI] 修复 HDFS 夜间构建
- ARROW-11152 - [CI][C++] 修复 macOS 构建中 Homebrew numpy 的安装
- ARROW-11162 - [C++] 修复 Decimal256 Parquet 文件上的崩溃 (OSS-Fuzz)
- ARROW-11163 - [C++][Python] 使用 pyarrow 0.17 写入的压缩 Feather 文件在 pyarrow 2.0.0+ 中不可读
- ARROW-11166 - [Python][Compute] 为 ProjectOptions 添加绑定
- ARROW-11171 - [Go] 使用 noasm 标签在 s390x 上构建失败
- ARROW-11189 - [开发者] Archery 基准测试 diff 无法比较两个 json
- ARROW-11190 - [C++][Dataset] 清理编译器警告
- ARROW-11202 - [R][CI] 夜间构建未发生(或产物未导出)
- ARROW-11224 - [R] 不要在旧 R 版本上测试元数据序列化
- ARROW-11226 - [Python][CI] 文件系统测试在 s3fs 0.5.2 下失败
- ARROW-11227 - [Python][CI] AMD64 Conda Python 3.7 Pandas 0.24 定时任务在 to_pandas 扩展 dtype 测试中失败
- ARROW-11229 - [C++][Dataset] 静态构建失败
- ARROW-11230 - [R] 修复在 Windows 上发现多个 libarrow 二进制文件时构建失败的问题
- ARROW-11232 - [C++] 如果 Table 没有列,Table::CombineChunks() 返回不正确的结果
- ARROW-11233 - [C++][Flight] 使用捆绑的 gRPC 和 Abseil 链接失败
- ARROW-11237 - [C++] 启用 GLog 和 unity build 时出现编译器错误
- ARROW-11251 - [CI] 确保 devtoolset-8 确实已安装并正在使用
- ARROW-11253 - [R] 确保大型元数据测试是可复现的
- ARROW-11255 - [打包][Conda][macOS] 修复 Python 版本
- ARROW-11257 - [C++][Parquet] 从 Parquet 写入和重新加载后,PyArrow Table 包含不同的数据
- ARROW-11271 - [Rust] [Parquet] 列表 schema 到 Arrow 的解析器错误解释了子元素的可空性
- ARROW-11274 - [打包][wheel][Windows] 修复 Gemfury 的 wheels 路径
- ARROW-11275 - [打包][wheel][Linux] 修复 Gemfury 的路径
- ARROW-11277 - [C++] 修复在 macOS 10.11 上数据集表达式的编译错误
- ARROW-11283 - [Julia] 修复安装链接
- ARROW-11286 - [发布][Yum] 修复最小构建示例检查
- ARROW-11287 - [打包][RPM] 添加缺失的依赖项
- ARROW-11299 - [Python] python 中的构建警告
- ARROW-11301 - [C++] 修复读取由 Java Parquet 实现生成的 LZ4 压缩 Parquet 文件
- ARROW-11302 - [发布][Python] 移除在 macOS 上对 python 3.5 wheel 的验证
- ARROW-11303 - [发布][C++] 在 Windows 验证脚本中启用 mimalloc
- ARROW-11305 - [Rust]:parquet-rowcount 二进制文件试图将自身作为 parquet 文件打开
- ARROW-11306 - [打包][Ubuntu][16.04] 添加缺失的 libprotobuf-dev 依赖
- ARROW-11320 - [C++] 创建临时目录时出现虚假测试失败
- ARROW-11322 - [Rust] Arrow `memory` 设为私有是破坏性的 API 变更
- PARQUET-1935 - [C++][Parquet] 写入不可空值数组时出现 nullptr 访问违规
新功能和改进
- ARROW-1846 - [C++] 为布尔数据实现 "any" 归约内核
- ARROW-3850 - [Python] 支持 MapType 和 StructType 以增强 PySpark 集成
- ARROW-4193 - [Rust] 添加对 decimal 数据类型的支持
- ARROW-4544 - [Rust] 将嵌套的 JSON 结构读入 StructArrays
- ARROW-4804 - [Rust] 从 CSV 读取时间值 - 在 CSV 读取器中解析 Date32 和 Date64
- ARROW-4960 - [R] 为 r-arrow-feedstock 添加 crossbow 任务
- ARROW-4970 - [C++][Parquet] 实现 parquet::FileMetaData::Equals
- ARROW-5336 - [C++] 为具有不相等字典的字典编码数组实现 arrow::Concatenate
- ARROW-5350 - [Rust] 支持对原始/字符串列表进行过滤
- ARROW-5394 - [C++] IsIn 内核的基准测试
- ARROW-5679 - [Python] 从支持矩阵中移除 Python 3.5
- ARROW-5950 - [Rust] [DataFusion] 添加通过 logger 依赖项记录日志的能力
- ARROW-6071 - [C++] 实现 Binary <-> LargeBinary 转换
- ARROW-6697 - [Rust] [DataFusion] 验证所有 parquet 分区具有相同的 schema
- ARROW-6715 - [网站] 在安装页面描述 Plasma 包需要“non-free”组件
- ARROW-6883 - [C++] 在 IPC 流写入器类中支持发送增量 DictionaryBatch 或替换 DictionaryBatch
- ARROW-6995 - [打包][Crossbow] Windows conda 产物未上传到 GitHub releases
- ARROW-7531 - [C++] 研究减少头文件成本
- ARROW-7633 - [C++][CI] 为张量和稀疏张量创建模糊测试目标
- ARROW-7800 - [Python] 在 PyArrow 中暴露 GetRecordBatchReader API
- ARROW-7842 - [Rust] [Parquet] 为列表类型实现数组读取器
- ARROW-8113 - [C++] 实现一个更轻量级的 variant
- ARROW-8199 - [C++] 为 Table 添加多列排序支持
- ARROW-8289 - [Rust] [Parquet] 实现最小的 Arrow Parquet 写入器作为完整写入器的起点
- ARROW-8423 - [Rust] [Parquet] 写入 parquet 时将 arrow schema 序列化到元数据中
- ARROW-8425 - [Rust] [Parquet] 添加对写入时间类型的支持
- ARROW-8426 - [Rust] [Parquet] 添加对写入字典类型的支持
- ARROW-8426 - [Rust] [Parquet] 添加对写入字典类型的支持
- ARROW-8853 - [Rust] [集成测试] 启用 Flight 测试
- ARROW-8876 - [C++] 实现从日期类型到 Timestamp 的转换
- ARROW-8883 - [Rust] [集成测试] 启用通过的测试并更新规范文档
- ARROW-9001 - [R] 在 call_function 中将输出包装为正确的类型
- ARROW-9128 - [C++] 实现字符串空间修剪内核:trim、ltrim 和 rtrim
- ARROW-9164 - [C++] 提供 API 以向 arrow::compute::Function 类添加“文档字符串”,以便绑定可以访问
- ARROW-9187 - [R] 添加算术内核的绑定
- ARROW-9296 - [CI][Rust] 启用更多 clippy lint 检查
- ARROW-9304 - [C++] 在 StructBuilder::AppendNull 内部使用 "AppendEmptyValue" builder API
- ARROW-9361 - [Rust] 将其他数组类型移入它们自己的模块
- ARROW-9400 - [Python] 在 Windows wheel 构建中不依赖 conda-forge 静态库
- ARROW-9475 - [Java] 清理 BaseAllocator 的使用,改用 BufferAllocator
- ARROW-9489 - [C++] 为 (array[string], scalar[string]) 添加 fill_null 内核实现
- ARROW-9555 - [Rust] [DataFusion] 添加内部(哈希)等值连接物理计划
- ARROW-9564 - [打包] 提供 r-arrow-feedstock conda-forge 配方
- ARROW-9674 - [Rust] Parquet 读取器应实现 Send + Sync
- ARROW-9704 - [Java] TestEndianness.testLittleEndian 在大端平台上失败
- ARROW-9707 - [Rust] [DataFusion] 重新实现线程模型
- ARROW-9709 - [Java] arrow-vector 中的测试用例假设是小端平台
- ARROW-9728 - [Rust] [Parquet] 为结构体计算嵌套的定义和重复
- ARROW-9747 - [C++][Java][Format] 支持 Decimal256 类型
- ARROW-9771 - [Rust] [DataFusion] 谓词下推改进:将由 AND 分隔的谓词分开处理
- ARROW-9803 - [Go] 添加对 s390x 的初步支持
- ARROW-9804 - [FlightRPC] 认证重新设计
- ARROW-9828 - [Rust] [DataFusion] TableProvider trait 应支持谓词下推
- ARROW-9861 - [Java] Arrow Vector 在大端平台上失败
- ARROW-9862 - 在大端平台上 UnsafeDirectLittleEndian 中抛出异常
-
ARROW-9911 - [Rust][DataFusion] 没有 FROM 子句的 SELECT
应产生单行输出 - ARROW-9945 - [C++][Dataset] 重构 Expression::Assume 以返回一个 Result
- ARROW-9991 - [C++] 拆分字符串/二进制的内核
- ARROW-10002 - [Rust] Trait-specialization 需要 nightly
- ARROW-10021 - [C++][Compute] 在 mode 内核中支持查找第 n 个最常用的值
- ARROW-10032 - [文档] C++ Windows 文档已过时
- ARROW-10079 - [Rust]:基准测试并改进 count_set_bits 函数
- ARROW-10095 - [Rust] [Parquet] 针对 IPC 变更进行更新
- ARROW-10097 - [C++] 在过滤数据集批次时,在 IsIn 的使用之间持久化 SetLookupState
- ARROW-10106 - [FlightRPC][Java] 在 OutboundStreamListener 上暴露 onIsReady() 回调
- ARROW-10108 - [Rust] [Parquet] 修复关于未使用返回值的编译器警告
- ARROW-10109 - [Rust] 添加对生成 C 数据接口的支持
- ARROW-10110 - [Rust] 添加对消费 C 数据接口的支持
- ARROW-10131 - [C++][Dataset] 在 ParquetDatasetFactory 和 ParquetFileFragment 中惰性解析 parquet 元数据/统计信息
- ARROW-10135 - [Rust] [Parquet] 重构 file 模块以帮助添加源
- ARROW-10143 - [C++] ArrayRangeEquals 应接受 EqualOptions
- ARROW-10144 - [Flight] 添加对使用 TLS_SNI 扩展的支持
- ARROW-10149 - [Rust] 添加对外部释放非自有缓冲区的支持
- ARROW-10163 - [Rust] [DataFusion] 添加 DictionaryArray 强制转换支持
- ARROW-10168 - [Rust] [Parquet] 将 arrow schema 转换扩展到投影字段
- ARROW-10173 - [Rust][DataFusion] 提高与常量谓词相等的性能支持
- ARROW-10180 - [C++][Doc] 在 aws-sdk-cpp 添加后更新依赖管理文档
- ARROW-10182 - [C++] 为 future 添加基本的延续支持
- ARROW-10191 - [Rust] [Parquet] 为单列批次添加往返测试
- ARROW-10197 - [Gandiva][python] 在过滤后的数据上执行表达式
- ARROW-10203 - [文档] 在贡献者指南中捕获对字节序支持的指导
- ARROW-10207 - [C++] 产生列表的一元内核没有预分配的偏移缓冲区
- ARROW-10208 - [C++] 字符串拆分内核在切片输入上不能正确传播 null
- ARROW-10216 - [Rust] 原始类型的 min/max 聚合内核的 Simd 实现
- ARROW-10224 - [Python] 添加对 Python 3.9 的支持,macOS wheel 和 Windows wheel 除外
- ARROW-10225 - [Rust] [Parquet] 修复往返测试中的空位图比较
- ARROW-10228 - [Julia] 贡献 Julia 实现
- ARROW-10236 - [Rust] [DataFusion] 使 DataFusion 转换规则与 cast 内核一致
- ARROW-10241 - [C++][Compute] 添加方差内核基准测试
- ARROW-10249 - [Rust]:在 arrow json 读取器中支持 ListArrays 的字典类型
- ARROW-10259 - [Rust] 支持字段元数据
- ARROW-10261 - [Rust] [破坏性变更] 列表应接受 Field 而不是 DataType
- ARROW-10263 - [C++][Compute] 提高方差合并的数值稳定性
- ARROW-10268 - [Rust] 支持将字典写入 IPC 文件和流
- ARROW-10269 - [Rust] 更新 nightly:2020 年 10 月版
- ARROW-10277 - [C++] 支持近似比较标量
- ARROW-10289 - [Rust] 支持读取字典流
- ARROW-10292 - [Rust] [DataFusion] 简化合并
- ARROW-10295 - [Rust] [DataFusion] 简化累加器
- ARROW-10299 - [Rust] 支持读写 V5 版本的 IPC 元数据
- ARROW-10300 - [Rust] 改进生成/转换 TPC-H 数据的基准测试文档
- ARROW-10301 - [C++] 添加 "all" 布尔归约内核
- ARROW-10302 - [Python] 不重复打包 plasma-store-server
- ARROW-10304 - [C++][Compute] 优化整数的方差内核
- ARROW-10310 - [C++][Gandiva] 在 Gandiva 中添加单参数 round()
- ARROW-10311 - [发布] 更新 crossbow 验证过程
- ARROW-10313 - [C++] 提高 UTF8 验证速度和 CSV 字符串转换
- ARROW-10318 - [C++] 在 CSV 解析器中使用 pimpl 惯用法
- ARROW-10319 - [Flight][Go] 为 Flight 的客户端认证处理函数添加上下文
- ARROW-10320 - [Rust] 将 RecordBatchIterator 转换为 Stream
- ARROW-10322 - [C++][Dataset] 将 Expression 最小化为 compute::Function 的包装器
- ARROW-10323 - [发布][wheel] 添加缺失的验证设置步骤
- ARROW-10325 - [C++][Compute] 分离聚合内核注册
- ARROW-10328 - [C++] 考虑使用 fast-double-parser
- ARROW-10330 - [Rust][Datafusion] 为 DataFusion 实现 nullif() 函数
- ARROW-10331 - [Rust] [DataFusion] 重组错误
- ARROW-10332 - [Rust] 允许 CSV 读取器从某一行开始
- ARROW-10334 - [Rust] [Parquet] 支持读写 Arrow NullArray
- ARROW-10336 - [Rust] 支持字符串的 fromIter 和 toIter
- ARROW-10337 - [C++] 更宽松地解析带小数秒的 ISO8601 时间戳
- ARROW-10338 - [Rust]:对适用的方法使用 const fn
- ARROW-10340 - [打包][deb][RPM] 为 pygit2 使用 Python 3.8
- ARROW-10356 - [Rust] [DataFusion] 添加对 is_in 的支持
- ARROW-10363 - [Python] 移除在 manylinux 中针对 CMake bug 的解决方法
- ARROW-10366 - [Rust] [DataFusion] 从合并中移除 collect
- ARROW-10375 - [Rust] 移除 PrimitiveArrayOps
- ARROW-10378 - [Rust] 更新 take() 内核以支持大型列表
- ARROW-10381 - [Rust] 泛化 Arrow 以支持 MergeSort
- ARROW-10382 - [Rust] 修复拼写错误
- ARROW-10383 - [文档] 修复拼写错误
- ARROW-10384 - [C++] 修复拼写错误
- ARROW-10385 - [C++][Gandiva] 添加对 LLVM 11 的支持
- ARROW-10389 - [Rust][DataFusion] 使自定义源实现 API 更明确
- ARROW-10392 - [C++][Gandiva] 在评估 IN 表达式时避免字符串复制
- ARROW-10396 - [Rust] [Parquet] 暴露 SliceableCursor 和 FileSource
- ARROW-10398 - [Rust] [Parquet] 重新导出 parquet::record::api::Field
- ARROW-10400 - 使用相互 TLS 时传播 TLS 客户端 peer_identity
- ARROW-10402 - [Rust] 改进数组相等性判断
- ARROW-10407 - [C++] Decimal256 中的除法支持
- ARROW-10408 - [Java] 将 Avro 依赖升级到 1.10
- ARROW-10410 - [Rust] 一些重构
- ARROW-10416 - [R] 在 Flight 中支持 Tables
- ARROW-10422 - [Rust] 移除了未使用的 BinaryArrayBuilder
- ARROW-10424 - [Rust] 简化 impl PrimitiveArray 的代码
- ARROW-10428 - [FlightRPC][Java] 添加对 HTTP cookie 的支持
- ARROW-10445 - [Rust] 将 DoubleEnded 添加到 PrimitiveArrayIter
- ARROW-10449 - [Rust] 使字典键成为 PrimitiveArray
- ARROW-10454 - [Rust][Datafusion] 支持从外部解析的文件列表和 schema 创建 ParquetExec
- ARROW-10455 - [Rust] 修复 Windows 上的 CI 缓存未命中问题
- ARROW-10458 - [Rust] [Datafusion] context.create_logical_plan 不应接受可变的 self 引用
- ARROW-10464 - [Rust] 实现将 TPC-H tbl 文件转换为 CSV 和 Parquet 的实用工具
- ARROW-10466 - [Rust] [网站] 更新实现状态页面
- ARROW-10467 - [FlightRPC][Java] 能够将任意客户端属性传递给服务器
- ARROW-10468 - [C++][Compute] 重构 FunctionExecutor -> KernelExecutor
- ARROW-10476 - [Rust] 允许从 &str 的迭代器构建字符串数组
- ARROW-10477 - [Rust] 添加对二进制数组迭代器的支持
- ARROW-10478 - [开发][发布] 将 Java 版本更正为 3.0.0-SNAPSHOT
- ARROW-10481 - [R] 添加、移除、替换 Table 列的绑定
- ARROW-10483 - [C++] 将 Executor 移至单独的头文件中
- ARROW-10484 - [C++] Future<{void,Status}> 可以更通用
- ARROW-10487 - [FlightRPC][C++] 客户端中基于头部的认证
- ARROW-10490 - [C++][GLib] 使用 Xcode 12.0.1 构建失败
- ARROW-10492 - [Java][JDBC] 允许用户配置 SQL 类型和 Arrow 类型之间的映射
- ARROW-10504 - [C++] 抑制 RapidJSON 中的 UBSAN pointer-overflow 警告
- ARROW-10510 - [Rust] [DataFusion] 为 COUNT(DISTINCT) 添加基准测试
- ARROW-10515 - [Julia][Doc] 更新支持的语言列表以包含 Julia
- ARROW-10522 - [R] 允许使用 names() 重命名 Table 和 RecordBatch 的列
- ARROW-10526 - [FlightRPC][C++] 客户端中的 HTTP cookie 处理
- ARROW-10530 - [R] 在 linuxlibs.R 中可选择使用发行版包
- ARROW-10531 - [Rust] [DataFusion] 更好地显示逻辑计划:Graphviz 和 Schema 信息
- ARROW-10539 - [打包][Python] 使用 GitHub Actions 为 Windows 构建 wheels
- ARROW-10540 - [Rust] 允许任意数组类型的一元内核
- ARROW-10541 - [C++] 将 re2 库添加到核心 arrow / ARROW_WITH_RE2
- ARROW-10542 - [C#][Flight] 为 net core 添加 flight 代码的开头
- ARROW-10543 - [开发者] 更新开发说明,注意可能存在时间延迟
- ARROW-10552 - [Rust] 从 Buffer 中移除未使用的 Result
- ARROW-10559 - [Rust] [DataFusion] 将 logical_plan/mod.rs 分解为更小的模块
- ARROW-10561 - [Rust] 简化 `MutableBuffer::write` 和 `MutableBuffer::write_bytes`
- ARROW-10562 - [Rust] 不安全代码中的潜在未定义行为
- ARROW-10566 - [C++] 数组验证应在 ArrayData 上工作
- ARROW-10567 - [C++][FlightRPC] 添加选项以帮助提高 arrow-flight-benchmark 的精度
- ARROW-10572 - [Rust][DataFusion] 对聚合/去重使用 aHash 和 std::collections hashmap
- ARROW-10574 - [Python][Parquet] 允许对 'in' / 'not in' 过滤器使用集合(除了 set)
- ARROW-10575 - [Rust] 重命名 union.rs 以与其他数组保持一致
- ARROW-10581 - [文档] IPC 字典引用到相关部分
- ARROW-10582 - [Rust] [DataFusion] 实现 "repartition" 操作符
- ARROW-10584 - [Rust] [DataFusion] 使用显式 JOIN ON 语法实现 SQL join 支持
- ARROW-10585 - [Rust] [DataFusion] 为 DataFrame 和 LogicalPlan 添加 join 支持
- ARROW-10586 - [Rust] [DataFusion] 为查询计划器添加 join 支持
- ARROW-10589 - [Rust]:实现 AVX-512 位和运算
- ARROW-10590 - [Rust] 从测试中移除 Date32(Millisecond)
- ARROW-10591 - [Rust] 为 MutableArrayData 添加对 structArrays 的支持
- ARROW-10595 - [Rust] 简化非空情况下 min/max 内核的内部循环
- ARROW-10596 - [Rust] 改进 take 基准测试
- ARROW-10598 - [C++] 提高 GenerateBitsUnrolled 的性能
- ARROW-10604 - [Ruby] 支持 Decimal256 类型
- ARROW-10607 - [C++][Parquet] 支持在 Parquet 中读写 Decimal256 类型
- ARROW-10609 - [Rust] 优化非空字符串的 min/max
- ARROW-10628 - [Rust] 使 clippy 在遇到 clippy 警告时报错
- ARROW-10633 - [Rust][DataFusion] 依赖版本升级
- ARROW-10634 - [C#][CI] 在 CI 中将构建版本从 2.2 更改为 3.1
- ARROW-10636 - [Rust] 从 Rust parquet 中移除 specialisation
- ARROW-10637 - [Rust] 为布尔内核添加示例
- ARROW-10638 - [Rust] 改进布尔内核的测试
- ARROW-10639 - [Rust] 简化 is_null 的签名并添加示例
- ARROW-10644 - [Python] 整合 pyarrow.dataset 和 pyarrow.fs 中的路径/文件系统处理
- ARROW-10646 - [C++][FlightRPC] 禁用不稳定的测试
- ARROW-10648 - [Java] 准备 Java 代码库用于源码发布,无需创建或推送任何 git 标签
- ARROW-10651 - [C++] s3fs.cc 中的 alloc-dealloc-mismatch (分配-释放不匹配)
- ARROW-10652 - [C++][Gandiva] 使 gandiva 缓存大小可配置
- ARROW-10653 - [Rust]:更新工具链版本以引入新功能
- ARROW-10654 - [Rust] 特化浮点数/布尔值的解析
- ARROW-10660 - [Rust] 实现 AVX-512 位或操作
- ARROW-10665 - [Rust] 为常见的 utf8 like 模式添加快速路径
- ARROW-10666 - [Rust] [DataFusion] 支持嵌套 SELECT 语句
- ARROW-10669 - [C++][Compute] 支持布尔内核的标量输入
- ARROW-10672 - [Rust] [DataFusion] 使 limit 作为流进行计算
- ARROW-10673 - [Rust] [DataFusion] 使 sort 在流上进行计算
- ARROW-10674 - [Rust] 为 Decimal 类型添加集成测试
- ARROW-10677 - [Rust] 修复 Bug 并添加测试作为文档,以展示支持的 csv 解析
- ARROW-10679 - [Rust] [DataFusion] 实现 SQL CASE WHEN 物理表达式
- ARROW-10680 - [Rust] [DataFusion] 实现 TPC-H 查询 12
- ARROW-10682 - [Rust] 排序内核性能调优
- ARROW-10685 - [Rust] [DataFusion] 为 join on filter 下推优化器添加支持
- ARROW-10688 - [Rust] [DataFusion] 支持来自 DataFrame API 的 CASE WHEN
- ARROW-10689 - [Rust] [DataFusion] 支持来自 SQL 的 CASE WHEN
- ARROW-10693 - [Rust] [DataFusion] 添加对 left join 的支持
- ARROW-10696 - [C++] 研究一种只返回置位比特游程的比特游程读取器
- ARROW-10697 - [C++] 整合位图字读取器
- ARROW-10703 - [Rust] [DataFusion] 使 join 不在每个部分都收集左侧数据
- ARROW-10704 - [Rust][DataFusion] 从表达式枚举中移除 Nested
- ARROW-10708 - [Packaging][deb] 添加对 Ubuntu 20.10 的支持
- ARROW-10709 - [Python] 在 Python 中难以实现高效的零拷贝文件读取器
- ARROW-10712 - [Rust] [DataFusion] 为 TPC-H 基准测试添加测试
- ARROW-10717 - [Rust] [DataFusion] 添加对 right join 的支持
- ARROW-10720 - [C++] 添加 BasicDecimal256 Rescale 支持
- ARROW-10721 - [C#][CI] 默认使用 .NET 3.1
- ARROW-10722 - [Rust][DataFusion] 减少聚合/连接中数据类型的开销,改进基准测试
- ARROW-10723 - [Packaging][deb][RPM] 启用 Parquet 加密
- ARROW-10724 - [Developer Tools] 当 PR 需要 rebase 时添加 labeler
- ARROW-10725 - [Python][Compute] 暴露排序选项的绑定
- ARROW-10728 - [Rust] [DataFusion] 为 JOIN with USING 子句添加 SQL 支持
- ARROW-10729 - [Rust] [DataFusion] 为使用隐式语法的 JOIN 添加 SQL 支持
- ARROW-10732 - [Rust] [DataFusion] 为表/关系别名和复合标识符添加 SQL 支持
- ARROW-10733 - [R] 改进 Linux 安装故障排除
- ARROW-10740 - [Rust][DataFusion] 移除 clippy 发现的冗余克隆
- ARROW-10741 - 将 clippy lints 应用于源代码,从忽略列表中移除它们
- ARROW-10742 - [Python] 从 numpy 数组创建数组时未检查掩码
- ARROW-10745 - [Rust] 在过滤器上下文中分配填充字节
- ARROW-10747 - [Rust] csv 读取器优化
- ARROW-10750 - [Rust] [DataFusion] 为 LEFT 和 RIGHT join 添加 SQL 支持
- ARROW-10752 - [GLib] 添加 garrow_schema_has_metadata()
- ARROW-10754 - [GLib] 为 GArrowField 添加元数据支持
- ARROW-10755 - [Rust] [Parquet] 添加对写入布尔类型的支持
- ARROW-10756 - [Rust] Clippy - 修复冗余克隆
- ARROW-10759 - [Rust][DataFusion] 实现在 sql 表达式中将字符串转换为日期的支持
- ARROW-10763 - [Rust] 加速 take 内核
- ARROW-10765 - [Rust] 优化非空数组的 take strings
- ARROW-10767 - [Rust] 加速带空值的 sum 内核
- ARROW-10770 - [Rust] 支持读取嵌套的 JSON 列表
- ARROW-10772 - [Rust] 提高 take 性能
- ARROW-10775 - [Rust][DataFusion] 在哈希连接中使用 ahash
- ARROW-10776 - [C++] 为 Array 内的原始元素提供迭代器访问
- ARROW-10781 - [Rust] [DataFusion] TableProvider 应提供行数统计信息
- ARROW-10783 - [Rust] [DataFusion] 为 Parquet TableProvider 实现行数统计
- ARROW-10785 - 进一步优化 take string
- ARROW-10786 - [Packaging][RPM] 放弃对 CentOS 6 的支持
- ARROW-10788 - [C++] 使 S3 递归遍历并行化
- ARROW-10789 - [Rust][DataFusion] 使 TableProvider 动态类型化
- ARROW-10790 - [C++][Compute] 研究 ChunkedArray 排序性能
- ARROW-10792 - [Rust] [CI] 模块化 CI 以实现更快更小的构建
- ARROW-10795 - [Rust] 修复 arrow 数据类型的特化问题
- ARROW-10796 - [C++] 研究 RecordBatch 排序性能
- ARROW-10800 - [Rust] [Parquet] 提供对 parquet::record::{List, Map} 元素的访问
- ARROW-10802 - [C++] 在 parquet 列写入器中移除 Dictionary[NullType] 的特殊处理
- ARROW-10808 - [Rust] [DataFusion] 支持聚合中的嵌套表达式
- ARROW-10809 - [C++] 为 SortIndices() 输入使用 Datum
- ARROW-10812 - [Rust] 使 BooleanArray 不再是 PrimitiveArray
- ARROW-10813 - [Rust] [DataFusion] 实现 DFSchema
- ARROW-10814 - [Packaging][deb] 放弃对 Debian GNU/Linux Stretch 的支持
- ARROW-10817 - [Rust] [DataFusion] 实现 TypedString
- ARROW-10820 - [Rust] [DataFusion] 完成 TPC-H 基准测试查询
- ARROW-10821 - [Rust] [Datafusion] 实现负表达式
- ARROW-10822 - [Rust] [Datafusion] 支持使用 simd 支持编译 datafusion
- ARROW-10824 - [Rust] 为 NullArray 添加了 PartialEq
- ARROW-10825 - [Rust] 为 MutableArrayData 添加对 NullArrays 的支持
- ARROW-10826 - [Rust] 为 MutableArrayData 添加对 FixedSizeBinary 的支持
- ARROW-10827 - [Rust] 将 concatenate 扩展到所有类型
- ARROW-10828 - [Rust][DataFusion] 启用更多 clippy lints
- ARROW-10829 - [Rust] [DataFusion] 为 DFSchema 实现 Into<Schema>
- ARROW-10832 - [Rust] 评估最新的快照 flatc
- ARROW-10836 - [Rust] 将 take 内核扩展到 FixedSizeListArray
- ARROW-10838 - [Rust] [CI] 为 wasm32 目标添加 CI
- ARROW-10839 - [Rust] [DataFusion] 实现 BETWEEN 运算符
- ARROW-10843 - [C++] 在 sort 系列内核中添加对时间类型的支持
- ARROW-10845 - [Python][CI] 添加使用 numpy nightly 的 python CI 构建
- ARROW-10849 - [Python] 处理内置类型别名的 numpy 弃用警告
- ARROW-10851 - [C++] 减小 vector_sort.cc 的代码大小
- ARROW-10857 - [Packaging] 在 CentOS 8 上跟随 PowerTools 仓库名称更改
- ARROW-10858 - [C++][MSVC] 添加缺失的 Boost 依赖
- ARROW-10861 - [Python] 将最低 NumPy 版本更新为 1.16.6
- ARROW-10864 - [Rust] 对浮点数使用标准排序
- ARROW-10865 - [Rust][DataFusion] 在 Schema, SchemaRef, DFSchema, 和 DFSchemaRef 之间进行更符合人体工程学的转换
- ARROW-10867 - 在 aarch64 上使用 -DARROW_PYTHON=ON 和 gcc 时构建失败
- ARROW-10869 - [GLib] 添加 garrow_*_sort_indices() 及相关选项
- ARROW-10870 - [Julia] 使用 Julia 实现更新网站
- ARROW-10871 - [Julia] 通过 GitHub Actions 设置 Julia CI
- ARROW-10873 - [C++] Apple Silicon 在 CMake 中被报告为 arm64
- ARROW-10874 - [Rust][DataFusion] 为 MemTable 添加表统计信息
- ARROW-10877 - [Rust] [DataFusion] 添加基于 kaggle movies 的基准测试
- ARROW-10878 - [Rust] 简化 extend_from_slice
- ARROW-10879 - [Packaging][deb] 恢复 Debian GNU/Linux Buster 配置
- ARROW-10881 - [C++] BaseSetBitRunReader<false>::NextRun 中出现 EXC_BAD_ACCESS
- ARROW-10885 - [Rust][DataFusion] 基于行数统计优化 join build vs probe
- ARROW-10887 - [C++][Doc] 文档化 IPC API
- ARROW-10889 - [Rust] 在 README 中记录我们处理不安全代码的方法
- ARROW-10890 - [Rust] [DataFusion] JOIN 支持
- ARROW-10891 - [Rust][DataFusion] 更多 clippy lints
- ARROW-10893 - [Rust] [DataFusion] 更简单的 clippy 修复
- ARROW-10896 - [C++][CMake] 将内部 RE2 包名称从 "RE2" 重命名为 "re2"
- ARROW-10900 - [Rust][DataFusion] 立即解析 TableScan provider
- ARROW-10904 - [Python] 添加对 Python 3.9 macOS wheels 的支持
- ARROW-10905 - [Python] 添加对 Python 3.9 windows wheels 的支持
- ARROW-10908 - [Rust] [DataFusion] 使用 BETWEEN 更新相关的 tpch 查询
- ARROW-10917 - [Rust][Doc] 更新功能矩阵
- ARROW-10918 - [C++][Doc] 文档化支持的 Parquet 功能
- ARROW-10927 - [Rust] [Parquet] 为物理类型 fixed size binary 的 ArrayBuilderReader 添加 Decimal
- ARROW-10927 - [Rust] [Parquet] 为物理类型 fixed size binary 的 ArrayBuilderReader 添加 Decimal
- ARROW-10927 - [Rust] [Parquet] 为物理类型 fixed size binary 的 ArrayBuilderReader 添加 Decimal
- ARROW-10929 - [Rust] 将 CI 测试迁移到 stable rust
- ARROW-10933 - [Rust] 更新关于 stable rust 的文档
- ARROW-10934 - [Python] 使用 fsspec-0.8.5 时测试失败
- ARROW-10938 - [Rust] 将依赖 "flatbuffers" 升级到 0.8
- ARROW-10940 - [Rust] 将 sort 内核扩展到 ListArray
- ARROW-10941 - [Doc][C++] 文档化支持的 Parquet 加密功能
- ARROW-10944 - [Rust] 为 BooleanArray 实现 min/max 内核
- ARROW-10946 - [Rust] 使 ChunkIter 不依赖于缓冲区
- ARROW-10947 - [Rust][DataFusion] 重构 UTF8 到 Date32 以提高性能
- ARROW-10948 - [C++] 始终使用 GTestConfig.cmake
- ARROW-10949 - [Rust] 在获取布尔数组值时避免克隆
- ARROW-10951 - [Python][CI] 由于 pytest monkeypatch 问题,nightly pandas 构建失败
- ARROW-10952 - [Rust] 添加 pre-commit hook
- ARROW-10966 - [C++] 为 ThreadPool 的任务使用 FnOnce 而不是 std::function
- ARROW-10968 - [Rust][DataFusion] 不为 join 的右侧构建哈希表
- ARROW-10969 - [Rust][DataFusion] 实现 ANSI SQL 函数
- ARROW-10985 - [Rust] 更新不安全代码指南以添加 JIRA 引用
- ARROW-10986 - [Rust][DataFusion] 也为 TCP-H 基准测试添加平均统计信息
- ARROW-10988 - [C++] 要求 CMake 3.5 或更高版本
- ARROW-10989 - [Rust] 使用切片迭代原始数组
- ARROW-10993 - [CI][macOS] 修复 Homebrew 的 Python 3.9 安装问题
- ARROW-10995 - [Rust] [DataFusion] 提高读取 Parquet 文件时的并行度
- ARROW-11004 - [FlightRPC][Python] 客户端中基于 Header 的认证
- ARROW-11005 - [Rust] 移除 take 内核的间接引用并简化接口
- ARROW-11008 - [Rust][DataFusion] 简化 count 累加器
- ARROW-11009 - [Python] 添加环境变量以选择默认使用系统内存分配器而不是 jemalloc/mimalloc
- ARROW-11010 - [Python] `_pandas_logical_type_map` 中的 `np.float` 弃用警告
- ARROW-11012 - [Rust] [DataFusion] 使 write_csv 和 write_parquet 并发
- ARROW-11015 - [CI][Gandiva] 将 gandiva nightly build 从 travis 移至 github action
- ARROW-11018 - [Rust][DataFusion] 添加空值计数列统计信息
- ARROW-11026 - [Rust]:无需环境变量即可运行测试
- ARROW-11028 - [Rust] 有些学究气的模式匹配
- ARROW-11029 - [Rust] [DataFusion] 记录为什么 join 顺序优化不适用于过滤器下推
- ARROW-11032 - [C++][FlightRPC] 为通过 unix 套接字的本地 RPC 添加基准测试
- ARROW-11033 - [Rust] CSV 写入器性能改进
- ARROW-11034 - [Rust] rustfmt 清理
- ARROW-11035 - [Rust] 通过 FromIter 提高 cast to utf8 的性能
- ARROW-11037 - [Rust] 提高 string fromIter 的性能
- ARROW-11038 - [Rust] 移除 `BufferBuilderTrait` 和相关的 Result 要求。
- ARROW-11039 - [Rust] 提高 utf8 to float cast 的性能
- ARROW-11040 - [Rust] 使用泛型简化 builders
- ARROW-11042 - [Rust][DataFusion] 增加默认批处理大小
- ARROW-11043 - [C++] 添加 "is_nan" 内核
- ARROW-11046 - [Rust][DataFusion] 为 dataframe API 添加 count_distinct
- ARROW-11049 - [Python] 暴露备用内存池
- ARROW-11052 - [Rust] [DataFusion] 在 join 运算符中实现指标
- ARROW-11053 - [Rust] [DataFusion] 使用动态容量优化输出批次的连接
- ARROW-11054 - 将 SQLParser 更新到 0.70
- ARROW-11055 - [Rust] [DataFusion] 支持 date_trunc 函数
- ARROW-11058 - [Rust] [DataFusion] 实现 "coalesce batches" (合并批次) 运算符
- ARROW-11063 - [Rust] 在构建数组时验证空值计数
- ARROW-11064 - [Rust][DataFusion] 加速较小批次上的哈希连接
- ARROW-11072 - [Rust] [Parquet] 支持 int32 和 int64 物理类型
- ARROW-11076 - [Rust][DataFusion] 重构哈希连接中右侧索引的使用
- ARROW-11079 - [R] 补充自 2.0以来的更新日志
- ARROW-11080 - [C++][Dataset] 改进隐式转换
- ARROW-11082 - [Rust] 为 LargeUtf8 添加 FFI
- ARROW-11086 - [Rust] 扩展 take 以支持更多索引类型
- ARROW-11091 - [Rust][DataFusion] 修复 rust 1.49 中的 clippy 警告
- ARROW-11095 - [Python] 按名称访问 pyarrow.RecordBatch 列
- ARROW-11096 - [Rust] 为 [Large]Binary 添加 FFI
- ARROW-11097 - [Rust] 简化测试
- ARROW-11099 - [Rust]:从 PrimitiveArray 和 BooleanArray 中移除不安全的 value_slice 方法
- ARROW-11100 - [Rust] 使用 lexical_core 加速数字到字符串的转换
- ARROW-11101 - [Rust] 在 git pre-commit hook 中启用 "cargo +nightly fmt"
- ARROW-11104 - [GLib] 为 GArrowArrayBuilder 添加 append_null/append_nulls 并使用它们
- ARROW-11105 - [Rust] 在 MutableBuffer 中优先使用 From/Into traits
- ARROW-11108 - [Rust] 提高 MutableBuffer 的性能
- ARROW-11109 - [GLib] 添加 garrow_array_builder_append_empty_value() 和 values()
- ARROW-11110 - [Rust] [Datafusion] context.table 不应接受一个可变的 self 引用
- ARROW-11111 - [GLib] 添加 GArrowFixedSizeBinaryArrayBuilder
- ARROW-11121 - [Developer] 为 PR JIRA 集成使用 pull_request_target
- ARROW-11122 - [Rust] 为日期和时间添加 FFI
- ARROW-11124 - [Doc] 更新 Decimal256 的状态矩阵
- ARROW-11125 - [Rust] 实现列表数组的逻辑相等性
- ARROW-11126 - [Rust] 记录并测试 ARROW-10656
- ARROW-11127 - [C++] 非 x86 架构上未使用的 cpu_info
- ARROW-11129 - [Rust][DataFusion] 使用 tokio 线程池加载 parquet
- ARROW-11130 - [Website][CentOS 8][RHEL 8] 默认启用所有必需的仓库
- ARROW-11131 - [Rust] 提高 bool_equal 的性能
- ARROW-11136 - [R] is.nan 的绑定
- ARROW-11137 - [Rust][DataFusion] 修复 Clippy needless_range_loop, needless_lifetimes
- ARROW-11138 - [Rust] [DataFusion] 支持 ltrim, rtrim
- ARROW-11139 - [GLib] 添加对扩展类型的支持
- ARROW-11155 - [C++][Packaging] 将 gandiva crossbow 作业从 Travis-CI 移出
- ARROW-11158 - [Julia] 实现 Decimal256 支持
- ARROW-11159 - [Developer] 整合 pull request 相关作业
- ARROW-11165 - [Rust] [DataFusion] 为 DataFusion 记录期望的 SQL 方言
- ARROW-11168 - [Rust] 修复 cargo doc 警告
- ARROW-11169 - [Rust] 添加注释说明 float total_order 算法的来源
- ARROW-11175 - [R] 小的文档修复
- ARROW-11176 - [R] 暴露内存池名称并记录其设置方法
- ARROW-11187 - [Rust] [Parquet] 固定特定的 parquet-format-rs 版本
- ARROW-11188 - [Rust] 实现 PostgreSQL 方言的加密函数
- ARROW-11193 - [Documentation] 为 Java ListVector 添加文档
- ARROW-11194 - [Rust] 为 aarch64 启用 SIMD
- ARROW-11195 - [Rust] [DataFusion] 内置的 table providers 应暴露相关字段
- ARROW-11196 - [GLib] 使用工厂函数添加对 mock, HDFS 和 S3 文件系统的支持
- ARROW-11198 - [Packaging][Python] 确保构建期间的 setuptools 版本支持 markdown
- ARROW-11200 - [Rust] [DateFusion] 物理运算符和表达式应具有公共访问器方法
- ARROW-11201 - [Rust] create_batch_empty - 支持更多类型
- ARROW-11203 - [Developer][Website] 启用 JIRA 和 pull request 集成
- ARROW-11204 - [C++] 修复使用捆绑的 gRPC 和 Protobuf 时的构建失败
- ARROW-11205 - [GLib][Dataset] 添加 GADFileFormat 及其系列
- ARROW-11209 - [Rust] DF - 为不支持的 GROUP BY 提供更好的错误消息
- ARROW-11210 - [CI] 恢复被 INFRA 阻止的工作流
- ARROW-11212 - [Packaging][Python] 使用 vcpkg 作为 manylinux 和 windows wheels 的依赖源
- ARROW-11213 - [Packaging][Python] 在 windows 上 Dockerize wheel 构建
- ARROW-11215 - [CI] 在 docker-compose 中默认使用命名卷进行缓存
- ARROW-11216 - [Rust] 改进 StringDictionaryBuilder 的文档
- ARROW-11218 - [R] 使 SubTreeFileSystem 的 print 方法信息更丰富
- ARROW-11219 - [CI][Ruby][MinGW] 减少 CI 时间
- ARROW-11221 - [Rust] DF 实现对 Float32/Float64 的 GROUP BY 支持
- ARROW-11231 - [Packaging] 将 mimalloc 添加到 Linux 构建中
- ARROW-11234 - [CI][Ruby][macOS] 减少 CI 时间
- ARROW-11236 - [Java] 将 Jackson 升级到 2.11.4
- ARROW-11240 - [Packaging][R] 将 mimalloc 添加到 R 打包中
- ARROW-11242 - [CI] 移除 CMake 3.2 作业
- ARROW-11245 - [C++][Gandiva] 添加对 LLVM 11.1 的支持
- ARROW-11247 - [C++] 在 CSV 中推断 date32 列
- ARROW-11256 - [Packaging][Linux] 不要缓冲打包输出
- ARROW-11268 - [Rust][DataFusion] 支持在 MemTable 中指定重分区
- ARROW-11272 - [Release][wheel] 移除不支持的 Python 3.5 和 manylinux1
- ARROW-11273 - [Release][deb] 移除不支持的 Debian GNU/Linux stretch
- ARROW-11278 - [Release][NodeJS] 不要修改 ~/.bash_profile
- ARROW-11280 - [Release][APT] 修复最小构建示例检查
- ARROW-11281 - [C++] 移除不必要的运行时 RapidJSON 依赖
- ARROW-11282 - [Packaging][deb] 添加缺失的 libgflags-dev 依赖
- ARROW-11285 - [Release][APT] 添加对 Ubuntu Groovy 的支持
- ARROW-11292 - [Release][JS] 使用 Node.JS LTS
- ARROW-11293 - [C++] 使用 find_package(Arrow) 时不要求 Boost 和 gflags
- ARROW-11307 - [Release][Ubuntu][20.10] 为依赖问题添加变通方案
- ARROW-11309 - [Release][C#] 使用 .NET 3.1 进行验证
- ARROW-11329 - [Rust] 不在每次更改时都重建库
- ARROW-11372 - 支持在 macOS-ARM64 上进行 RC 验证
- PARQUET-1566 - [C++] 指示列统计信息中是否存在 null count, distinct count