Apache Arrow 2.0.0 (2020 年 10 月 19 日)
这是涵盖超过 3 个月开发周期的一个主要发布版本。
下载
贡献者
此版本包含来自 81 位不同贡献者的 511 次提交。
$ git shortlog -sn apache-arrow-1.0.0..apache-arrow-2.0.0
68 Jorge C. Leitao
48 Antoine Pitrou
40 Krisztián Szűcs
34 alamb
33 Neal Richardson
30 Andy Grove
25 Benjamin Kietzman
25 Joris Van den Bossche
19 Sutou Kouhei
13 Uwe L. Korn
12 Micah Kornfield
10 Frank Du
10 Jörn Horstmann
9 Neville Dipale
9 Romain Francois
9 arw2019
8 Yibo Cai
8 liyafan82
7 Sagnik Chakraborty
6 David Li
5 Kazuaki Ishizaki
5 Mahmut Bulut
4 Mingyu Zhong
4 fredgan
3 Bryan Cutler
3 wqc200
2 Daniel Russo
2 Diana Clarke
2 James Duong
2 Kenta Murata
2 Patrick Woody
2 Projjal Chanda
2 naman1996
2 ptaylor
2 tianchen
1 Adam Szmigin
1 Ali McMaster
1 Andrew Stevenson
1 Ben Kimock
1 Brian Dunlay
1 Christoph Schulze
1 Derek Marsh
1 Dominik Moritz
1 Eric Erhardt
1 Ezra
1 Fernando José Herrera Elizalde
1 FredGan
1 Hongze Zhang
1 Jim Klucar
1 Josiah
1 Kyle Strand
1 Laurent Goujon
1 Lawrence Chan
1 Mark Rushakoff
1 Matt Corley
1 Matthew Topol
1 Matthias
1 Morgan Cassels
1 Ofek
1 Patrick Pai
1 Paul
1 PoojaChandak
1 Prashanth Govindarajan
1 Pratik raj
1 Revital Sur
1 Ruan Pearce-Authers
1 Ryan Murray
1 Simon Bertron
1 Steve Suh
1 Tanguy Fautre
1 Tobias Mayer
1 Troels Nielsen
1 Vivian Kong
1 Wes McKinney
1 Xavier Lange
1 Yordan Pavlov
1 kanga333
1 karldw
1 mubai
1 offthewall123
1 zanmato1984
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-1.0.0..apache-arrow-2.0.0
127 Andy Grove
92 Antoine Pitrou
56 Krisztián Szűcs
51 Neal Richardson
44 Sutou Kouhei
18 Joris Van den Bossche
18 Micah Kornfield
17 Benjamin Kietzman
17 Wes McKinney
16 Neville Dipale
12 Jorge C. Leitao
10 Praveen
7 Paddy Horan
4 David Li
4 Eric Erhardt
4 Sebastien Binet
4 Uwe L. Korn
4 liyafan82
3 GitHub
1 Bryan Cutler
1 Chao Sun
1 tianchen
更新日志
Apache Arrow 2.0.0 (2020-10-19)
错误修复
- ARROW-2367 - [Python] ListArray 在大小超过 kMaximumCapacity 时出现问题
- ARROW-4189 - [CI] [Rust] 修复损坏的 cargo coverage
- ARROW-4917 - [C++] orc_ep 在 cpp-alpine docker 中失败
- ARROW-5578 - [C++][Flight] Flight 在 Alpine Linux 上无法直接构建
- ARROW-7226 - [JSON][Python] Json 加载器在文档示例上失败。
- ARROW-7384 - [网站] 修复 Google 报告的搜索索引警告
- ARROW-7517 - [C++] Builder 不遵守初始化时提供的字典类型
- ARROW-7663 - [Python] 在某些情况下 from_pandas 返回 TypeError 而非 ArrowTypeError
- ARROW-7903 - [Rust] [DataFusion] 升级 DataFusion 的 SQLParser 依赖
- ARROW-7957 - [Python] ParquetDataset 不能将 HadoopFileSystem 用作文件系统
- ARROW-8265 - [Rust] [DataFusion] Table API collect() 不应要求上下文
- ARROW-8394 - [JS] 使用 es2015-esm 包时,arrow d.ts 文件的 Typescript 编译器错误
- ARROW-8735 - [Rust] [Parquet] Parquet crate 在 Arm 架构上编译失败
- ARROW-8749 - [C++] IpcFormatWriter 以错误的 ID 写入字典批次
- ARROW-8773 - [Python] pyarrow schema.empty_table() 不保留字段的可空性
- ARROW-9028 - [R] 应该能够转换空表
- ARROW-9096 - [Python] Pandas 往返使用整数值的 object-dtype 列标签:无法理解数据类型“integer”
- ARROW-9177 - [C++][Parquet] 跟踪跨实现 LZ4 Parquet 压缩兼容性问题
- ARROW-9414 - [C++] apt 包包含 S3 接口的头文件,但不支持
- ARROW-9462 - [Go] 第一个 Record arrjson 写入器后的缩进丢失
- ARROW-9463 - [Go] 在 TestReadWrite 中写入器被双重关闭
- ARROW-9490 - [Python] pyarrow 为特定 numpy 标量集创建数组失败
- ARROW-9495 - [C++] 相等断言不能正确处理 Inf / -Inf
- ARROW-9520 - [Rust] [DataFusion] 无法对聚合表达式创建别名
- ARROW-9528 - [Python] 从 datetime 转换为 pyarrow 时尊重 tzinfo 信息
- ARROW-9532 - [Python] 在 macOS 上为 MacPorts 构建 pyarrow
- ARROW-9535 - [Python] 从 conda recipe 中移除 symlink 修复
- ARROW-9536 - PlasmaOutOfMemoryException.java 中缺少参数
- ARROW-9541 - [C++] CMakeLists 在构建静态库时要求 UTF8PROC_STATIC
- ARROW-9544 - [R] write_parquet 的 version 参数无效
- ARROW-9546 - [Python] 清理 Pandas 元数据转换测试
- ARROW-9548 - [Go] tmp 目录中的测试输出文件未能正确移除
- ARROW-9549 - [Rust] Parquet 无法构建
- ARROW-9554 - [Java] FixedWidthInPlaceVectorSorter 有时会产生错误结果
- ARROW-9556 - [Python][C++] UnionArray 中包含 null 值时出现 Segfault
- ARROW-9560 - [Packaging] conda recipes 因缺少 conda-forge.yml 而失败
- ARROW-9569 - [CI][R] 修复 rtools35 构建因 msys2 密钥更改而失败的问题
- ARROW-9570 - [文档] 清理 sphinx 侧边栏
- ARROW-9573 - [Python] 分区列以 '_' 开头时 Parquet 无法加载
- ARROW-9574 - [R] CRAN 1.0.0 发布的清理
- ARROW-9575 - [R] CRAN 上 gcc-UBSAN 失败
- ARROW-9577 - [Python][C++] pyarrow 1.0.0 在 Debian 上出现 posix_madvise 错误
- ARROW-9583 - [Rust] 偏移量在算术和布尔计算核中处理不当
- ARROW-9588 - [C++] clang/win: ParquetInvalidOrCorruptedFileException 的复制构造函数未正确触发
- ARROW-9589 - [C++/R] arrow_exports.h 包含声明为类的结构体
- ARROW-9592 - [CI] 在调用 brew bundle 之前更新 homebrew
- ARROW-9596 - [CI][Crossbow] 再次修复 homebrew-cpp
- ARROW-9597 - [C++] compute::FunctionRegistry 中的 AddAlias 应该同步
- ARROW-9598 - [C++][Parquet] 分布式定义级别未正确分配。
- ARROW-9599 - [CI] Appveyor 工具链构建失败,因为 CMake 检测到不同的 C 和 C++ 编译器
- ARROW-9600 - [Rust] 当用作 crate 依赖时,arrow-flight 在每次调用 cargo build 时都会重新构建
- ARROW-9600 - [Rust] 当用作 crate 依赖时,arrow-flight 在每次调用 cargo build 时都会重新构建
- ARROW-9602 - [R] 改进 Linux 构建中的 cmake 检测
- ARROW-9603 - [C++][Parquet] Write Arrow 依赖于嵌套类型的未指定行为
- ARROW-9606 - [C++][Dataset] in 表达式不适用于 >1 个分区级别
- ARROW-9609 - [C++][Dataset] CSV 数据集不具体化虚拟列
- ARROW-9621 - [Python] test_move_file() 在 fsspec 0.8.0 下失败
- ARROW-9622 - [Java] ComplexCopier 在 structvector 的子 UnionVector 中包含 null 值时失败
- ARROW-9628 - [Rust] Clippy PR 测试在 Rust / AMD64 MacOS 上间歇性失败
- ARROW-9629 - [Python] Kartothek 集成测试因缺少 freezegun 模块而失败
- ARROW-9631 - [Rust] Arrow crate 不应该依赖 flight
- ARROW-9631 - [Rust] Arrow crate 不应该依赖 flight
- ARROW-9642 - [C++] 让 MakeBuilder 参考 DictionaryType 的 index_type 来决定索引的起始位宽
- ARROW-9643 - [C++] haswell cpu 上出现非法指令
- ARROW-9644 - [C++][Dataset] 不在基本路径中检查 ignore_prefixes
- ARROW-9652 - [Rust][DataFusion] 从 CSV 选择 * 时 panic (panic 发生在 'index out of bounds: len 为 0 但索引为 0)
- ARROW-9653 - [Rust][DataFusion] 多列 Group by: 无效参数错误
- ARROW-9659 - [C++] RecordBatchStreamReader 在 CUDA 设备缓冲区上抛出异常
- ARROW-9660 - [C++] IPC - maps 中的字典
- ARROW-9666 - [Python][wheel][Windows] ARROW-9412 导致的库缺失失败
- ARROW-9670 - [C++][FlightRPC] 关闭正在进行的 DoPut 读取会锁定客户端
- ARROW-9684 - [C++] 修复无效 IPC / Parquet 输入上的未定义行为 (OSS-Fuzz)
- ARROW-9692 - [Python] distutils 导入警告
- ARROW-9693 - [CI][文档] 每晚文档构建失败
- ARROW-9696 - [Rust] [Datafusion] 嵌套二进制表达式损坏
- ARROW-9698 - [C++] 恢复“向 arrow.pc 添加 -NDEBUG 标志”
- ARROW-9700 - [Python] create_library_symlinks 在 macos 中无效
- ARROW-9712 - [Rust] [DataFusion] ParquetScanExec 在出错时 panic
- ARROW-9714 - [Rust] [DataFusion] TypeCoercionRule 未实现 Limit 或 Sort
- ARROW-9716 - [Rust] [DataFusion] MergeExec 应该有并发限制
- ARROW-9726 - [Rust] [DataFusion] ParquetScanExec 过早启动线程
- ARROW-9727 - [C++] 修复无效 IPC 输入上的崩溃 (OSS-Fuzz)
- ARROW-9729 - [Java] Error Prone 导致其他注解处理器无法在 Eclipse 中工作
- ARROW-9733 - [Rust][DataFusion] Aggregates COUNT/MIN/MAX 不适用于 VARCHAR 列
- ARROW-9734 - [Rust] [DataFusion] TableProvider.scan 过早执行分区
- ARROW-9741 - [Rust] [DataFusion] TPC-H query 1 结果集中的计数不正确
- ARROW-9743 - [R] 净化 open_dataset 中的路径
- ARROW-9744 - [Python] 在 aarch64 上安装失败
- ARROW-9764 - [CI][Java] 推送错误的 Docker 镜像
- ARROW-9768 - [Python] Pyarrow 允许将 datetime 对象不安全地转换为纳秒级时间戳
- ARROW-9768 - [Python] Pyarrow 允许将 datetime 对象不安全地转换为纳秒级时间戳
- ARROW-9778 - [Rust] [DataFusion] 在 20 个端到端测试中,有 8 个的逻辑和物理 schemas 的可空性不匹配
- ARROW-9783 - [Rust] [DataFusion] 逻辑聚合表达式需要显式数据类型
- ARROW-9785 - [Python] pyarrow/tests/test_fs.py::test_s3_options 过慢
- ARROW-9789 - [C++] 不并行安装 jemalloc
- ARROW-9790 - [Rust] [Parquet] 如果批次正好落在行组边界上,ParquetFileArrowReader 无法解码所有页面
- ARROW-9790 - [Rust] [Parquet] 如果批次正好落在行组边界上,ParquetFileArrowReader 无法解码所有页面
- ARROW-9793 - [Rust] [DataFusion] master 分支上的测试失败
- ARROW-9797 - [Rust] AMD64 Conda 集成测试在 Master 分支上失败
- ARROW-9799 - [Rust] [DataFusion] 物理二进制表达式 get_type 方法的实现不正确
- ARROW-9800 - [Rust] [Parquet] 写入列时将“min”和“max”写入标准输出
- ARROW-9809 - [Rust] [DataFusion] logical schema = physical schema 不成立
- ARROW-9814 - [Python] test_parquet.py::test_read_partitioned_directory_s3fs 中崩溃
- ARROW-9815 - [Rust] [DataFusion] 使用两个 udfs 创建物理计划时出现死锁
- ARROW-9815 - [Rust] [DataFusion] 使用两个 udfs 创建物理计划时出现死锁
- ARROW-9815 - [Rust] [DataFusion] 使用两个 udfs 创建物理计划时出现死锁
- ARROW-9816 - [C++] 在 config.h 中转义引号
- ARROW-9827 - [Python] pandas.read_parquet 对于宽 Parquet 文件和 pyarrow 1.0.X 失败
- ARROW-9831 - [Rust] [DataFusion] 修复编译错误
- ARROW-9840 - [Python] Python fs 文档与代码不同步
- ARROW-9846 - [Rust] Master 分支构建损坏
- ARROW-9851 - [C++] 由于无法识别的指令导致 Valgrind 错误
- ARROW-9852 - [C++] 修复无效 IPC 输入上的崩溃 (OSS-Fuzz)
- ARROW-9852 - [C++] 修复无效 IPC 输入上的崩溃 (OSS-Fuzz)
- ARROW-9855 - [R] 修复不良的 merge/Rcpp 冲突
- ARROW-9859 - [C++] S3 FileSystemFromUri 在 secret key 中包含特殊字符时失败
- ARROW-9864 - [Python] write_to_dataset 使用分区列时不支持 pathlib.Path
- ARROW-9874 - [C++] NewStreamWriter / NewFileWriter 不拥有输出流
- ARROW-9876 - [CI][C++] Travis ARM 作业超时
- ARROW-9877 - [C++][CI] homebrew-cpp 因 avx512 失败
- ARROW-9879 - [Python] ChunkedArray.__getitem__ 不适用于 numpy 标量
- ARROW-9882 - [C++/Python] 将 OSX conda 包的 conda-forge-pinning 更新为 3
- ARROW-9883 - [R] 修复 R < 3.6 的 linuxlibs.R 安装脚本
- ARROW-9888 - [Rust] [DataFusion] ExecutionContext 不能在线程之间共享
- ARROW-9889 - [Rust][DataFusion] Datafusion CLI: CREATE EXTERNAL TABLE 报错“Unsupported logical plan variant”
- ARROW-9897 - [C++][Gandiva] 从模式添加 to_date() 函数
- ARROW-9898 - [C++][Gandiva] castINT 在某些环境中错误处理失败
- ARROW-9906 - [Python] test_parquet.py::test_parquet_writer_filesystem_s3_uri 中崩溃 (关闭来自 S3FileSystem 的 NativeFile)
- ARROW-9913 - [C++] Decimal128::FromString 的输出相互依赖
- ARROW-9920 - [Python] 向 pyarrow.concat_arrays 传递 chunked array 时发生 segfault
- ARROW-9922 - [Rust] 向 StructArray 添加 `try_from(Vec
- ARROW-9924 - [Python] 使用 Dataset 接口读取单个 Parquet 文件时性能下降
- ARROW-9931 - [C++] 修复无效 IPC 上的未定义行为 (OSS-Fuzz)
- ARROW-9932 - [R] Arrow 1.0.1 R 包在 linux R3.4 上安装失败
- ARROW-9936 - [Python] 修复 / 测试 pyarrow.parquet 中的相对文件路径
- ARROW-9937 - [Rust] [DataFusion] 平均值不正确
- ARROW-9943 - [C++] 读取 Parquet 文件时 Arrow 元数据未递归应用
- ARROW-9946 - [R] `sink` 是字符串时 ParquetFileWriter 发生 segfault
- ARROW-9953 - [R] 声明 bit64 的最低版本
- ARROW-9962 - [Python] 使用固定时区将索引列转换为 pandas 时失败
- ARROW-9968 - [C++] 使用 __int8_t 时 UBSAN 链接失败
- ARROW-9969 - [C++] RecordBatchBuilder 在使用字典字段时产生无效结果
- ARROW-9970 - [Go] sum 方法中 checkptr 失败
- ARROW-9972 - [CI] 解决 Homebrew 上的 grpc-re2 冲突
- ARROW-9973 - [Java] JDBC DateConsumer 不允许 epoch 之前的日期
- ARROW-9976 - [Python] 使用大型 dataframe 进行 Table.from_pandas 时出现 ArrowCapacityError
- ARROW-9990 - [Rust] [DataFusion] NOT 无法计划
- ARROW-9993 - [Python] Tzinfo - 字符串往返在 pytz.StaticTzInfo 对象上失败
- ARROW-9994 - [C++][Python] 包含二进制类字段的嵌套数组自动分块导致输出格式错误
- ARROW-9996 - [C++] 对 null 值调用 DictionaryArray.GetScalar 时字典被取消设置
- ARROW-10003 - [C++] 在同一文件系统中复制时,在 CopyFiles 中创建目录
- ARROW-10008 - [Python] pyarrow.parquet.read_table 在 use_legacy_dataset=False 的情况下对分类数据进行谓词下推时失败
- ARROW-10011 - [C++] 使 FindRE2.cmake 可重入
- ARROW-10012 - [C++] CopyFiles 测试中偶发性失败
- ARROW-10013 - [C++][CI] TestFlightClient.GenericOptions 中的 Flight 测试失败
- ARROW-10017 - [Java] LargeMemoryUtil.checkedCastToInt 的逻辑有错误
- ARROW-10022 - [C++] [Compute] 在某些标量算术基准测试中出现 core dumped
- ARROW-10027 - [Python] 使用数据集过滤表达式时返回错误的 null 列。
- ARROW-10034 - [Rust] Master 构建损坏
- ARROW-10041 - [Rust] 可以使用 DataType::Utf8 创建 LargeStringArray
- ARROW-10047 - [CI] Conda 集成测试因 cmake 错误而失败
- ARROW-10048 - [Rust] 字符串 min/max 聚合错误
- ARROW-10049 - [C++/Python] 将 conda recipe 与 conda-forge 同步
- ARROW-10060 - [Rust] [DataFusion] MergeExec 目前会丢弃包含错误的分区
- ARROW-10062 - [Rust]: 修复 DictArray 的 DoubleEndedIter 的 null 元素
- ARROW-10073 - [Python] 测试 test_parquet_nested_storage 依赖于字典项排序
- ARROW-10081 - [C++/Python] 修复 drone.io conda 构建中的 bash 语法错误
- ARROW-10085 - [C++] S3 测试在 AppVeyor 上失败
- ARROW-10087 - [CI] 修复每晚文档作业
- ARROW-10098 - [R][文档] 修复 copy_files 文档不匹配
- ARROW-10104 - [Python] 将测试分离到单独的 conda 包中
- ARROW-10114 - [R] 在 deeply nested structs 的 to_dataframe_parallel 中出现 Segfault
- ARROW-10116 - [Python][Packaging] 修复 macOS wheels 构建中的 gRPC 链接错误
- ARROW-10119 - [C++] 修复无效输入上的 Parquet 崩溃 (OSS-Fuzz)
- ARROW-10121 - [C++][Python] 可变字典在 IPC 流往返中无法保留
- ARROW-10124 - [R] Write 函数不遵循 umask 设置
- ARROW-10125 - [R] Int64 下转型检查未考虑所有 chunk
- ARROW-10130 - [C++][Dataset] ParquetFileFragment::SplitByRowGroup 不保留“complete_metadata”状态
- ARROW-10136 - [Rust][Arrow] 过滤 StringArray 后,null 值转换为“”
- ARROW-10137 - [R] 修复在 libarrow 不存在时中断的 cpp helper
- ARROW-10147 - [Python] 如果 Index 名称默认不可 JSON 序列化,构建 pandas 元数据失败
- ARROW-10150 - [C++] 修复无效 Parquet 文件上的崩溃 (OSS-Fuzz)
- ARROW-10169 - [Rust] Pretty printing arrays 时,null 值应显示为“”而不是默认值
- ARROW-10174 - [Java] 读取 Dictionary 编码的 struct vector 失败
- ARROW-10175 - [CI] 每晚 hdfs 集成测试作业失败
- ARROW-10176 - [CI] 每晚 valgrind 作业失败
- ARROW-10178 - [CI] 修复 spark master 集成测试构建设置
- ARROW-10179 - [Rust] Labeler 未正常工作
- ARROW-10181 - [Rust] Arrow 测试在 Raspberry Pi (32 位) 上编译失败
- ARROW-10188 - [Rust] [DataFusion] 一些示例损坏
- ARROW-10189 - [文档] C 数据接口 i32 示例在格式中使用 `l` 而非 `i`
- ARROW-10192 - [C++][Python] 将包含字典字段的嵌套 struct array 转换为 pandas series 时发生 Segfault
- ARROW-10193 - [Python] 转换为 fixed size binary array 时发生 Segfault
- ARROW-10200 - [Java][CI] 修复 s390x 上 Java CI 失败
- ARROW-10204 - [RUST] [Datafusion] 启用 simd 功能时 aggregate_grouped_empty 测试失败
- ARROW-10214 - [Python] 打印包含二进制元数据的 schema 时出现 UnicodeDecodeError
- ARROW-10226 - [Rust] [Parquet] Parquet reader 在 parquet 文件内的某些批次中读取错误的列
- ARROW-10230 - [JS][文档] JavaScript 文档构建失败
- ARROW-10232 - FixedSizeListArray 写入/读取到/从 parquet 错误
- ARROW-10234 - [C++][Gandiva] 修复 Gandiva 中 floats/decimals 的 round() 逻辑
- ARROW-10237 - [C++] 字典中的重复值导致 parquet 损坏
- ARROW-10238 - [C#] List
损坏 - ARROW-10239 - [C++] aws-sdk-cpp 似乎也需要 zlib
- ARROW-10244 - [Python][文档] 添加关于使用 pyarrow.dataset.parquet_dataset 的文档
- ARROW-10248 - [C++][Dataset] Dataset 写入不写 schema 元数据
- ARROW-10262 - [C++] Scalar 类中的某些 TypeClass 似乎不正确
- ARROW-10270 - [R] 修复 R-devel 上的 CSV timestamp_parsers 测试
- ARROW-10271 - [Rust] packed_simd 已损坏并在新项目下继续
- ARROW-10279 - [发布][Python] 修复验证脚本以与新的 macos wheel 平台标签对齐
- ARROW-10280 - [Packaging][Python] 修复 macOS wheel artifact 模式
- ARROW-10281 - [Python] 修复运行测试时的警告
- ARROW-10284 - [Python] Pyarrow 在导入时引发关于文件系统的弃用警告
- ARROW-10285 - [Python] pyarrow.orc 子模块正在使用已弃用的功能
- ARROW-10286 - [C++][Flight] 误导性的 CMake 错误
- ARROW-10288 - [C++] 在 i386 上编译失败
- ARROW-10290 - [C++] 较旧的 CMake 版本中 List POP_BACK 不可用
- ARROW-10293 - [Rust] [DataFusion] 修复基准测试
- ARROW-10296 - [R] 保存为 integer64 的数据加载为 integer
新特性和改进
- ARROW-983 - [C++] 实现用于与套接字连接交互的 InputStream 和 OutputStream 类
- ARROW-1105 - [C++] SQLite record batch 读取器
- ARROW-1509 - [Python] 将序列化对象写为封装的 IPC 消息流
- ARROW-1669 - [C++] 考虑将 Abseil (Google C++11 标准库扩展) 添加到工具链
- ARROW-1797 - [C++] 为数字数组实现二进制算术核
- ARROW-2164 - [C++] 清理不必要的 decimal module 引用
- ARROW-3080 - [Python] 统一 Arrow 到 Python 对象的转换路径
- ARROW-3757 - [R] Flight RPC 客户端的 R 绑定
- ARROW-3872 - [R] 添加 feather 兼容性的临时测试
- ARROW-4046 - [Python/CI] 执行大内存测试
- ARROW-4248 - [C++][Plasma] 在 Windows / Visual Studio 上构建
- ARROW-4685 - [C++] 在 manylinux1 docker 镜像中将 Boost 更新到 1.69
- ARROW-4927 - [Rust] 更新顶层 README 以描述当前功能
- ARROW-4957 - [Rust] [DataFusion] 正确实现 get_supertype
- ARROW-4965 - [Python] Timestamp 数组类型检测应使用 datetime.datetime 对象的 tzname
- ARROW-5034 - [C#] ArrowStreamWriter 应该暴露同步 Write 方法
- ARROW-5123 - [Rust] 从结构体定义派生 RecordWriter
- ARROW-6075 - [FlightRPC] 处理中间件中未捕获的异常
- ARROW-6281 - [Python] 在 pyarrow.array 中为嵌套类型生成 chunked arrays
- ARROW-6282 - [格式] 支持有损压缩
- ARROW-6437 - [R] 为 macOS 和 Windows 添加 AWS SDK 系统依赖
- ARROW-6535 - [C++] Status::WithMessage 应该接受可变参数
- ARROW-6537 - [R] 将 column_types 传递给 CSV 读取器
- ARROW-6972 - [C#] 应该支持 StructField arrays
- ARROW-6982 - [R] 添加 compare 和 boolean 内核的绑定
- ARROW-7136 - [Rust][CI] 在 dockerfile 中预安装 rust 依赖项
- ARROW-7218 - [Python] 从 boolean numpy 标量转换无效
- ARROW-7302 - [C++] CSV: 允许将列转换为特定字典类型
- ARROW-7372 - [C++] 允许从简单 JSON 创建 dictionary array
- ARROW-7871 - [Python] 暴露更多计算核
- ARROW-7960 - [C++][Parquet] 添加对从 parquet 节点到 arrow 的 schema 翻译支持,针对缺失类型
- ARROW-8001 - [R][Dataset] dataset 写入的绑定
- ARROW-8002 - [C++][Dataset] dataset 写入应该允许您 (重新) 分区数据
- ARROW-8048 - [Python] 每晚运行内存泄漏测试,作为 ARROW-4120 的后续
- ARROW-8172 - [C++] dictionary arrays 的 ArrayFromJSON
- ARROW-8205 - [Rust] [DataFusion] DataFusion 应该在 schema 中强制执行唯一字段名
- ARROW-8253 - [Rust] [DataFusion] 改进注册 UDFs 的人体工程学
- ARROW-8262 - [Rust] [DataFusion] 添加使用 LogicalPlanBuilder 的示例
- ARROW-8289 - [Rust] [Parquet] 实现最小的 Arrow Parquet 写入器,作为完整写入器的起点
- ARROW-8296 - [C++][Dataset] IpcFileFormat 应该支持写入带有压缩缓冲区的文件
- ARROW-8355 - [Python] 减少 test_feather 中依赖 pandas 的测试用例数量
- ARROW-8359 - [C++/Python] 在 conda recipes 中启用 aarch64/ppc64le 构建
- ARROW-8383 - [Rust] 更容易随机访问 DictionaryArray 的键和值
- ARROW-8402 - [Java] 在 Java 中支持 ValidateFull 方法
- ARROW-8423 - [Rust] [Parquet] 写入 parquet 时将 arrow schema 序列化到元数据中
- ARROW-8426 - [Rust] [Parquet] 添加对写入 dictionary types 的支持
- ARROW-8493 - [C++] 创建用于 Array 重建的统一 schema 解析代码。
- ARROW-8494 - [C++] 实现基本的逐数组重组逻辑
- ARROW-8581 - [C#] Date32/64Array.Builder 应该接受 DateTime,而非 DateTimeOffset
- ARROW-8601 - [Go][Flight] 实现 Flight Writer 接口
- ARROW-8601 - [Go][Flight] 实现 Flight Writer 接口
- ARROW-8618 - [C++] ASSIGN_OR_RAISE 应该移动其参数
- ARROW-8678 - [C++][Parquet] 移除遗留的 arrow 到 level 翻译。
- ARROW-8712 - [R] 在 read_csv 转换选项中暴露 strptime 时间戳解析
- ARROW-8774 - [Rust] [DataFusion] 改进线程模型
- ARROW-8810 - [R] 添加关于 Parquet 格式的文档,并补充到 stream 格式
- ARROW-8824 - [Rust] [DataFusion] 实现新的 SQL 解析器
- ARROW-8828 - [Rust] 实现 SQL tokenization 器
- ARROW-8829 - [Rust] 实现 SQL 解析器
- ARROW-9010 - [Java] RecordBatch IPC 缓冲区压缩的框架和接口更改
- ARROW-9065 - [C++] 支持解析 dataset 分区文件夹中的 date32
- ARROW-9068 - [C++][Dataset] 简化 Partitioning 接口
- ARROW-9078 - [C++] 使用嵌套存储类型的扩展类型写入 Parquet 文件失败
- ARROW-9104 - [C++] Parquet 加密测试应将文件写入临时目录而非测试子模块目录
- ARROW-9107 - [C++][Dataset] 支持基于时间的类型
- ARROW-9147 - [C++][Dataset] 支持 Dataset 扫描中 null -> 其他类型的提升
- ARROW-9205 - [Documentation] 修复 Columnar.rst 中的拼写错误
- ARROW-9266 - [Python][Packaging] 在 macOS wheel 中启用 S3 支持
- ARROW-9271 - [R] 在往返过程中保留数据帧元数据
- ARROW-9286 - [C++] 为 compute::FunctionRegistry 添加函数“别名”
- ARROW-9328 - [C++][Gandiva] 为字符串添加 LTRIM, RTRIM, BTRIM 函数
- ARROW-9338 - [Rust] 添加在本地运行 clippy 的说明
- ARROW-9344 - [C++][Flight] 在 flight 基准测试中测量延迟分位数
- ARROW-9358 - [Integration] 重新考虑 generated_large_batch.json
- ARROW-9371 - [Java] 对两个分配器运行向量测试
- ARROW-9377 - [Java] 支持无符号字典索引
- ARROW-9387 - [R] 使用新的 C++ 表选择方法
- ARROW-9388 - [C++] 除法内核
- ARROW-9394 - [Python] 支持 Scalars 的 pickling
- ARROW-9398 - [C++] 将 SIMD 求和变体注册到 function instance 而非 SIMD 函数下
- ARROW-9402 - [C++] 为 __builtin_add_overflow 及类似函数添加可移植包装器
- ARROW-9405 - [R] 切换到 cpp11
- ARROW-9412 - [C++] 将非 BUNDLED 依赖项添加到 arrow_static 导出的 INSTALL_INTERFACE_LIBS 中并测试其是否工作
- ARROW-9429 - [Python] ChunkedArray.to_numpy
- ARROW-9454 - [GLib] 添加一些字典构建器的绑定
- ARROW-9465 - [Python] 改进计算函数的易用性
- ARROW-9469 - [Python] 使更多对象可弱引用
- ARROW-9487 - [Developer] 使用单元测试覆盖 archery 发布工具
- ARROW-9488 - [Release] 更新网站时使用新的变更日志生成方式
- ARROW-9507 - [Rust] [DataFusion] PhysicalExpr 应实现 Display trait
- ARROW-9508 - [Release][APT][Yum] 为 arm64 二进制文件启用验证
- ARROW-9516 - [Rust][DataFusion] 重构物理表达式使其不再关心名称或索引
- ARROW-9517 - [C++][Python] 允许初始化 S3FileSystem 时使用 session_token 参数
- ARROW-9518 - [Python] 弃用 pyarrow 序列化
- ARROW-9521 - [Rust] CsvReadOptions 应允许指定文件扩展名
- ARROW-9523 - [Rust] 改进 filter 内核的性能
- ARROW-9534 - [Rust] [DataFusion] 为所有类型实现创建字面表达式的函数
- ARROW-9550 - [Rust] [DataFusion] 从哈希聚合操作符中移除 Rc<RefCell<_>>
- ARROW-9553 - [Rust] 发布脚本未提升 parquet crate 对 arrow 的依赖版本
- ARROW-9557 - [R] 在 R 中迭代 parquet 列速度慢
- ARROW-9559 - [Rust] [DataFusion] 恢复 exprlist_to_fields 的私有化
- ARROW-9563 - [Dev][Release] 创建网站发布说明时使用 archery 的变更日志生成器
- ARROW-9568 - [CI] 在 GHA 上使用官方 msys action
- ARROW-9576 - [Python][Doc] 修复扩展类型代码示例中的错误
- ARROW-9580 - [JS] 文档中有多余的 ()
- ARROW-9581 - [Dev][Release] 将下一个快照版本提升至 2.0.0
- ARROW-9582 - [Rust] 实现 Array::memory_size()
- ARROW-9585 - [Rust] 移除 DataFusion readme 中重复的 to-do 行
- ARROW-9587 - [FlightRPC][Java] 清理 DoPut/FlightStream 内存处理
- ARROW-9593 - [Python] 为 DictionaryScalar 添加自定义 pickle reducers
- ARROW-9604 - [C++] 为 aggregate min/max 计算内核添加基准测试
- ARROW-9605 - [C++] 优化 aggregate min/max 计算内核的性能
- ARROW-9607 - [C++][Gandiva] 为整数添加 bitwise_and(), bitwise_or() 和 bitwise_not() 函数
- ARROW-9608 - [Rust] 从 parquet 的 feature gating 中移除 arrow flight
- ARROW-9615 - [Rust] 添加计算字符串数组长度的内核
- ARROW-9617 - [Rust] [DataFusion] 添加 large string 数组的长度
- ARROW-9618 - [Rust] [DataFusion] 使编写优化器更容易
- ARROW-9619 - [Rust] [DataFusion] 添加谓词下推
- ARROW-9632 - [Rust] 为 ExecutionContextSchemaProvider 添加一个“new”方法
- ARROW-9638 - [C++][Compute] 实现 mode (最频繁数字) 内核
- ARROW-9639 - [Ruby] 添加依赖版本检查
- ARROW-9640 - [C++][Gandiva] 为整数和长整数实现 round()
- ARROW-9641 - [C++][Gandiva] 为浮点数和双精度浮点数实现 round()
- ARROW-9645 - [Python] 弃用旧的 pyarrow.filesystem 接口
- ARROW-9646 - [C++][Dataset] 添加写入 parquet datasets 的支持
- ARROW-9650 - [Packaging][APT] 停止支持 Ubuntu 19.10
- ARROW-9654 - [Rust][DataFusion] 在 datafusion CLI 中添加 EXPLAIN 命令
- ARROW-9656 - [Rust][DataFusion] 当向 CREATE EXTERNAL TABLE 提供不支持的类型时,错误消息略微令人困惑
- ARROW-9658 - [Python][Dataset] dataset 写入的绑定
- ARROW-9665 - [R] Datasets 的 head/tail/take 方法
- ARROW-9667 - [CI][Crossbow] 两次 nightly R 构建出现段错误
- ARROW-9671 - [C++] BasicDecimal128 构造函数将设置最高位的 uint64_t 整数解释为负数
- ARROW-9673 - [Rust] 为 DFParser::parse_sql 添加参数“dialect”
- ARROW-9678 - [Rust] [DataFusion] 改进投影下推以移除未使用的列
- ARROW-9679 - [Rust] [DataFusion] HashAggregate 在构建最终批次时多次遍历 map
- ARROW-9681 - [Java] 在大端平台上 Arrow Memory - Core 失败
- ARROW-9683 - [Rust][DataFusion] 实现 ExecutionPlan trait 的 Debug
- ARROW-9691 - [Rust] [DataFusion] 将 sql_statement_to_plan 设置为 public
- ARROW-9695 - [Rust][DataFusion] 改进 LogicalPlan 变体的文档
- ARROW-9699 - [C++][Compute] 改进小整数类型 mode 内核的性能
- ARROW-9701 - [Java][CI] 在 s390x 上添加测试作业
- ARROW-9702 - [C++] 将 bpacking simd 移动到运行时路径
- ARROW-9703 - [Developer][Archery] 可重启的 cherry-picking 流程用于创建维护分支
- ARROW-9706 - [Java] TestLargeListVector 中的测试在大端平台上失败
- ARROW-9710 - [C++] 通用化 Decimal ToString 为 Decimal256 做准备
- ARROW-9711 - [Rust] 添加基于 TPC-H 的基准测试
- ARROW-9713 - [Rust][DataFusion] 移除显式 panics
- ARROW-9715 - [R] 1.0.1 版本的变更日志/文档更新
- ARROW-9718 - [Python] 使 pyarrow.parquet 适用于新的文件系统接口
- ARROW-9721 - [Packaging][Python] 更新 wheel 依赖文件
- ARROW-9722 - [Rust]: 缩短字典数组反向查找的 key 生命周期
- ARROW-9723 - [C++] 包含 NaN 的“mode”内核的预期行为是什么?
- ARROW-9725 - [Rust] [DataFusion] LimitExec 和 SortExec 应使用 MergeExec
- ARROW-9737 - [C++][Gandiva] 为整数添加 bitwise_xor()
- ARROW-9739 - [CI][Ruby] 不要安装 gem 文档
- ARROW-9742 - [Rust] 创建一个标准 DataFrame API
- ARROW-9751 - [Rust] [DataFusion] 扩展 UDF 以接受每个参数的多种类型
- ARROW-9752 - [Rust] [DataFusion] 支持 Aggregate UDF
- ARROW-9753 - [Rust] [DataFusion] 移除 ExecutionPlan trait 中 Mutex 的使用
- ARROW-9754 - [Rust] [DataFusion] 在 DataFusion traits 中实现 async
- ARROW-9757 - [Rust] [DataFusion] 使用“pub use”暴露清晰的公共 API
- ARROW-9758 - [Rust] [DataFusion] 实现 DataFusion 的扩展 API
- ARROW-9759 - [Rust] [DataFusion] 实现 DataFrame::sort
- ARROW-9760 - [Rust] [DataFusion] 实现 DataFrame::explain
- ARROW-9761 - [C++] 在 C 接口实现中添加实验性的基于拉取的迭代器结构
- ARROW-9762 - [Rust] [DataFusion] ExecutionContext::sql 应返回 DataFrame
- ARROW-9769 - [Python] 移除 test_move_file 中跳过内存 fs 的操作
- ARROW-9775 - [C++] 自动选择 S3 区域
- ARROW-9781 - [C++] 修复未初始化值警告
- ARROW-9782 - [C++][Dataset] 能够使用 IpcFileFormat 写入 “.feather” 文件
- ARROW-9784 - [Rust] [DataFusion] 改进运行 tpch 基准测试的说明
- ARROW-9786 - [R] 在发布前取消 vendored cpp11
- ARROW-9788 - 处理 SQL、DataFrame API 和结构名称之间的命名不一致问题
- ARROW-9792 - [Rust] [DataFusion] 逻辑聚合函数不应返回 Result
- ARROW-9794 - [C++] 向 cpu_info 添加功能以区分 Intel 和 AMD x86
- ARROW-9795 - [C++][Gandiva] 在 Gandiva 中实现 castTIMESTAMP(int64)
- ARROW-9806 - [R] 更多计算内核绑定
- ARROW-9807 - [R] 1.0.1 版本后的新闻更新/版本提升
- ARROW-9808 - [Python] parquet.read_table docstring 的 use_legacy_dataset 解释错误
- ARROW-9811 - [C++] 未经检查的浮点数除以 0 应成功
- ARROW-9813 - [C++] 禁用语义插入 (semantic interposition)
- ARROW-9819 - [C++] 将 mimalloc 提升到 1.6.4
- ARROW-9821 - [Rust][DataFusion] 用户定义 PlanNode / Operator API
- ARROW-9821 - [Rust][DataFusion] 用户定义 PlanNode / Operator API
- ARROW-9823 - [CI][C++][MinGW] 启用 S3
- ARROW-9832 - [Rust] [DataFusion] 重构 PhysicalPlan 以移除 Partition
- ARROW-9833 - [Rust] [DataFusion] 重构 TableProvider.scan 以返回 ExecutionPlan
- ARROW-9834 - [Rust] [DataFusion] 移除 Partition trait
- ARROW-9835 - [Rust] [DataFusion] 移除 FunctionMeta
- ARROW-9836 - [Rust] [DataFusion] 改进 UDF 使用的 API
- ARROW-9837 - [Rust] 为变量添加 provider
- ARROW-9838 - [Rust] [DataFusion] DefaultPhysicalPlanner 应插入显式的 MergeExec 节点
- ARROW-9839 - [Rust] [DataFusion] 添加将 ExecutionPlan 向下转换为特定 operator 的功能
- ARROW-9841 - [Rust] 更新 checked-in 的 flatbuffer 文件
- ARROW-9844 - [Go][CI] 在 Travis CI 上为 Go 添加 s390x 作业
- ARROW-9845 - [Rust] [Parquet] serde_json 仅在测试中使用,但不在 dev-dependencies 中
- ARROW-9848 - [Rust] 实现更改以确保 flatbuffer 对齐
- ARROW-9849 - [Rust] [DataFusion] 使 UDF 无需 Field
- ARROW-9850 - [Go] 不应在循环中使用 Defer
- ARROW-9853 - [RUST] 为字典数组实现“take”内核
- ARROW-9854 - [R] 支持从 S3 读取/写入数据
- ARROW-9858 - [C++][Python][Docs] 扩展 FileSystem 的用户指南
- ARROW-9863 - [C++] [PARQUET] 优化 ApplicationVersion 的元数据恢复
- ARROW-9867 - [C++][Dataset] FileSystemDataset 应暴露其文件系统
- ARROW-9868 - [C++] 提供用于在文件系统之间复制文件的工具
- ARROW-9869 - [R] 实现完整的 S3FileSystem/S3Options 构造函数
- ARROW-9870 - [R] 文件系统(S3)的友好接口
- ARROW-9871 - [C++] 为 ARROW_USER_SIMD_LEVEL 添加大写支持。
- ARROW-9873 - [C++][Compute] 改进有限值范围内的整数 mode 内核
- ARROW-9875 - [Python] 允许 FileSystem.get_file_info 接受单个路径
- ARROW-9884 - [R] 绑定用于将数据集写入 Parquet
- ARROW-9885 - [Rust] [DataFusion] 简化 binary 类型类型强制转换代码
- ARROW-9886 - [Rust] [DataFusion] 简化测试 cast 的代码
- ARROW-9887 - [Rust] [DataFusion] 支持内置函数的复杂返回类型
- ARROW-9890 - [R] 在 macOS 构建中添加 zstandard 压缩编解码器
- ARROW-9891 - [Rust] [DataFusion] 使数学函数支持 f32
- ARROW-9892 - [Rust] [DataFusion] 添加对 concat 的支持
- ARROW-9893 - [Python] 绑定用于将数据集写入 Parquet
- ARROW-9895 - [RUST] 改进排序内核
- ARROW-9899 - [Rust] [DataFusion] 从 Box<Schema> 切换到 SchemaRef (Arc<Schema>) 以与 Arrow 的其余部分保持一致
- ARROW-9900 - [Rust][DataFusion] 在 LogicalPlan 中使用 Arc<> 而非 Box<>
- ARROW-9901 - [C++] 添加用于嵌套读取的手工 Parquet 到 Arrow 重构测试
- ARROW-9902 - [Rust] [DataFusion] 支持 array()
- ARROW-9904 - [C++] 手动展开 CountSetBits 的循环
- ARROW-9908 - [Rust] 在 JSON 读取器中支持时间数据类型
- ARROW-9910 - [Rust] [DataFusion] Variadic 的类型强制转换错误
- ARROW-9914 - [Rust][DataFusion] 记录 SQL -> Arrow 类型映射
- ARROW-9916 - [RUST] 在多个地方避免克隆 ArrayData
- ARROW-9917 - [Python][Compute] 添加 mode 内核绑定
- ARROW-9919 - [Rust] [DataFusion] 数学函数
- ARROW-9921 - [Rust] 向 [Large]StringArray 添加 `from(Vec<Option<&str>>)`
- ARROW-9925 - [GLib] 为 GArrowListArray 家族添加低级值读取器
- ARROW-9926 - [GLib] 为 GArrowRecordBatchFileReader 使用 placement new
- ARROW-9928 - [C++] 稍微加快整数解析速度
- ARROW-9929 - [Developer] Autotune cmake-format
- ARROW-9933 - [Developer] 添加 drone 作为 crossbow 的 CI provider
- ARROW-9934 - [Rust] Tensor 中的 shape 和 stride 检查
- ARROW-9941 - [Python] 改进扩展类型的字符串表示
- ARROW-9944 - [Rust] 实现 TO_TIMESTAMP 函数
- ARROW-9949 - [C++] 通用化 Decimal128::FromString 以在 Decimal256 中重用
- ARROW-9950 - [Rust] [DataFusion] 允许使用 UDF 而无需注册表
- ARROW-9952 - [Python] 使用 pyarrow.dataset writing 实现 pq.write_to_dataset
- ARROW-9954 - [Rust] [DataFusion] 简化聚合规划代码
- ARROW-9956 - [C++][Gandiva] 在 Gandiva 中实现 Binary 字符串函数
- ARROW-9957 - [Rust] 移除未维护的 tempdir 依赖
- ARROW-9961 - [Rust][DataFusion] to_timestamp 函数将没有时区偏移的时间戳解析为 UTC 而非本地时间
- ARROW-9964 - [C++] CSV 日期支持
- ARROW-9965 - [Java] 固定宽度向量的缓冲区容量计算速度慢
- ARROW-9966 - [Rust] 加速聚合内核
- ARROW-9967 - [Python] 添加计算模块文档
- ARROW-9971 - [Rust] 加速 take
- ARROW-9977 - [Rust] 添加 [Large]String 的 min/max
- ARROW-9979 - [Rust] 修复 arrow crate 的 clippy lints
- ARROW-9980 - [Rust] 修复 parquet crate 的 clippy lints
- ARROW-9981 - [Rust] 允许使用 IpcWriteOptions 配置 flight IPC
- ARROW-9983 - [C++][Dataset][Python] Dataset API 使用大于 32K 的默认批处理大小
- ARROW-9984 - [Rust] [DataFusion] DRY 函数到字符串的转换
- ARROW-9986 - [Rust][DataFusion] TO_TIMESTAMP 函数在没有时区时错误地要求小数秒
- ARROW-9987 - [Rust] [DataFusion] 改进 `Expr` 的文档。
- ARROW-9988 - [Rust] [DataFusion] 为逻辑表达式添加 std::ops
- ARROW-9992 - [C++][Python] 基于可重用转换 API 重构 python 到 arrow 的转换
- ARROW-9998 - [Python] 支持 pickling DictionaryScalar
- ARROW-9999 - [Python] 支持通过 pa.array() 直接构造字典数组
- ARROW-10000 - [C++][Python] 支持从 key-value 对列表构造 StructArray
- ARROW-10001 - [Rust] [DataFusion] 在 README 中添加开发者指南
- ARROW-10010 - [Rust] 加速算术运算
- ARROW-10015 - [Rust] 为聚合内核 sum 实现 SIMD
- ARROW-10016 - [Rust] [DataFusion] 实现 IsNull 和 IsNotNull
- ARROW-10018 - [CI] 禁用 Sphinx 和 API 文档构建,因为它在 master 分支上耗时 6 小时
- ARROW-10019 - [Rust] 添加 substring 内核
- ARROW-10023 - [Gandiva][C++] 在 gandiva 中实现 Split part 函数
- ARROW-10024 - [C++][Parquet] 创建嵌套读取基准测试
- ARROW-10028 - [Rust] 简化宏 def_numeric_from_vec
- ARROW-10030 - [Rust] 支持 fromIter 和 toIter
- ARROW-10035 - [C++] 提升 vendored 代码版本
- ARROW-10037 - [C++] 强制 find AWS SDK 查找共享库的解决方法
- ARROW-10040 - [Rust] 创建一个方法来切片未对齐的 offset 缓冲区
- ARROW-10043 - [Rust] [DataFusion] 通过部分实现 COUNT(DISTINCT) 来引入对 DISTINCT 的支持
- ARROW-10044 - [Rust] 改进 README
- ARROW-10046 - [Rust] [DataFusion] 使 `*Iterator` 实现 Iterator
- ARROW-10050 - [C++][Gandiva] 在 Gandiva 中实现最多 10 个参数的 concat()
- ARROW-10051 - [C++][Compute] 使聚合内核合并状态可变
- ARROW-10054 - [Python] Slice 方法应返回空数组而不是崩溃
- ARROW-10055 - [Rust] 为 NullableIter 实现 DoubleEndedIterator
- ARROW-10057 - [C++] 为嵌套数据添加 Parquet-Arrow 往返测试
- ARROW-10058 - [C++] 调查不使用 BMI2 的 LevelsToBitmap 性能
- ARROW-10059 - [R][Doc] 提供更多关于如何设置 C++ 构建的建议
- ARROW-10063 - [Archery][CI] 仅在 pull request 时在 archery 构建中 fetch main 分支
- ARROW-10064 - [C++] 解决 Apple Clang 12 上的编译警告
- ARROW-10065 - [Rust] DRY downcasted Arrays
- ARROW-10066 - [C++] 确保遵循默认 AWS 区域
- ARROW-10068 - [C++] 为 aws-sdk-cpp 添加打包的外部项目
- ARROW-10069 - [Java] 支持从命令行运行 Java 基准测试
- ARROW-10070 - [C++][Compute] 实现 stdev 聚合内核
- ARROW-10071 - [R] 从之前会话或已保存的 ArrowObject 导致段错误
- ARROW-10074 - [C++] 不要使用 string_view.to_string()
- ARROW-10075 - [C++] 不要使用 nonstd::nullopt,这破坏了我们的 vendoring 抽象。
- ARROW-10076 - [C++] 为所有尚未使用 TemporaryDir 的测试使用它。
- ARROW-10077 - [C++] bit_stream_utils.h 乘法中潜在的溢出。
- ARROW-10083 - [C++] 改进 Parquet 模糊测试种子语料库
- ARROW-10084 - [Rust] [DataFusion] 添加 large string 数组的长度
- ARROW-10086 - [Rust] 迁移 min_large_string -> min_string 内核
- ARROW-10090 - [C++][Compute] 改进 mode 内核
- ARROW-10092 - [Dev][Go] 将 grpc 生成的 go 文件添加到 rat 排除列表
- ARROW-10093 - [R] 添加选择不将 int64 降级为 int 的功能
- ARROW-10095 - [Rust] [Parquet] 更新以适应 IPC 更改
- ARROW-10096 - [Rust] [DataFusion] 移除未使用代码
- ARROW-10099 - [C++][Dataset] 允许整数分区字段也被字典编码
- ARROW-10100 - [C++][Dataset] 能够读取/子集带有给定行组 ID 集的 ParquetFileFragment
- ARROW-10102 - [C++] 通用化 BasicDecimal128::operator*= 以在 Decimal256 中重用
- ARROW-10103 - [Rust] 添加 Contains 内核
- ARROW-10105 - [FlightRPC] 添加客户端选项以禁用 TLS 证书验证
- ARROW-10120 - [C++][Parquet] 为 2 级嵌套数据创建读取基准测试
- ARROW-10127 - [Format] 更新规范以支持 256 位 Decimal 类型
- ARROW-10129 - [Rust] cargo build 在 arrow 更改时重新构建依赖项
- ARROW-10134 - [C++][Dataset] 添加 ParquetFileFragment::num_row_groups 属性
- ARROW-10139 - [C++] 添加构建 arrow_testing 但不构建测试的支持
- ARROW-10148 - [Rust] 为 lib.rs 添加文档
- ARROW-10151 - [Python] 添加 MapArray 到 pandas 转换的支持
- ARROW-10155 - [Rust] [DataFusion] 为 lib.rs 添加文档
- ARROW-10156 - [Rust] 自动标记 PR
- ARROW-10157 - [Rust] 添加更多关于 take 的文档
- ARROW-10160 - [Rust] 改进 DictionaryType 的文档
- ARROW-10161 - [Rust] [DataFusion] 简化表达式测试
- ARROW-10162 - [Rust] 支持在 pretty printing 中显示 DictionaryArrays
- ARROW-10164 - [Rust] 为 cast 内核添加对 DictionaryArray 类型的支持
- ARROW-10167 - [Rust] 支持在 sql.rs 中显示 DictionaryArrays
- ARROW-10168 - [Rust] [Parquet] 将 arrow schema 转换扩展到投影字段
- ARROW-10171 - [Rust] [DataFusion] 添加 `ExecutionContext::from<ExecutionContextState>`
- ARROW-10190 - [Website] 将 Jorge 添加到 committer 列表
- ARROW-10191 - [Rust] [Parquet] 为单列批次添加往返测试
- ARROW-10196 - [C++] 添加 Future::DeferNotOk()
- ARROW-10199 - [Rust][Parquet] 在 crates.io 发布 Parquet 以移除 debug prints
- ARROW-10201 - [C++][CI] 在 Travis CI 的 arm64 作业中禁用 S3
- ARROW-10202 - [CI][Windows] 为 MSYS2 使用 sf.net 镜像
- ARROW-10205 - [Java][FlightRPC] 添加客户端选项以禁用服务器验证
- ARROW-10206 - [Python][C++][FlightRPC] 添加客户端选项以禁用服务器验证
- ARROW-10215 - [Rust] [DataFusion] 重命名“Source” typedef
- ARROW-10217 - [CI] 运行更少的 GitHub Actions 作业
- ARROW-10225 - [Rust] [Parquet] 修复往返测试中的 null 位图比较
- ARROW-10227 - [Ruby] 使用表大小作为 parquet chunk_size 的默认值
- ARROW-10229 - [C++][Parquet] 移除剩余的 ARROW_LOG 语句。
- ARROW-10231 - [CI] 在 arm32v7 docker 镜像中无法下载 minio
- ARROW-10233 - [Rust] 使 array_value_to_string 在所有 Arrow 构建中可用
- ARROW-10235 - [Rust][DataFusion] 改进类型强制转换文档
- ARROW-10240 - [Rust] [Datafusion] 选择性地将 tpch 数据加载到内存中再运行基准查询
- ARROW-10251 - [Rust] [DataFusion] MemTable::load() 应并行加载分区
- ARROW-10252 - [Python] 添加选项以跳过在 Python 安装中包含 Arrow 头文件
- ARROW-10256 - [C++][Flight] 小心地禁用 -Werror
- ARROW-10257 - [R] 为 2.0 版本准备新闻/文档
- ARROW-10260 - [Python] 缺失 MapType 到 Pandas dtype 的映射
- ARROW-10263 - [C++][Compute] 提高方差合并的数值稳定性
- ARROW-10265 - [CI] 在 Travis CI 上缓存不存在时使用更小的构建
- ARROW-10266 - [CI][macOS] 确保 Homebrew 使用 Python 3.8
- ARROW-10267 - [Python] 如果 disable_server_verification 功能不可用则跳过 flight 测试
- ARROW-10272 - [Packaging][Python] 锁定较新的 multibuild 版本以避免更新 homebrew
- ARROW-10273 - [CI][Homebrew] 修复“brew audit”用法
- ARROW-10287 - [C++] 尽可能避免使用 std::random_device
- ARROW-10289 - [Rust] 支持读取字典流
- ARROW-10295 - [Rust] [DataFusion] 简化 accumulators
- ARROW-10310 - [C++][Gandiva] 在 Gandiva 中添加单参数 round()
- PARQUET-1845 - [C++] 测试用例中的 Int96 内存映像仅假定小端序
- PARQUET-1878 - [C++] lz4 编解码器与 Hadoop Lz4Codec 不兼容
- PARQUET-1904 - [C++] 在 RowGroupMetaData 中导出 file_offset