Apache Arrow 2.0.0 (2020年10月19日)
这是一个涵盖超过3个月开发的大版本发布。
下载
贡献者
此版本包含来自 81 位不同贡献者的 511 次提交。
$ git shortlog -sn apache-arrow-1.0.0..apache-arrow-2.0.0
68 Jorge C. Leitao
48 Antoine Pitrou
40 Krisztián Szűcs
34 alamb
33 Neal Richardson
30 Andy Grove
25 Benjamin Kietzman
25 Joris Van den Bossche
19 Sutou Kouhei
13 Uwe L. Korn
12 Micah Kornfield
10 Frank Du
10 Jörn Horstmann
9 Neville Dipale
9 Romain Francois
9 arw2019
8 Yibo Cai
8 liyafan82
7 Sagnik Chakraborty
6 David Li
5 Kazuaki Ishizaki
5 Mahmut Bulut
4 Mingyu Zhong
4 fredgan
3 Bryan Cutler
3 wqc200
2 Daniel Russo
2 Diana Clarke
2 James Duong
2 Kenta Murata
2 Patrick Woody
2 Projjal Chanda
2 naman1996
2 ptaylor
2 tianchen
1 Adam Szmigin
1 Ali McMaster
1 Andrew Stevenson
1 Ben Kimock
1 Brian Dunlay
1 Christoph Schulze
1 Derek Marsh
1 Dominik Moritz
1 Eric Erhardt
1 Ezra
1 Fernando José Herrera Elizalde
1 FredGan
1 Hongze Zhang
1 Jim Klucar
1 Josiah
1 Kyle Strand
1 Laurent Goujon
1 Lawrence Chan
1 Mark Rushakoff
1 Matt Corley
1 Matthew Topol
1 Matthias
1 Morgan Cassels
1 Ofek
1 Patrick Pai
1 Paul
1 PoojaChandak
1 Prashanth Govindarajan
1 Pratik raj
1 Revital Sur
1 Ruan Pearce-Authers
1 Ryan Murray
1 Simon Bertron
1 Steve Suh
1 Tanguy Fautre
1 Tobias Mayer
1 Troels Nielsen
1 Vivian Kong
1 Wes McKinney
1 Xavier Lange
1 Yordan Pavlov
1 kanga333
1 karldw
1 mubai
1 offthewall123
1 zanmato1984
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-1.0.0..apache-arrow-2.0.0
127 Andy Grove
92 Antoine Pitrou
56 Krisztián Szűcs
51 Neal Richardson
44 Sutou Kouhei
18 Joris Van den Bossche
18 Micah Kornfield
17 Benjamin Kietzman
17 Wes McKinney
16 Neville Dipale
12 Jorge C. Leitao
10 Praveen
7 Paddy Horan
4 David Li
4 Eric Erhardt
4 Sebastien Binet
4 Uwe L. Korn
4 liyafan82
3 GitHub
1 Bryan Cutler
1 Chao Sun
1 tianchen
更新日志
Apache Arrow 2.0.0 (2020-10-19)
Bug 修复
- ARROW-2367 - [Python] ListArray 在大小超过 kMaximumCapacity 时出现问题
- ARROW-4189 - [CI] [Rust] 修复损坏的 cargo coverage
- ARROW-4917 - [C++] orc_ep 在 cpp-alpine docker 中失败
- ARROW-5578 - [C++][Flight] Flight 在 Alpine Linux 上无法开箱即用构建
- ARROW-7226 - [JSON][Python] Json 加载器在文档示例上失败
- ARROW-7384 - [Website] 修复 Google 报告的搜索索引警告
- ARROW-7517 - [C++] Builder 在初始化期间不遵守提供的字典类型
- ARROW-7663 - [Python] from_pandas 在某些情况下给出 TypeError 而不是 ArrowTypeError
- ARROW-7903 - [Rust] [DataFusion] 升级 DataFusion 的 SQLParser 依赖
- ARROW-7957 - [Python] ParquetDataset 无法将 HadoopFileSystem 作为文件系统
- ARROW-8265 - [Rust] [DataFusion] Table API collect() 不应需要上下文
- ARROW-8394 - [JS] 使用 es2015-esm 包时,arrow d.ts 文件出现 Typescript 编译器错误
- ARROW-8735 - [Rust] [Parquet] Parquet crate 在 Arm 架构上编译失败
- ARROW-8749 - [C++] IpcFormatWriter 写入字典批次时使用错误的 ID
- ARROW-8773 - [Python] pyarrow schema.empty_table() 不保留字段的可空性
- ARROW-9028 - [R] 应该能够转换一个空表
- ARROW-9096 - [Python] Pandas 往返测试中,使用整数值的 object-dtype 列标签导致“数据类型‘integer’无法理解”的错误
- ARROW-9177 - [C++][Parquet] 跨实现 LZ4 Parquet 压缩兼容性跟踪问题
- ARROW-9414 - [C++] apt 包包含 S3 接口的头文件,但没有支持
- ARROW-9462 - [Go] 第一个 Record 后,arrjson writer 的缩进丢失
- ARROW-9463 - [Go] 在 TestReadWrite 中 writer 被关闭了两次
- ARROW-9490 - [Python] 为特定 numpy 标量集创建 pyarrow 数组失败
- ARROW-9495 - [C++] 相等性断言未正确处理 Inf / -Inf
- ARROW-9520 - [Rust] [DataFusion] 无法为聚合表达式设置别名
- ARROW-9528 - [Python] 从 datetime 转换为 pyarrow 时应遵循 tzinfo 信息
- ARROW-9532 - [Python] 在 macOS 上为 MacPorts 构建 pyarrow
- ARROW-9535 - [Python] 从 conda recipe 中移除符号链接修复
- ARROW-9536 - PlasmaOutOfMemoryException.java 中缺少参数
- ARROW-9541 - [C++] CMakeLists 在构建静态库时需要 UTF8PROC_STATIC
- ARROW-9544 - [R] write_parquet 的 version 参数无效
- ARROW-9546 - [Python] 清理 Pandas 元数据转换测试
- ARROW-9548 - [Go] tmp 目录中的测试输出文件未被正确移除
- ARROW-9549 - [Rust] Parquet 不再构建
- ARROW-9554 - [Java] FixedWidthInPlaceVectorSorter 有时会产生错误结果
- ARROW-9556 - [Python][C++] 在带有空值的 UnionArray 中出现段错误
- ARROW-9560 - [Packaging] 因缺少 conda-forge.yml 导致 conda recipes 失败
- ARROW-9569 - [CI][R] 修复因 msys2 密钥更改导致的 rtools35 构建
- ARROW-9570 - [Doc] 清理 sphinx 侧边栏
- ARROW-9573 - [Python] 当分区列以 '_' 开头时,Parquet 无法加载
- ARROW-9574 - [R] 为 CRAN 1.0.0 发布进行清理
- ARROW-9575 - [R] 在 CRAN 上的 gcc-UBSAN 失败
- ARROW-9577 - [Python][C++] 在 Debian 上的 pyarrow 1.0.0 中出现 posix_madvise 错误
- ARROW-9583 - [Rust] 在算术和布尔计算内核中偏移量处理不当
- ARROW-9588 - [C++] clang/win:ParquetInvalidOrCorruptedFileException 的复制构造函数未正确触发
- ARROW-9589 - [C++/R] arrow_exports.h 包含声明为 class 的 struct
- ARROW-9592 - [CI] 在调用 brew bundle 前更新 homebrew
- ARROW-9596 - [CI][Crossbow] 再次修复 homebrew-cpp
- ARROW-9597 - [C++] compute::FunctionRegistry 中的 AddAlias 应该同步
- ARROW-9598 - [C++][Parquet] Spaced 定义级别未正确分配
- ARROW-9599 - [CI] Appveyor 工具链构建失败,因为 CMake 检测到不同的 C 和 C++ 编译器
- ARROW-9600 - [Rust] 当作为 crate 依赖项使用时,arrow-flight 在每次调用 cargo build 时都会被重新构建
- ARROW-9600 - [Rust] 当作为 crate 依赖项使用时,arrow-flight 在每次调用 cargo build 时都会被重新构建
- ARROW-9602 - [R] 改进 Linux 构建中的 cmake 检测
- ARROW-9603 - [C++][Parquet] 写入 Arrow 时依赖于嵌套类型的未指定行为
- ARROW-9606 - [C++][Dataset] in 表达式在超过 1 个分区级别时无效
- ARROW-9609 - [C++] CSV 数据集不实例化虚拟列
- ARROW-9621 - [Python] test_move_file() 在 fsspec 0.8.0 版本下失败
- ARROW-9622 - [Java] 如果 structvector 的子 UnionVector 包含空值,ComplexCopier 会失败
- ARROW-9628 - [Rust] Clippy PR 测试在 Rust / AMD64 MacOS 上间歇性失败
- ARROW-9629 - [Python] Kartothek 集成测试因缺少 freezegun 模块而失败
- ARROW-9631 - [Rust] Arrow crate 不应依赖于 flight
- ARROW-9631 - [Rust] Arrow crate 不应依赖于 flight
- ARROW-9642 - [C++] 让 MakeBuilder 引用 DictionaryType 的 index_type 来决定索引的起始位宽
- ARROW-9643 - [C++] 在 haswell cpu 上出现非法指令
- ARROW-9644 - [C++][Dataset] 不要在基本路径中检查 ignore_prefixes
- ARROW-9652 - [Rust][DataFusion] 从 CSV 中选择 * 时出现 Panic (panicked at 'index out of bounds: the len is 0 but the index is 0)
- ARROW-9653 - [Rust][DataFusion] 多列 Group by:非法参数错误
- ARROW-9659 - [C++] RecordBatchStreamReader 在 CUDA 设备缓冲区上抛出异常
- ARROW-9660 - [C++] IPC - map 中的字典
- ARROW-9666 - [Python][wheel][Windows] ARROW-9412 导致库丢失失败
- ARROW-9670 - [C++][FlightRPC] 在正在进行的读取操作中关闭 DoPut 会导致客户端锁定
- ARROW-9684 - [C++] 修复无效 IPC / Parquet 输入上的未定义行为 (OSS-Fuzz)
- ARROW-9692 - [Python] distutils 导入警告
- ARROW-9693 - [CI][Docs] 每夜文档构建失败
- ARROW-9696 - [Rust] [Datafusion] 嵌套二元表达式损坏
- ARROW-9698 - [C++] 恢复 "将 -NDEBUG 标志添加到 arrow.pc"
- ARROW-9700 - [Python] create_library_symlinks 在 macos 上无效
- ARROW-9712 - [Rust] [DataFusion] ParquetScanExec 在出错时 panic
- ARROW-9714 - [Rust] [DataFusion] Limit 或 Sort 未实现 TypeCoercionRule
- ARROW-9716 - [Rust] [DataFusion] MergeExec 应有并发限制
- ARROW-9726 - [Rust] [DataFusion] ParquetScanExec 过早启动线程
- ARROW-9727 - [C++] 修复无效 IPC 输入导致的崩溃 (OSS-Fuzz)
- ARROW-9729 - [Java] Error Prone 导致其他注解处理器在 Eclipse 中无法工作
- ARROW-9733 - [Rust][DataFusion] 聚合 COUNT/MIN/MAX 在 VARCHAR 列上无效
- ARROW-9734 - [Rust] [DataFusion] TableProvider.scan 过早执行分区
- ARROW-9741 - [Rust] [DataFusion] TPC-H 查询 1 结果集中的计数不正确
- ARROW-9743 - [R] 在 open_dataset 中清理路径
- ARROW-9744 - [Python] 在 aarch64 上安装失败
- ARROW-9764 - [CI][Java] 推送错误的 Docker 镜像
- ARROW-9768 - [Python] Pyarrow 允许将 datetime 对象不安全地转换为 timestamp 纳秒
- ARROW-9768 - [Python] Pyarrow 允许将 datetime 对象不安全地转换为 timestamp 纳秒
- ARROW-9778 - [Rust] [DataFusion] 在 20 个端到端测试中,有 8 个的逻辑和物理模式的可空性不匹配
- ARROW-9783 - [Rust] [DataFusion] 逻辑聚合表达式需要显式数据类型
- ARROW-9785 - [Python] pyarrow/tests/test_fs.py::test_s3_options 太慢
- ARROW-9789 - [C++] 不要并行安装 jemalloc
- ARROW-9790 - [Rust] [Parquet] 如果批次正好落在行组边界上,ParquetFileArrowReader 无法解码所有页面
- ARROW-9790 - [Rust] [Parquet] 如果批次正好落在行组边界上,ParquetFileArrowReader 无法解码所有页面
- ARROW-9793 - [Rust] [DataFusion] master 分支中的测试失败
- ARROW-9797 - [Rust] Master 分支的 AMD64 Conda 集成测试失败
- ARROW-9799 - [Rust] [DataFusion] 物理二元表达式 get_type 方法的实现不正确
- ARROW-9800 - [Rust] [Parquet] 写入列时,"min" 和 "max" 被写入到标准输出
- ARROW-9809 - [Rust] [DataFusion] 逻辑模式 = 物理模式不成立
- ARROW-9814 - [Python] 在 test_parquet.py::test_read_partitioned_directory_s3fs 中崩溃
- ARROW-9815 - [Rust] [DataFusion] 在创建带有两个 udf 的物理计划时出现死锁
- ARROW-9815 - [Rust] [DataFusion] 在创建带有两个 udf 的物理计划时出现死锁
- ARROW-9815 - [Rust] [DataFusion] 在创建带有两个 udf 的物理计划时出现死锁
- ARROW-9816 - [C++] 在 config.h 中转义引号
- ARROW-9827 - [Python] 对于宽 parquet 文件和 pyarrow 1.0.X,pandas.read_parquet 失败
- ARROW-9831 - [Rust] [DataFusion] 修复编译错误
- ARROW-9840 - [Python] Python fs 文档与代码不一致
- ARROW-9846 - [Rust] Master 分支构建中断
- ARROW-9851 - [C++] 因未识别的指令导致 Valgrind 错误
- ARROW-9852 - [C++] 修复无效 IPC 输入导致的崩溃 (OSS-Fuzz)
- ARROW-9852 - [C++] 修复无效 IPC 输入导致的崩溃 (OSS-Fuzz)
- ARROW-9855 - [R] 修复错误的合并/Rcpp 冲突
- ARROW-9859 - [C++] S3 FileSystemFromUri 在 secret key 中有特殊字符时失败
- ARROW-9864 - [Python] 在带有分区列的 write_to_dataset 中不支持 pathlib.Path
- ARROW-9874 - [C++] NewStreamWriter / NewFileWriter 不拥有输出流
- ARROW-9876 - [CI][C++] Travis ARM 作业超时
- ARROW-9877 - [C++][CI] homebrew-cpp 因 avx512 失败
- ARROW-9879 - [Python] ChunkedArray.__getitem__ 不支持 numpy 标量
- ARROW-9882 - [C++/Python] 将 OSX conda 包的 conda-forge-pinning 更新到 3
- ARROW-9883 - [R] 修复 R < 3.6 的 linuxlibs.R 安装脚本
- ARROW-9888 - [Rust] [DataFusion] ExecutionContext 不能在线程间共享
- ARROW-9889 - [Rust][DataFusion] Datafusion CLI: CREATE EXTERNAL TABLE 报错 "Unsupported logical plan variant"
- ARROW-9897 - [C++][Gandiva] 根据模式添加 to_date() 函数
- ARROW-9898 - [C++][Gandiva] castINT 中的错误处理在某些环境中失败
- ARROW-9906 - [Python] 在 test_parquet.py::test_parquet_writer_filesystem_s3_uri 中崩溃 (关闭 S3FileSystem 的 NativeFile)
- ARROW-9913 - [C++] Decimal128::FromString 的输出依赖于彼此的存在
- ARROW-9920 - [Python] 传递一个分块数组给 pyarrow.concat_arrays 时出现段错误
- ARROW-9922 - [Rust] 向 StructArray 添加 `try_from(Vec<Option<(&str, ArrayRef)>>)`
- ARROW-9924 - [Python] 使用 Dataset 接口读取单个 Parquet 文件时性能下降
- ARROW-9931 - [C++] 修复无效 IPC 上的未定义行为 (OSS-Fuzz)
- ARROW-9932 - [R] Arrow 1.0.1 R 包在 linux 上的 R3.4 中安装失败
- ARROW-9936 - [Python] 修复/测试 pyarrow.parquet 中的相对文件路径
- ARROW-9937 - [Rust] [DataFusion] Average 不正确
- ARROW-9943 - [C++] 读取 Parquet 文件时,Arrow 元数据未递归应用
- ARROW-9946 - [R] 当 `sink` 是字符串时 ParquetFileWriter 出现段错误
- ARROW-9953 - [R] 声明 bit64 的最低版本
- ARROW-9962 - [Python] 使用固定时区的索引列转换为 pandas 失败
- ARROW-9968 - [C++] 与 __int8_t 相关的 UBSAN 链接失败
- ARROW-9969 - [C++] RecordBatchBuilder 在有字典字段时产生无效结果
- ARROW-9970 - [Go] sum 方法中的 checkptr 失败
- ARROW-9972 - [CI] 解决 Homebrew 上的 grpc-re2 冲突
- ARROW-9973 - [Java] JDBC DateConsumer 不允许纪元前的日期
- ARROW-9976 - [Python] 使用大型 dataframe 进行 Table.from_pandas 时出现 ArrowCapacityError
- ARROW-9990 - [Rust] [DataFusion] NOT 不可规划
- ARROW-9993 - [Python] Tzinfo - 在 pytz.StaticTzInfo 对象上的字符串往返失败
- ARROW-9994 - [C++][Python] 自动分块包含类二进制字段的嵌套数组导致输出格式错误
- ARROW-9996 - [C++] 为空值调用 DictionaryArray.GetScalar 时字典被取消设置
- ARROW-10003 - [C++] 在同一文件系统内复制时,在 CopyFiles 中创建目录
- ARROW-10008 - [Python] 使用 use_legacy_dataset=False 对分类数据进行谓词下推时,pyarrow.parquet.read_table 失败
- ARROW-10011 - [C++] 使 FindRE2.cmake 可重入
- ARROW-10012 - [C++] CopyFiles 测试中间歇性失败
- ARROW-10013 - [C++][CI] TestFlightClient.GenericOptions 中的 Flight 测试失败
- ARROW-10017 - [Java] LargeMemoryUtil.checkedCastToInt 逻辑有误
- ARROW-10022 - [C++] [Compute] 某些 scalar-arithmetic-benchmark 核心转储
- ARROW-10027 - [Python] 使用数据集过滤表达式时返回不正确的空列
- ARROW-10034 - [Rust] Master 构建中断
- ARROW-10041 - [Rust] 可能创建带有 DataType::Utf8 的 LargeStringArray
- ARROW-10047 - [CI] Conda 集成测试因 cmake 错误失败
- ARROW-10048 - [Rust] 字符串的 min/max 聚合错误
- ARROW-10049 - [C++/Python] 将 conda recipe 与 conda-forge 同步
- ARROW-10060 - [Rust] [DataFusion] MergeExec 当前丢弃有错误的分区
- ARROW-10062 - [Rust]:修复 DictArray 的 DoubleEndedIter 的空元素
- ARROW-10073 - [Python] 测试 test_parquet_nested_storage 依赖于字典项顺序
- ARROW-10081 - [C++/Python] 修复 drone.io conda 构建中的 bash 语法
- ARROW-10085 - [C++] S3 测试在 AppVeyor 上失败
- ARROW-10087 - [CI] 修复每夜文档作业
- ARROW-10098 - [R][Doc] 修复 copy_files 文档不匹配
- ARROW-10104 - [Python] 将测试分离到其自己的 conda 包中
- ARROW-10114 - [R] 在 to_dataframe_parallel 中使用深度嵌套的 struct 时出现段错误
- ARROW-10116 - [Python][Packaging] 修复 macOS wheels 构建中的 gRPC 链接错误
- ARROW-10119 - [C++] 修复无效输入导致的 Parquet 崩溃 (OSS-Fuzz)
- ARROW-10121 - [C++][Python] 可变字典在往返 IPC 流后无法保留
- ARROW-10124 - [R] 写入函数不遵循 umask 设置
- ARROW-10125 - [R] Int64 向下转型检查未考虑所有块
- ARROW-10130 - [C++][Dataset] ParquetFileFragment::SplitByRowGroup 不保留 "complete_metadata" 状态
- ARROW-10136 - [Rust][Arrow] 在过滤 StringArray 后,Nulls 被转换为 ""
- ARROW-10137 - [R] 修复在 libarrow 不存在时会中断的 cpp 帮助程序
- ARROW-10147 - [Python] 如果索引名称默认不可 JSON 序列化,则构造 pandas 元数据失败
- ARROW-10150 - [C++] 修复无效 Parquet 文件导致的崩溃 (OSS-Fuzz)
- ARROW-10169 - [Rust] 在美化打印数组时,Nulls 应呈现为 "" 而不是默认值
- ARROW-10174 - [Java] 读取字典编码的 struct vector 失败
- ARROW-10175 - [CI] 每夜 hdfs 集成测试作业失败
- ARROW-10176 - [CI] 每夜 valgrind 作业失败
- ARROW-10178 - [CI] 修复 spark master 集成测试构建设置
- ARROW-10179 - [Rust] Labeler 未标记
- ARROW-10181 - [Rust] Arrow 测试在 Raspberry Pi (32位) 上编译失败
- ARROW-10188 - [Rust] [DataFusion] 一些示例已损坏
- ARROW-10189 - [Doc] C 数据接口 i32 示例在格式中使用 `l` 而不是 `i`
- ARROW-10192 - [C++][Python] 将带有字典字段的嵌套 struct 数组转换为 pandas series 时出现段错误
- ARROW-10193 - [Python] 转换为固定大小二进制数组时出现段错误
- ARROW-10200 - [Java][CI] 修复 Java CI 在 s390x 上的失败
- ARROW-10204 - [RUST] [Datafusion] 启用 simd 特性时,aggregate_grouped_empty 测试失败
- ARROW-10214 - [Python] 打印带有二进制元数据的模式时出现 UnicodeDecodeError
- ARROW-10226 - [Rust] [Parquet] Parquet 读取器在 parquet 文件内的某些批次中读取错误的列
- ARROW-10230 - [JS][Doc] JavaScript 文档构建失败
- ARROW-10232 - FixedSizeListArray 被错误地写入/读取到/从 parquet
- ARROW-10234 - [C++][Gandiva] 修复 Gandiva 中浮点数/小数的 round() 逻辑
- ARROW-10237 - [C++] 字典中的重复值导致 parquet 损坏
- ARROW-10238 - [C#] List<Struct> 已损坏
- ARROW-10239 - [C++] aws-sdk-cpp 似乎也需要 zlib
- ARROW-10244 - [Python][Docs] 添加关于使用 pyarrow.dataset.parquet_dataset 的文档
- ARROW-10248 - [C++][Dataset] Dataset 写入不写入模式元数据
- ARROW-10262 - [C++] Scalar 类中的某些 TypeClass 似乎不正确
- ARROW-10270 - [R] 修复 R-devel 上的 CSV timestamp_parsers 测试
- ARROW-10271 - [Rust] packed_simd 已损坏,并在一个新项目中继续
- ARROW-10279 - [Release][Python] 修复验证脚本以与新的 macos wheel 平台标签对齐
- ARROW-10280 - [Packaging][Python] 修复 macOS wheel 工件模式
- ARROW-10281 - [Python] 修复运行测试时的警告
- ARROW-10284 - [Python] Pyarrow 在导入时引发关于文件系统的弃用警告
- ARROW-10285 - [Python] pyarrow.orc 子模块正在使用已弃用的功能
- ARROW-10286 - [C++][Flight] 误导性的 CMake 错误
- ARROW-10288 - [C++] 在 i386 上编译失败
- ARROW-10290 - [C++] List POP_BACK 在较旧的 CMake 版本中不可用
- ARROW-10293 - [Rust] [DataFusion] 修复基准测试
- ARROW-10296 - [R] 保存为 integer64 的数据加载为 integer
新功能和改进
- ARROW-983 - [C++] 实现用于与套接字连接交互的 InputStream 和 OutputStream 类
- ARROW-1105 - [C++] SQLite 记录批次读取器
- ARROW-1509 - [Python] 将序列化对象作为封装的 IPC 消息流写入
- ARROW-1669 - [C++] 考虑将 Abseil (Google C++11 标准库扩展) 添加到工具链
- ARROW-1797 - [C++] 实现数值数组的二元算术内核
- ARROW-2164 - [C++] 清理不必要的十进制模块引用
- ARROW-3080 - [Python] 统一 Arrow 到 Python 对象的转换路径
- ARROW-3757 - [R] Flight RPC 客户端的 R 绑定
- ARROW-3872 - [R] 添加 feather 兼容性的临时测试
- ARROW-4046 - [Python/CI] 进行大内存测试
- ARROW-4248 - [C++][Plasma] 在 Windows / Visual Studio 上构建
- ARROW-4685 - [C++] 将 manylinux1 docker 镜像中的 Boost 更新到 1.69
- ARROW-4927 - [Rust] 更新顶层 README 以描述当前功能
- ARROW-4957 - [Rust] [DataFusion] 正确实现 get_supertype
- ARROW-4965 - [Python] 时间戳数组类型检测应使用 datetime.datetime 对象的 tzname
- ARROW-5034 - [C#] ArrowStreamWriter 应公开同步的 Write 方法
- ARROW-5123 - [Rust] 从 struct 定义派生 RecordWriter
- ARROW-6075 - [FlightRPC] 处理中间件中未捕获的异常
- ARROW-6281 - [Python] 在 pyarrow.array 中为嵌套类型生成分块数组
- ARROW-6282 - [Format] 支持有损压缩
- ARROW-6437 - [R] 为 macOS 和 Windows 的系统依赖项添加 AWS SDK
- ARROW-6535 - [C++] Status::WithMessage 应接受可变参数
- ARROW-6537 - [R] 将 column_types 传递给 CSV 读取器
- ARROW-6972 - [C#] 应支持 StructField 数组
- ARROW-6982 - [R] 添加比较和布尔内核的绑定
- ARROW-7136 - [Rust][CI] 在 dockerfile 中预安装 rust 依赖项
- ARROW-7218 - [Python] 从布尔 numpy 标量转换无效
- ARROW-7302 - [C++] CSV:允许将列转换为特定的字典类型
- ARROW-7372 - [C++] 允许从简单的 JSON 创建字典数组
- ARROW-7871 - [Python] 公开更多计算内核
- ARROW-7960 - [C++][Parquet] 为缺失类型添加从 parquet 节点到 arrow 的模式转换支持
- ARROW-8001 - [R][Dataset] 数据集写入的绑定
- ARROW-8002 - [C++][Dataset] 数据集写入应允许您(重新)分区数据
- ARROW-8048 - [Python] 作为 ARROW-4120 的后续,每夜运行内存泄漏测试
- ARROW-8172 - [C++] 用于字典数组的 ArrayFromJSON
- ARROW-8205 - [Rust] [DataFusion] DataFusion 应在模式中强制使用唯一的字段名
- ARROW-8253 - [Rust] [DataFusion] 改进注册 UDF 的人体工程学
- ARROW-8262 - [Rust] [DataFusion] 添加使用 LogicalPlanBuilder 的示例
- ARROW-8289 - [Rust] [Parquet] 实现最小的 Arrow Parquet 写入器作为完整写入器的起点
- ARROW-8296 - [C++][Dataset] IpcFileFormat 应支持写入带有压缩缓冲区的文件
- ARROW-8355 - [Python] 减少 test_feather 中依赖 pandas 的测试用例数量
- ARROW-8359 - [C++/Python] 在 conda recipes 中启用 aarch64/ppc64le 构建
- ARROW-8383 - [Rust] 更轻松地随机访问 DictionaryArray 的键和值
- ARROW-8402 - [Java] 在 Java 中支持 ValidateFull 方法
- ARROW-8423 - [Rust] [Parquet] 写入 parquet 时将 arrow 模式序列化到元数据中
- ARROW-8426 - [Rust] [Parquet] 添加对写入字典类型的支持
- ARROW-8493 - [C++] 为数组重构创建统一的模式解析代码
- ARROW-8494 - [C++] 实现基本的逐数组重组逻辑
- ARROW-8581 - [C#] Date32/64Array.Builder 应接受 DateTime,而不是 DateTimeOffset
- ARROW-8601 - [Go][Flight] 实现 Flight Writer 接口
- ARROW-8601 - [Go][Flight] 实现 Flight Writer 接口
- ARROW-8618 - [C++] ASSIGN_OR_RAISE 应该移动它的参数
- ARROW-8678 - [C++][Parquet] 移除旧的 arrow 到 level 的转换
- ARROW-8712 - [R] 在 read_csv 转换选项中公开 strptime 时间戳解析
- ARROW-8774 - [Rust] [DataFusion] 改进线程模型
- ARROW-8810 - [R] 添加关于 Parquet 格式、附加到流格式的文档
- ARROW-8824 - [Rust] [DataFusion] 实现新的 SQL 解析器
- ARROW-8828 - [Rust] 实现 SQL 分词器
- ARROW-8829 - [Rust] 实现 SQL 解析器
- ARROW-9010 - [Java] RecordBatch IPC 缓冲区压缩的框架和接口更改
- ARROW-9065 - [C++] 支持在数据集分区文件夹中解析 date32
- ARROW-9068 - [C++][Dataset] 简化 Partitioning 接口
- ARROW-9078 - [C++] 写入带有嵌套存储类型的扩展类型失败
- ARROW-9104 - [C++] Parquet 加密测试应将文件写入临时目录,而不是测试子模块的目录
- ARROW-9107 - [C++][Dataset] 基于时间的类型支持
- ARROW-9147 - [C++][Dataset] 在 Dataset 扫描中支持 null -> 其他类型的提升
- ARROW-9205 - [Documentation] 修复 Columnar.rst 中的拼写错误
- ARROW-9266 - [Python][Packaging] 在 macOS wheels 中启用 S3 支持
- ARROW-9271 - [R] 在往返测试中保留数据帧元数据
- ARROW-9286 - [C++] 向 compute::FunctionRegistry 添加函数“别名”
- ARROW-9328 - [C++][Gandiva] 为字符串添加 LTRIM、RTRIM、BTRIM 函数
- ARROW-9338 - [Rust] 添加在本地运行 clippy 的说明
- ARROW-9344 - [C++][Flight] 在 flight 基准测试中测量延迟分位数
- ARROW-9358 - [Integration] 重新考虑 generated_large_batch.json
- ARROW-9371 - [Java] 为两个分配器运行向量测试
- ARROW-9377 - [Java] 支持无符号字典索引
- ARROW-9387 - [R] 使用新的 C++ 表选择方法
- ARROW-9388 - [C++] 除法内核
- ARROW-9394 - [Python] 支持 Scalars 的 pickle
- ARROW-9398 - [C++] 在函数实例下注册 SIMD sum 变体,而不是 SIMD 函数
- ARROW-9402 - [C++] 为 __builtin_add_overflow 及其类似函数添加可移植的包装器
- ARROW-9405 - [R] 切换到 cpp11
- ARROW-9412 - [C++] 将非 BUNDLED 依赖项添加到 arrow_static 的导出 INSTALL_INTERFACE_LIBS 并测试其是否有效
- ARROW-9429 - [Python] ChunkedArray.to_numpy
- ARROW-9454 - [GLib] 为一些字典构建器添加绑定
- ARROW-9465 - [Python] 改进计算函数的人体工程学
- ARROW-9469 - [Python] 使更多对象可弱引用
- ARROW-9487 - [Developer] 使用单元测试覆盖 archery 发布工具
- ARROW-9488 - [Release] 更新网站时使用新的变更日志生成
- ARROW-9507 - [Rust] [DataFusion] PhysicalExpr 应实现 Display trait
- ARROW-9508 - [Release][APT][Yum] 为 arm64 二进制文件启用验证
- ARROW-9516 - [Rust][DataFusion] 重构物理表达式,使其不关心名称或索引
- ARROW-9517 - [C++][Python] 初始化 S3FileSystem 时允许 session_token 参数
- ARROW-9518 - [Python] 弃用 pyarrow 序列化
- ARROW-9521 - [Rust] CsvReadOptions 应允许指定文件扩展名
- ARROW-9523 - [Rust] 提高 filter 内核的性能
- ARROW-9534 - [Rust] [DataFusion] 实现为所有类型创建字面量表达式的函数
- ARROW-9550 - [Rust] [DataFusion] 从哈希聚合运算符中移除 Rc<RefCell<_>>
- ARROW-9553 - [Rust] 发布脚本不更新 parquet crate 的 arrow 依赖版本
- ARROW-9557 - [R] 在 R 中迭代 parquet 列很慢
- ARROW-9559 - [Rust] [DataFusion] 恢复 exprlist_to_fields 的私有化
- ARROW-9563 - [Dev][Release] 为网站创建发布说明时使用 archery 的变更日志生成器
- ARROW-9568 - [CI] 在 GHA 上使用官方 msys action
- ARROW-9576 - [Python][Doc] 修复扩展类型代码示例中的错误
- ARROW-9580 - [JS] 文档中有多余的 ()
- ARROW-9581 - [Dev][Release] 将下一个快照版本提升到 2.0.0
- ARROW-9582 - [Rust] 实现 Array::memory_size()
- ARROW-9585 - [Rust] 移除 DataFusion readme 中重复的待办事项行
- ARROW-9587 - [FlightRPC][Java] 清理 DoPut/FlightStream 内存处理
- ARROW-9593 - [Python] 为 DictionaryScalar 添加自定义 pickle reducers
- ARROW-9604 - [C++] 为聚合 min/max 计算内核添加基准测试
- ARROW-9605 - [C++] 优化聚合 min/max 计算内核的性能
- ARROW-9607 - [C++][Gandiva] 为整数添加 bitwise_and()、bitwise_or() 和 bitwise_not() 函数
- ARROW-9608 - [Rust] 从 parquet 的特性门控中移除 arrow flight
- ARROW-9615 - [Rust] 添加计算字符串数组长度的内核
- ARROW-9617 - [Rust] [DataFusion] 添加字符串数组的长度
- ARROW-9618 - [Rust] [DataFusion] 使编写优化器更容易
- ARROW-9619 - [Rust] [DataFusion] 添加谓词下推
- ARROW-9632 - [Rust] 为 ExecutionContextSchemaProvider 添加 "new" 方法
- ARROW-9638 - [C++][Compute] 实现 mode(最频繁数) 内核
- ARROW-9639 - [Ruby] 添加依赖版本检查
- ARROW-9640 - [C++][Gandiva] 实现整数和长整数的 round()
- ARROW-9641 - [C++][Gandiva] 实现浮点数和双精度浮点数的 round()
- ARROW-9645 - [Python] 弃用旧的 pyarrow.filesystem 接口
- ARROW-9646 - [C++][Dataset] 添加对写入 parquet 数据集的支持
- ARROW-9650 - [Packaging][APT] 放弃对 Ubuntu 19.10 的支持
- ARROW-9654 - [Rust][DataFusion] 向 datafusion CLI 添加 EXPLAIN 命令
- ARROW-9656 - [Rust][DataFusion] 向 CREATE EXTERNAL TABLE 提供不支持的类型时,错误消息有些令人困惑
- ARROW-9658 - [Python][Dataset] 数据集写入的绑定
- ARROW-9665 - [R] Datasets 的 head/tail/take
- ARROW-9667 - [CI][Crossbow] 2 个每夜 R 构建中出现段错误
- ARROW-9671 - [C++] BasicDecimal128 构造函数将最高位为 1 的 uint64_t 整数解释为负数
- ARROW-9673 - [Rust] 为 DFParser::parse_sql 添加 "dialect" 参数
- ARROW-9678 - [Rust] [DataFusion] 改进投影下推以移除未使用的列
- ARROW-9679 - [Rust] [DataFusion] HashAggregate 在构建最终批次时多次遍历 map
- ARROW-9681 - [Java] 在大端平台上 Arrow Memory - Core 失败
- ARROW-9683 - [Rust][DataFusion] 为 ExecutionPlan trait 实现 Debug
- ARROW-9691 - [Rust] [DataFusion] 将 sql_statement_to_plan 公开
- ARROW-9695 - [Rust][DataFusion] 改进 LogicalPlan 变体的文档
- ARROW-9699 - [C++][Compute] 提高小整数类型的 mode 内核性能
- ARROW-9701 - [Java][CI] 在 s390x 上添加一个测试作业
- ARROW-9702 - [C++] 将 bpacking simd 移动到运行时路径
- ARROW-9703 - [Developer][Archery] 用于创建维护分支的可重启的 cherry-picking 过程
- ARROW-9706 - [Java] TestLargeListVector 中的测试在大端平台上失败
- ARROW-9710 - [C++] 泛化 Decimal ToString 为 Decimal256 做准备
- ARROW-9711 - [Rust] 添加基于 TPC-H 的基准测试
- ARROW-9713 - [Rust][DataFusion] 移除显式 panic
- ARROW-9715 - [R] 1.0.1 的变更日志/文档更新
- ARROW-9718 - [Python] 使 pyarrow.parquet 与新的文件系统接口兼容
- ARROW-9721 - [Packaging][Python] 更新 wheel 依赖文件
- ARROW-9722 - [Rust]:缩短字典数组反向查找的键生命周期
- ARROW-9723 - [C++] "mode" 内核与 NaN 的预期行为?
- ARROW-9725 - [Rust] [DataFusion] LimitExec 和 SortExec 应使用 MergeExec
- ARROW-9737 - [C++][Gandiva] 为整数添加 bitwise_xor()
- ARROW-9739 - [CI][Ruby] 不安装 gem 文档
- ARROW-9742 - [Rust] 创建一个标准的 DataFrame API
- ARROW-9751 - [Rust] [DataFusion] 扩展 UDF 以接受每个参数的多个类型
- ARROW-9752 - [Rust] [DataFusion] 添加对聚合 UDF 的支持
- ARROW-9753 - [Rust] [DataFusion] 从 ExecutionPlan trait 中移除 Mutex 的使用
- ARROW-9754 - [Rust] [DataFusion] 在 DataFusion trait 中实现 async
- ARROW-9757 - [Rust] [DataFusion] 使用 "pub use" 暴露一个干净的公共 API
- ARROW-9758 - [Rust] [DataFusion] 实现 DataFusion 的扩展 API
- ARROW-9759 - [Rust] [DataFusion] 实现 DataFrame::sort
- ARROW-9760 - [Rust] [DataFusion] 实现 DataFrame::explain
- ARROW-9761 - [C++] 将实验性的基于拉取的迭代器结构添加到 C 接口实现中
- ARROW-9762 - [Rust] [DataFusion] ExecutionContext::sql 应返回 DataFrame
- ARROW-9769 - [Python] 移除 test_move_file 中内存中 fsspec 的跳过
- ARROW-9775 - [C++] 自动 S3 区域选择
- ARROW-9781 - [C++] 修复未初始化值警告
- ARROW-9782 - [C++][Dataset] 能够使用 IpcFileFormat 写入 ".feather" 文件
- ARROW-9784 - [Rust] [DataFusion] 改进运行 tpch 基准测试的说明
- ARROW-9786 - [R] 发布前取消 cpp11 的 vendoring
- ARROW-9788 - 处理 SQL、DataFrame API 和 struct 名称之间的命名不一致问题
- ARROW-9792 - [Rust] [DataFusion] 逻辑聚合函数不应返回 Result
- ARROW-9794 - [C++] 添加功能到 cpu_info 以区分 Intel 和 AMD x86
- ARROW-9795 - [C++][Gandiva] 在 Gandiva 中实现 castTIMESTAMP(int64)
- ARROW-9806 - [R] 更多计算内核绑定
- ARROW-9807 - [R] 1.0.1 后的新闻更新/版本提升
- ARROW-9808 - [Python] parquet.read_table docstring 中 use_legacy_dataset 的解释错误
- ARROW-9811 - [C++] 未经检查的浮点数除以 0 应该成功
- ARROW-9813 - [C++] 禁用语义插入
- ARROW-9819 - [C++] 将 mimalloc 升级到 1.6.4
- ARROW-9821 - [Rust][DataFusion] 用户定义的 PlanNode / Operator API
- ARROW-9821 - [Rust][DataFusion] 用户定义的 PlanNode / Operator API
- ARROW-9823 - [CI][C++][MinGW] 启用 S3
- ARROW-9832 - [Rust] [DataFusion] 重构 PhysicalPlan 以移除 Partition
- ARROW-9833 - [Rust] [DataFusion] 重构 TableProvider.scan 以返回 ExecutionPlan
- ARROW-9834 - [Rust] [DataFusion] 移除 Partition trait
- ARROW-9835 - [Rust] [DataFusion] 移除 FunctionMeta
- ARROW-9836 - [Rust] [DataFusion] 改进 UDF 使用的 API
- ARROW-9837 - [Rust] 添加变量提供者
- ARROW-9838 - [Rust] [DataFusion] DefaultPhysicalPlanner 应插入显式的 MergeExec 节点
- ARROW-9839 - [Rust] [DataFusion] 添加将 ExecutionPlan 向下转型为特定运算符的能力
- ARROW-9841 - [Rust] 更新已检入的 flatbuffer 文件
- ARROW-9844 - [Go][CI] 在 s390x 上为 Go 添加 Travis CI 作业
- ARROW-9845 - [Rust] [Parquet] serde_json 仅在测试中使用,但不在 dev-dependencies 中
- ARROW-9848 - [Rust] 实现更改以确保 flatbuffer 对齐
- ARROW-9849 - [Rust] [DataFusion] 使 UDF 不需要 Field
- ARROW-9850 - [Go] Defer 不应在循环中使用
- ARROW-9853 - [RUST] 为字典数组实现 "take" 内核
- ARROW-9854 - [R] 支持从 S3 读取/写入数据
- ARROW-9858 - [C++][Python][Docs] 扩展 FileSystem 的用户指南
- ARROW-9863 - [C++] [PARQUET] 优化 ApplicationVersion 的元数据恢复
- ARROW-9867 - [C++][Dataset] FileSystemDataset 应公开其文件系统
- ARROW-9868 - [C++] 提供用于在文件系统之间复制文件的实用程序
- ARROW-9869 - [R] 实现完整的 S3FileSystem/S3Options 构造函数
- ARROW-9870 - [R] 文件系统(S3)的友好接口
- ARROW-9871 - [C++] 为 ARROW_USER_SIMD_LEVEL 添加大写支持。
- ARROW-9873 - [C++][Compute] 改进有限值范围内的整数的 mode 内核
- ARROW-9875 - [Python] 让 FileSystem.get_file_info 接受单个路径
- ARROW-9884 - [R] 将数据集写入 Parquet 的绑定
- ARROW-9885 - [Rust] [DataFusion] 简化二元类型的类型强制代码
- ARROW-9886 - [Rust] [DataFusion] 简化测试 cast 的代码
- ARROW-9887 - [Rust] [DataFusion] 添加对内置函数复杂返回类型的支持
- ARROW-9890 - [R] 在 macOS 构建中添加 zstandard 压缩编解码器
- ARROW-9891 - [Rust] [DataFusion] 使数学函数支持 f32
- ARROW-9892 - [Rust] [DataFusion] 添加对 concat 的支持
- ARROW-9893 - [Python] 将数据集写入 Parquet 的绑定
- ARROW-9895 - [RUST] 改进排序内核
- ARROW-9899 - [Rust] [DataFusion] 从 Box<Schema> 切换到 SchemaRef (Arc<Schema>) 以与 Arrow 的其余部分保持一致
- ARROW-9900 - [Rust][DataFusion] 在 LogicalPlan 中使用 Arc<> 代替 Box<>
- ARROW-9901 - [C++] 为嵌套读取添加手工制作的 Parquet 到 Arrow 重构测试
- ARROW-9902 - [Rust] [DataFusion] 添加对 array() 的支持
- ARROW-9904 - [C++] 手动展开 CountSetBits 的循环
- ARROW-9908 - [Rust] 在 JSON 读取器中支持时间数据类型
- ARROW-9910 - [Rust] [DataFusion] Variadic 的类型强制错误
- ARROW-9914 - [Rust][DataFusion] 记录 SQL -> Arrow 类型映射
- ARROW-9916 - [RUST] 在多个地方避免克隆 ArrayData
- ARROW-9917 - [Python][Compute] 添加 mode 内核的绑定
- ARROW-9919 - [Rust] [DataFusion] 数学函数
- ARROW-9921 - [Rust] 向 [Large]StringArray 添加 `from(Vec<Option<&str>>)`
- ARROW-9925 - [GLib] 为 GArrowListArray 系列添加低级值读取器
- ARROW-9926 - [GLib] 为 GArrowRecordBatchFileReader 使用 placement new
- ARROW-9928 - [C++] 稍微加快整数解析速度
- ARROW-9929 - [Developer] 自动调整 cmake-format
- ARROW-9933 - [Developer] 将 drone 添加为 crossbow 的 CI 提供者
- ARROW-9934 - [Rust] 张量中的形状和步长检查
- ARROW-9941 - [Python] 更好的扩展类型字符串表示
- ARROW-9944 - [Rust] 实现 TO_TIMESTAMP 函数
- ARROW-9949 - [C++] 泛化 Decimal128::FromString 以在 Decimal256 中重用
- ARROW-9950 - [Rust] [DataFusion] 允许在没有注册表的情况下使用 UDF
- ARROW-9952 - [Python] 为 pq.write_to_dataset 使用 pyarrow.dataset 写入
- ARROW-9954 - [Rust] [DataFusion] 简化聚合规划的代码
- ARROW-9956 - [C++][Gandiva] 在 Gandiva 中实现二进制字符串函数
- ARROW-9957 - [Rust] 移除未维护的 tempdir 依赖
- ARROW-9961 - [Rust][DataFusion] to_timestamp 函数将没有时区偏移的时间戳解析为 UTC 而不是本地时间
- ARROW-9964 - [C++] CSV 日期支持
- ARROW-9965 - [Java] 对于固定宽度向量,缓冲区容量计算缓慢
- ARROW-9966 - [Rust] 加快聚合内核
- ARROW-9967 - [Python] 添加计算模块文档
- ARROW-9971 - [Rust] 加快 take
- ARROW-9977 - [Rust] 为 [Large]String 添加 min/max
- ARROW-9979 - [Rust] 修复 arrow crate 的 clippy lints
- ARROW-9980 - [Rust] 修复 parquet crate 的 clippy lints
- ARROW-9981 - [Rust] 允许使用 IpcWriteOptions 配置 flight IPC
- ARROW-9983 - [C++][Dataset][Python] 为 Datasets API 使用比 32K 更大的默认批处理大小
- ARROW-9984 - [Rust] [DataFusion] DRY 函数到字符串的转换
- ARROW-9986 - [Rust][DataFusion] 当没有时区时,TO_TIMESTAMP 函数错误地要求小数秒
- ARROW-9987 - [Rust] [DataFusion] 改进 `Expr` 的文档。
- ARROW-9988 - [Rust] [DataFusion] 将 std::ops 添加到逻辑表达式
- ARROW-9992 - [C++][Python] 基于可重用转换 API 重构 python 到 arrow 的转换
- ARROW-9998 - [Python] 支持 DictionaryScalar 的 pickle
- ARROW-9999 - [Python] 支持通过 pa.array() 直接构造字典数组
- ARROW-10000 - [C++][Python] 支持从键值对列表构造 StructArray
- ARROW-10001 - [Rust] [DataFusion] 在 README 中添加开发者指南
- ARROW-10010 - [Rust] 加快算术运算
- ARROW-10015 - [Rust] 为聚合内核 sum 实现 SIMD
- ARROW-10016 - [Rust] [DataFusion] 实现 IsNull 和 IsNotNull
- ARROW-10018 - [CI] 禁用 Sphinx 和 API 文档构建,因为它在 master 上需要 6 小时
- ARROW-10019 - [Rust] 添加 substring 内核
- ARROW-10023 - [Gandiva][C++] 在 gandiva 中实现 Split part 函数
- ARROW-10024 - [C++][Parquet] 创建嵌套读取基准测试
- ARROW-10028 - [Rust] 简化宏 def_numeric_from_vec
- ARROW-10030 - [Rust] 支持 fromIter 和 toIter
- ARROW-10035 - [C++] 提升 vendored 代码的版本
- ARROW-10037 - [C++] 强制 find AWS SDK 查找共享库的解决方法
- ARROW-10040 - [Rust] 创建一种切分未对齐偏移缓冲区的方法
- ARROW-10043 - [Rust] [DataFusion] 通过部分实现 COUNT(DISTINCT) 引入对 DISTINCT 的支持
- ARROW-10044 - [Rust] 改进 README
- ARROW-10046 - [Rust] [DataFusion] 使 `*Iterator` 实现 Iterator
- ARROW-10050 - [C++][Gandiva] 在 Gandiva 中实现最多 10 个参数的 concat()
- ARROW-10051 - [C++][Compute] 使聚合内核合并状态可变
- ARROW-10054 - [Python] 切片方法应返回空数组而不是崩溃
- ARROW-10055 - [Rust] 为 NullableIter 实现 DoubleEndedIterator
- ARROW-10057 - [C++] 为嵌套数据添加 Parquet-Arrow 往返测试
- ARROW-10058 - [C++] 研究没有 BMI2 的 LevelsToBitmap 的性能
- ARROW-10059 - [R][Doc] 提供更多关于如何设置 C++ 构建的建议
- ARROW-10063 - [Archery][CI] 仅当是 pull request 时才在 archery 构建中获取 main 分支
- ARROW-10064 - [C++] 解决 Apple Clang 12 上的编译警告
- ARROW-10065 - [Rust] DRY 向下转型的数组
- ARROW-10066 - [C++] 确保默认的 AWS 区域被遵守
- ARROW-10068 - [C++] 为 aws-sdk-cpp 添加捆绑的外部项目
- ARROW-10069 - [Java] 支持从命令行运行 Java 基准测试
- ARROW-10070 - [C++][Compute] 实现 stdev 聚合内核
- ARROW-10071 - [R] 使用来自先前会话或已保存的 ArrowObject 时出现段错误
- ARROW-10074 - [C++] 不要使用 string_view.to_string()
- ARROW-10075 - [C++] 不要使用 nonstd::nullopt,这会破坏我们的 vendoring 抽象
- ARROW-10076 - [C++] 为所有尚未使用 TemporaryDir 的测试使用它
- ARROW-10077 - [C++] bit_stream_utils.h 中的乘法存在潜在溢出
- ARROW-10083 - [C++] 改进 Parquet 模糊测试的种子语料库
- ARROW-10084 - [Rust] [DataFusion] 添加 large string 数组的长度
- ARROW-10086 - [Rust] 将 min_large_string 迁移到 min_string 内核
- ARROW-10090 - [C++][Compute] 改进 mode 内核
- ARROW-10092 - [Dev][Go] 将 grpc 生成的 go 文件添加到 rat 排除列表
- ARROW-10093 - [R] 添加选择退出 int64 到 int 降级的功能
- ARROW-10095 - [Rust] [Parquet] 针对 IPC 变更进行更新
- ARROW-10096 - [Rust] [DataFusion] 移除未使用的代码
- ARROW-10099 - [C++][Dataset] 也允许整型分区块进行字典编码
- ARROW-10100 - [C++][Dataset] 能够通过给定的行组 ID 集合来读取/子集化 ParquetFileFragment
- ARROW-10102 - [C++] 泛化 BasicDecimal128::operator*= 以便在 Decimal256 中重用
- ARROW-10103 - [Rust] 添加一个 Contains 内核
- ARROW-10105 - [FlightRPC] 添加客户端选项以在使用 TLS 时禁用证书验证
- ARROW-10120 - [C++][Parquet] 为2级嵌套数据创建读取基准测试
- ARROW-10127 - [Format] 更新规范以支持 256 位 Decimal 类型
- ARROW-10129 - [Rust] 在 arrow 发生变更时 Cargo build 会重新构建依赖项
- ARROW-10134 - [C++][Dataset] 添加 ParquetFileFragment::num_row_groups 属性
- ARROW-10139 - [C++] 添加对不构建测试的情况下构建 arrow_testing 的支持
- ARROW-10148 - [Rust] 向 lib.rs 添加文档
- ARROW-10151 - [Python] 添加对 MapArray 到 pandas 转换的支持
- ARROW-10155 - [Rust] [DataFusion] 向 lib.rs 添加文档
- ARROW-10156 - [Rust] 自动为 PR 添加标签
- ARROW-10157 - [Rust] 添加更多关于 take 的文档
- ARROW-10160 - [Rust] 改进 DictionaryType 的文档
- ARROW-10161 - [Rust] [DataFusion] 简化表达式测试
- ARROW-10162 - [Rust] 在美化打印中支持显示 DictionaryArrays
- ARROW-10164 - [Rust] 为 cast 内核添加对 DictionaryArray 类型的支持
- ARROW-10167 - [Rust] 在 sql.rs 中支持显示 DictionaryArrays
- ARROW-10168 - [Rust] [Parquet] 将 arrow schema 转换扩展到投影字段
-
ARROW-10171 - [Rust] [DataFusion] 添加 `ExecutionContext::from
` - ARROW-10190 - [Website] 将 Jorge 添加到 committer 列表
- ARROW-10191 - [Rust] [Parquet] 为单列批处理添加往返测试
- ARROW-10196 - [C++] 添加 Future::DeferNotOk()
- ARROW-10199 - [Rust][Parquet] 在 crates.io 发布 Parquet 以移除调试打印信息
- ARROW-10201 - [C++][CI] 在 Travis CI 的 arm64 作业中禁用 S3
- ARROW-10202 - [CI][Windows] 为 MSYS2 使用 sf.net 镜像
- ARROW-10205 - [Java][FlightRPC] 添加客户端选项以禁用服务器验证
- ARROW-10206 - [Python][C++][FlightRPC] 添加客户端选项以禁用服务器验证
- ARROW-10215 - [Rust] [DataFusion] 重命名 "Source" 类型定义
- ARROW-10217 - [CI] 运行更少的 GitHub Actions 作业
- ARROW-10225 - [Rust] [Parquet] 修复往返测试中的空值位图比较
- ARROW-10227 - [Ruby] 使用表大小作为 parquet chunk_size 的默认值
- ARROW-10229 - [C++][Parquet] 移除遗留的 ARROW_LOG 语句
- ARROW-10231 - [CI] 无法在 arm32v7 docker 镜像中下载 minio
- ARROW-10233 - [Rust] 使 array_value_to_string 在所有 Arrow 构建中可用
- ARROW-10235 - [Rust][DataFusion] 改进类型强制转换的文档
- ARROW-10240 - [Rust] [Datafusion] 在运行基准查询前可选择将 tpch 数据加载到内存
- ARROW-10251 - [Rust] [DataFusion] MemTable::load() 应该并行加载分区
- ARROW-10252 - [Python] 添加选项以在 Python 安装中跳过包含 Arrow 头文件
- ARROW-10256 - [C++][Flight] 谨慎禁用 -Werror
- ARROW-10257 - [R] 为 2.0 版本发布准备新闻/文档
- ARROW-10260 - [Python] 缺失 MapType 到 Pandas dtype 的转换
- ARROW-10263 - [C++][Compute] 改进方差合并的数值稳定性
- ARROW-10265 - [CI] 当 Travis CI 上缓存不存在时使用较小的构建
- ARROW-10266 - [CI][macOS] 确保使用 Homebrew 的 Python 3.8
- ARROW-10267 - [Python] 如果 disable_server_verification 功能不可用,则跳过 flight 测试
- ARROW-10272 - [Packaging][Python] 固定较新的 multibuild 版本以避免更新 homebrew
- ARROW-10273 - [CI][Homebrew] 修复 "brew audit" 的用法
- ARROW-10287 - [C++] 尽可能避免使用 std::random_device
- ARROW-10289 - [Rust] 支持读取字典流
- ARROW-10295 - [Rust] [DataFusion] 简化累加器
- ARROW-10310 - [C++][Gandiva] 在 Gandiva 中添加单参数的 round() 函数
- PARQUET-1845 - [C++] 测试用例中的 Int96 内存镜像仅假定为小端字节序
- PARQUET-1878 - [C++] lz4 编解码器与 Hadoop Lz4Codec 不兼容
- PARQUET-1904 - [C++] 在 RowGroupMetaData 中导出 file_offset