Apache Arrow 0.17.0 (2020 年 4 月 20 日)
这是一个主要的版本,涵盖了超过 2 个月的发展。
下载
贡献者
此版本包含来自 79 位不同贡献者的 569 次提交。
$ git shortlog -sn apache-arrow-0.16.0..apache-arrow-0.17.0
80 Antoine Pitrou
78 Krisztián Szűcs
58 Wes McKinney
55 Neal Richardson
39 Sutou Kouhei
30 Benjamin Kietzman
26 Joris Van den Bossche
20 Andy Grove
13 liyafan82
11 David Li
11 François Saint-Jacques
8 Micah Kornfield
8 Projjal Chanda
7 Max Burke
7 Prudhvi Porandla
6 Kenta Murata
6 Uwe L. Korn
6 Yibo Cai
6 tianchen
5 Frank Du
5 Martin Radev
4 Rok
3 Paddy Horan
3 Takashi Hashida
3 Yosuke Shiro
3 Zhuo Peng
2 Bryan Cutler
2 David Kegley
2 Jacek Pliszka
2 Ji Kunshang
2 Jorge C. Leitao
2 Jörn Horstmann
2 Kazuaki Ishizaki
2 Markus Westerlind
2 Morgan Cassels
2 Ryan Murray
2 Sam Albers
2 Siyuan
2 Stephanie Wang
2 Yuqi Gu
2 gawain.bolton
1 Adam Hooper
1 Andreas Zimmerer
1 Bryant Biggs
1 Chao Sun
1 Dan Nugent
1 Dominik Durner
1 Eyal Farago-Hagag
1 Grant Monroe
1 Hatem Helal
1 Ismaël Mejía
1 John Muehlhausen
1 Ken Suenobu
1 Kevin Conaway
1 Li, Jiajia
1 Mahmut Bulut
1 Marius van Niekerk
1 Michael Chirico
1 NAITOH Jun
1 Neville Dipale
1 Omega Gamage
1 Onur Satici
1 Palmer Lao
1 Paul Balanca
1 Prudhvi
1 Ravindra Wagh
1 Richard Artoul
1 Sebastien Binet
1 TP Boudreau
1 Tarek Allam
1 Tobias Mayer
1 Yuan Zhou
1 Zherui Cao
1 andy-thomason
1 caleboverman
1 mubai
1 psuman
1 ravindra-wagh
1 wenjun.swj
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -csn apache-arrow-0.16.0..apache-arrow-0.17.0
128 Wes McKinney
109 Krisztián Szűcs
86 Antoine Pitrou
61 Neal Richardson
60 Sutou Kouhei
33 Benjamin Kietzman
23 Andy Grove
14 François Saint-Jacques
10 Micah Kornfield
7 Paddy Horan
7 Praveen
5 David Li
5 Sebastien Binet
3 GitHub
3 Joris Van den Bossche
3 Neville Dipale
3 Pindikura Ravindra
3 Yosuke Shiro
2 Bryan Cutler
2 Philipp Moritz
1 Brian Hulette
1 Chao Sun
更新日志
新特性和改进
- ARROW-1560 - [C++] “match” 函数的内核实现
- ARROW-1571 - [C++] 使用 O(n) 计数排序实现整数的 argsort 内核(排序索引)
- ARROW-1581 - [打包] 使 nightly wheels 可用于安装的工具
- ARROW-1582 - [Python] 设置 + 记录 macOS 的 nightly conda 构建
- ARROW-1636 - [格式] 空类型的集成测试
- ARROW-2447 - [C++] 创建设备抽象
- ARROW-3054 - [打包] 使 nightly conda 包更新到 anaconda.org 频道的一些工具
- ARROW-3410 - [C++][Dataset] 用于内存约束环境的流式 CSV 读取器接口
- ARROW-3750 - [R] 通过 reticulate 将 Python 中创建的各种包装的 Arrow 对象以零拷贝方式传递到 R 中
- ARROW-4120 - [Python] 定义用于检查是否存在宏级别内存泄漏的测试过程
- ARROW-4226 - [格式][C++] 添加 CSF 稀疏张量支持
- ARROW-4304 - [Rust] 增强 arrow 的文档
- ARROW-4428 - [R] R 构建的功能标志
- ARROW-4482 - [网站] 添加博客存档页面
- ARROW-4815 - [Rust] [DataFusion] 添加对 SQL 投影中 * 的支持
- ARROW-5357 - [Rust] 在 Buffer 中添加容量字段
- ARROW-5405 - [文档] 将集成测试文档移动到 Sphinx 文档,添加 JavaScript 指令
- ARROW-5497 - [发布] 构建和发布 R/Java/JS 文档
- ARROW-5501 - [R] 重新组织读取/写入文件/流函数
- ARROW-5510 - [格式] 基于 Arrow IPC 文件格式的 Feather V2,具有压缩支持
- ARROW-5563 - [格式] 更新集成测试 JSON 格式文档
- ARROW-5585 - [Go] 将 arrow.TypeEquals 重命名为 arrow.TypeEqual
- ARROW-5742 - [CI] 添加每日/每周 Valgrind 构建
- ARROW-5757 - [Python] 停止支持 Python 2.7
- ARROW-590 - [集成] 为 Union 类型添加集成测试
- ARROW-5949 - [Rust] 实现 DictionaryArray
- ARROW-6165 - [集成] 使用多处理在多个 CPU 内核上运行集成测试
- ARROW-6176 - [Python] 允许继承 ExtensionArray 以附加到自定义扩展类型
- ARROW-6393 - [C++] 在 SparseTensor::Equals 中添加 EqualOptions 支持
- ARROW-6479 - [C++] 内联来自外部项目的构建日志中的错误
- ARROW-6510 - [Python][文件系统] 公开纳秒分辨率的 mtime
- ARROW-6666 - [Rust] [DataFusion] 实现字符串字面量表达式
- ARROW-6724 - [C++] 为 BufferOutputStream 添加比当前 Create 函数更简单的静态 ctor
- ARROW-6821 - [C++][Parquet] 构建时不需要 Thrift 编译器(但仍然需要库)
- ARROW-6823 - [C++][Python][R] 支持 feather 格式的元数据?
- ARROW-6837 - [C++/Python] 访问 File Footer custom_metadata
- ARROW-6841 - [C++] 升级到 LLVM 8
- ARROW-6875 - [FlightRPC] 为 ListFlights RPC / list_flights 方法实现 Criteria
- ARROW-6915 - [开发者] 不要使用合并脚本覆盖次要版本,即使提交者未指定
- ARROW-6947 - [Rust] [DataFusion] 添加对标量 UDF 的支持
- ARROW-6996 - [Python] 在 Table 上公开布尔过滤器内核
- ARROW-7044 - [发布] 为 home-brew 公式创建一个发布后脚本
- ARROW-7048 - [Java] 支持在 VectorSchemaRoot 下组合多个向量
- ARROW-7063 - [C++] Schema 打印方法打印的元数据太多
- ARROW-7073 - [Java] 支持在批处理中连接向量值
- ARROW-7080 - [Python][Parquet][C++] 在 Schema 对象中公开 parquet field_id
- ARROW-7091 - [C++] 将所有工厂移动到 type_fwd.h
- ARROW-7119 - [C++][CI] 使用 scripts/util_coredump.sh 显示自动回溯
- ARROW-7201 - [GLib][Gandiva] 添加对 BooleanNode 的支持
- ARROW-7202 - [R][CI] 改进 CI 上的 rwinlib 构建以停止重新下载依赖项
- ARROW-7222 - [Python][发布] 更新网站时清除所有现有的生成的 Python API 文档
- ARROW-7233 - [C++] 添加 Result
到 IPC 模块的 API - ARROW-7256 - [C++] 删除 ARROW_MEMORY_POOL_DEFAULT 宏
- ARROW-7330 - [C++] 添加 Result
到 arrow/gpu 的 API - ARROW-7332 - [C++][Parquet] 在 PARQUET_CATCH_NOT_OK 中显式捕获状态异常
- ARROW-7336 - [C++] 实现 MinMax 选项以不跳过 null 值
- ARROW-7338 - [C++] 改进 InMemoryDataSource 以支持生成器而不是静态列表
- ARROW-7365 - [Python] 支持转换为 numpy/pandas 中的 FixedSizeList 类型
- ARROW-7400 - [Java] 避免快速排序的最坏情况
- ARROW-7412 - [C++][Dataset] 确保数据集代码对具有重复字段名称的模式具有鲁棒性
- ARROW-7419 - [Python] 支持 SparseCSCMatrix
- ARROW-7427 - [Python] 支持 SparseCSFTensor
- ARROW-7428 - [格式][C++] 添加 CSF 稀疏张量的序列化
- ARROW-7444 - [GLib] 添加 LocalFileSystem 支持
- ARROW-7462 - [C++] 添加 Arm64 架构的 CpuInfo 检测
- ARROW-7491 - [Java] 提高对齐的性能
- ARROW-7515 - [C++] 将 nonexistent 和 non_existent 重命名为 not_found
- ARROW-7524 - [C++][CI] 在 VS2019 GitHub Actions 作业中构建 parquet 支持
- ARROW-7530 - [开发者] 不要将 PR 中的提交列表包含在压缩的摘要消息中
- ARROW-7534 - [Java] 创建一个新的 java/contrib 模块
- ARROW-7547 - [C++] [Python] [Dataset] ParquetFileFormat 中的其他读取器选项
- ARROW-7587 - [C++][Compute] 添加 Top-k 内核
- ARROW-7608 - [C++][Dataset] 公开更多信息属性
- ARROW-7615 - [CI][Gandiva] 确保 gandiva_jni 库仅具有作为 Travis CI 作业一部分的白名单共享依赖项集
- ARROW-7616 - [Java] 支持比较密集联合向量的值范围
- ARROW-7625 - [GLib] Parquet GLib 和 Red Parquet (Ruby) 不允许指定压缩类型
- ARROW-7641 - [R] 使数据集 vignette 具有可执行代码
- ARROW-7662 - [R] 支持从 R 列表创建 ListArray
- ARROW-7664 - [C++] 从 FileSystemFromUri 提取 localfs 默认值
- ARROW-7675 - [R][CI] 将 Windows CI 从 Appveyor 迁移到 GHA
- ARROW-7679 - [R] 创建 UnionDataset 的更简洁接口
- ARROW-7684 - [Rust] 为 DataFusion 提供 Flight 服务器示例
- ARROW-7685 - [开发者] 添加对 GitHub Actions 到 Crossbow 的支持
- ARROW-7691 - [C++] 验证遍历 Flatbuffers 数据时缺失的字段
- ARROW-7708 - [发布] 在发布变更日志中包含来自 git 变更日志的 PARQUET 提交
- ARROW-7712 - [CI][Crossbow] 修复或删除 fuzzit 任务
- ARROW-7720 - [C++][Python] 向 Table.equals 添加 check_metadata 参数
- ARROW-7725 - [C++] 添加用于 unity 构建和预编译头的基础设施
- ARROW-7726 - [CI] [C++] 在 Windows GHA 构建上使用 boost 二进制文件
- ARROW-7729 - [Python][CI] 在 dask 集成测试中将 pandas 版本固定为 0.25
- ARROW-7733 - [开发者] 在本地安装一个足够新的 Go 版本,用于发布验证脚本
- ARROW-7735 - [发布] conda-forge 频道缺少用于验证 wheel 的信息
- ARROW-7736 - [发布] 二进制验证有时会因瞬时错误而失败
- ARROW-7739 - [GLib] 使用 placement new 初始化私有结构体中的 shared_ptr 对象
- ARROW-7741 - [C++][Parquet] 在 parquet 写入路径中合并新的级别生成逻辑,并带有恢复到旧逻辑的标志
- ARROW-7742 - [GLib] 添加对 MapArray 的支持
- ARROW-7745 - [文档] [C++] 更新 Parquet 文档
- ARROW-7749 - [C++] 将更多测试链接在一起
- ARROW-7750 - [发布] 使源发布验证脚本可重启
- ARROW-7751 - [发布] macOS wheel 验证也需要 arrow-testing
- ARROW-7752 - [发布] 在验证脚本中启用和测试数据集
- ARROW-7754 - [C++] Result
速度慢 - ARROW-7761 - [C++] 向 fs::FileSystemFromUri 添加 S3 支持
- ARROW-7764 - [C++] 即使没有 null 值,构建器也会分配一个 null 位图缓冲区
- ARROW-7771 - [开发者] 在验证脚本中使用 ARROW_TMPDIR 环境变量而不是 TMPDIR
- ARROW-7774 - [打包][Python] 更新 macos 和 windows wheel 文件名
- ARROW-7787 - [Rust] 向 Table API 添加 collect
- ARROW-7788 - [C++] 为 map 类型添加模式转换支持
- ARROW-7790 - [网站] 更新如何安装 Linux 软件包
- ARROW-7795 - [Rust - DataFusion] 支持布尔否定 (NOT)
- ARROW-7796 - [R] write_* 函数应以不可见的方式返回其输入
- ARROW-7799 - [R][CI] 从 homebrew 公式中移除 flatbuffers
- ARROW-7804 - [C++][R] macOS 10.11 上的编译错误
- ARROW-7812 - [打包][Python] 升级 manylinux1 docker 镜像中的 LLVM
- ARROW-7817 - [CI] macOS R autobrew nightly 在从源代码安装依赖项时失败
- ARROW-7819 - [C++][Gandiva] 向 Filter/Projector 类添加 DumpIR
- ARROW-7824 - [C++][Dataset] 提供将 Dataset 写入 IPC 格式
- ARROW-7828 - [发布] 删除内部使用的 SSH 密钥
- ARROW-7829 - [R] 在 clang 上测试 R 绑定
- ARROW-7833 - [R] 使 install_arrow() 实际安装 arrow
- ARROW-7834 - [发布] 用于更新文档的发布后任务
- ARROW-7839 - [Python][Dataset] 将 IPC 格式添加到 python 绑定
- ARROW-7846 - [Python][Dev] 移除对 six 的最后依赖
- ARROW-7849 - [打包][Python] 从 nightlies 中移除剩余的 py27 crossbow wheel 任务
- ARROW-7858 - [C++][Python] 支持将 Extension 类型强制转换为其存储类型
- ARROW-7859 - [R] CRAN 提交 0.16.0.2 的小补丁
- ARROW-7862 - [R] 默认情况下,Linux 安装应该更安静
- ARROW-7863 - [C++][Python][CI] 确保运行 HDFS 相关测试
- ARROW-7864 - [R] 即使存在系统包,也要确保捆绑安装有效
- ARROW-7865 - [R] 在最新的 Linux 版本上测试构建
- ARROW-7868 - [Crossbow] 降低 GitHub API 查询并行性
- ARROW-7869 - [Python] Boost::system 和 boost::filesystem 在 Python wheels 中不再必要
- ARROW-7872 - [Python] 支持在 Array/Table.to_pandas 中转换列表结构
- ARROW-7874 - [Python][Archery] 使用 numpydoc 验证文档字符串
- ARROW-7876 - [R] 安装在文档生成镜像中失败
- ARROW-7877 - [打包] 修复 crossbow 部署到 github 工件
- ARROW-7879 - [C++][Doc] 为 Device API 添加文档
- ARROW-7880 - [CI][R] R sanitizer 任务并没有真正工作
- ARROW-7881 - [C++] 修复迂腐的警告
- ARROW-7882 - [C++][Gandiva] 优化子字符串模式的 like 函数
- ARROW-7886 - [C++][Dataset] 合并 Source 和 Dataset
- ARROW-7888 - [Python] 允许在 pyarrow.jvm 中使用更新版本的 jpype
- ARROW-7890 - [C++] 添加 Promise / Future 实现
- ARROW-7891 - [C++] RecordBatch->Equals 也应该有一个 check_metadata 参数
- ARROW-7892 - [Python] 公开 FilesystemSource.format 属性
- ARROW-7895 - [Python] 移除更多 python 2.7 的遗留代码
- ARROW-7896 - [C++] 将 #include guards 重构为 #pragma once
- ARROW-7897 - [打包] 暂时禁用工件上传,直到我们修复部署问题
- ARROW-7898 - [Python] 使用 numpydoc 减少 docstring 违规的数量
- ARROW-7904 - [C++] 确定 Field/Schema 元数据打印参数,以及默认显示多少信息
- ARROW-7907 - [Python] 将带有时间戳类型的空表转换为 pandas 会中止
- ARROW-7912 - [Format] C 数据接口
- ARROW-7913 - [C++][Python][R] C 数据接口的 C++ 实现
- ARROW-7915 - [CI] [Python] 在启用 Python 开发模式的情况下运行测试
- ARROW-7916 - [C++][Dataset] 将 IPC record batches 投影到物化字段
- ARROW-7917 - [CMake] FindPythonInterp 应该检查 python3
- ARROW-7919 - [R] 如果合适,install_arrow() 应该使用 conda 安装
- ARROW-7920 - [R] 填写一些缺失的输入验证
- ARROW-7921 - [Go] 向各种组件添加 Reset 方法并清理注释
- ARROW-7927 - [C++] 修复 ‘cpu_info.cc’ 编译警告
- ARROW-7929 - [C++] CMake 目标名称与上游提供的名称不同
- ARROW-7930 - [Python][CI] 在 CI 中测试 jpype 集成
- ARROW-7932 - [Rust] [Parquet] 实现时间类型的数组读取器
- ARROW-7934 - [C++] 修复空字符串的 UriEscape
- ARROW-7935 - [Java] 删除 BufferAllocator 和 ReferenceManager 的 Netty 依赖
- ARROW-7937 - [Python][打包] 从 macos wheels 中删除 boost
- ARROW-7941 - [Rust] [DataFusion] 逻辑计划应支持未解析的列引用
- ARROW-7943 - [C++][Parquet] 添加一个新的级别构建器,能够处理嵌套数据
- ARROW-7947 - [Rust] [Flight] [DataFusion] 实现 get_schema 的示例
- ARROW-7949 - [开发者] 更新 ‘.gitignore’ 以不跟踪用户特定的 ‘cpp/Brewfile.lock.json’ 文件
- ARROW-7951 - [Python][Parquet] 将 BYTE_STREAM_SPLIT 公开给 pyarrow
- ARROW-7959 - [Ruby] 再次添加对 Ruby 2.3 的支持
- ARROW-7963 - [C++][Python][Dataset] 公开列表片段
- ARROW-7965 - [Python] 优化更高级别的数据集 API
- ARROW-7966 - [Integration][Flight][C++] 客户端应独立验证每个批次
- ARROW-7969 - [打包] 使用 cURL 上传工件
- ARROW-7970 - [打包][Python] 使用系统 boost 构建 macos wheels
- ARROW-7971 - [Rust] 创建 rowcount 实用程序
- ARROW-7977 - [C++] 将 fs::FileStats 重命名为 fs::FileInfo
- ARROW-7979 - [C++] 在 IPC 消息中实现实验性缓冲区压缩
- ARROW-7982 - [C++] 让 ArrayDataVisitor 接受 void 返回函数
- ARROW-7983 - [CI][R] Nightly 构建失败时应更详细
- ARROW-7984 - [R] 在更多地方检查有效输入
- ARROW-7986 - [Python] pa.Array.from_pandas 无法转换包含 pyspark.ml.linalg.SparseVector 的 pandas.Series
- ARROW-7987 - [CI][R] 修复详细的 nightly 构建
- ARROW-7988 - [R] 修复 reticulate 绑定中的 on.exit 调用
- ARROW-7991 - [C++][Plasma] 允许在创建对象时选择是否在满时驱逐
- ARROW-7993 - [Java] 支持 ComplexCopier 中的 decimal 类型
- ARROW-7994 - [CI][C++] 将 AppVeyor MinGW 构建迁移到 GitHub Actions
- ARROW-7995 - [C++] IO:合并和缓存读取范围
- ARROW-7998 - [C++][Plasma] 使Seal请求同步
- ARROW-8005 - [网站] 审查和调整网站/工具中Apache dist系统的任何用法
- ARROW-8014 - [C++] 提供CMake targets仅在给定标签内进行测试
- ARROW-8016 - [开发者] 修复PR合并工具中的弃用警告
- ARROW-8018 - [C++][Parquet]Parquet 模块化加密
- ARROW-8024 - [R] BinaryType和FixedBinaryType的绑定
- ARROW-8026 - [Python] 除了字符串值类型外,还支持memoryview来构造字符串和二进制类型数组
- ARROW-8027 - [开发者][集成] 为重复的字段名称添加集成测试
- ARROW-8028 - [Go] 允许在模式和嵌套类型中使用重复的字段名称
- ARROW-8030 - [C++][Plasma] 修复不一致的注释风格
- ARROW-8039 - [Python][Dataset] 支持在pyarrow.parquet中使用数据集API以及最小的ParquetDataset shim
- ARROW-8044 - [CI][NIGHTLY:gandiva-jar-osx] pygit2需要libgit2 v1.0.x
- ARROW-8055 - [GLib][Ruby] 为GArrowSchema添加一些元数据绑定
- ARROW-8058 - [C++][Python][Dataset] 提供一个选项来切换FileSystemDatasetFactoryOptions中的验证和模式推断
- ARROW-8059 - [Python] 使FileSystem对象可序列化
- ARROW-8060 - [Python] 使数据集Expression对象可序列化
- ARROW-8061 - [C++][Dataset] 指定ParquetFileFragment粒度的能力(支持行组)
- ARROW-8063 - [Python] 为数据集API添加用户指南文档
- ARROW-8064 - [Dev] 通过Github actions实现评论机器人
- ARROW-8072 - [C++][Plasma] 解析数据时添加const约束
- ARROW-8077 - [Python] 为Python 3.5上的Windows添加wheel构建脚本和Crossbow配置
- ARROW-8079 - [Python] 实现KeyValueMetadata的包装器,在相关的地方进行duck-typing dict
- ARROW-8080 - [C++] 添加AVX512构建选项
- ARROW-8082 - [Java][Plasma] 添加JNI list()接口
- ARROW-8083 - [GLib] 为GIOInputStream添加Peek()支持
- ARROW-8086 - [Java] 支持在UnionListWriter中从大端字节数组写入decimal
- ARROW-8087 - [C++][Dataset] HivePartitioning的键的顺序在结果模式中丢失
- ARROW-8096 - [C++][Gandiva] 创建Interval类型的空节点
- ARROW-8097 - [Dev] 评论机器人的crossbow命令作用于master分支
- ARROW-8103 - [R] 使默认Linux构建更加精简
- ARROW-8104 - [C++] 不要安装捆绑的Thrift
- ARROW-8107 - [Packaging][APT] 将HTTPS用于Debian GNU/Linux stretch的LLVM APT存储库
- ARROW-8109 - [Packaging][APT] 删除对Ubuntu Disco的支持
- ARROW-8117 - [Rust] [Datafusion] 允许从数字CAST到时间戳
- ARROW-8118 - [R] FileSystemDataset的dim方法
- ARROW-8120 - [Packaging][APT] 添加对Ubuntu Focal的支持
- ARROW-8123 - [Rust] [DataFusion] 创建LogicalPlanBuilder
- ARROW-8124 - [Rust] 更新库依赖
- ARROW-8126 - [C++][Compute] 添加Top-K内核基准
- ARROW-8129 - [C++][Compute] 改进比较排序内核
- ARROW-8130 - [C++][Gandiva] 修复llvm_generator中处理interval类型的Dex visitor
- ARROW-8140 - [开发者] 遵循NullType -> NullField 更改
- ARROW-8141 - [C++] 使用AVX512 Intrinsics API优化BM_PlainDecodingBoolean性能
- ARROW-8145 - [C++] 重命名GetTargetInfos
- ARROW-8146 - [C++] 添加每个文件系统的工具来清理路径
- ARROW-8150 - [Rust] 允许写入自定义FileMetaData k/v 对
- ARROW-8151 - [基准测试][Dataset] 使用S3File对Parquet读取性能进行基准测试
- ARROW-8153 - [打包] 更新conda feedstock文件并将工件上传到Anaconda
- ARROW-8158 - [Java] 获取数据缓冲区和基本可变宽度向量的长度
- ARROW-8164 - [C++][Dataset] 允许数据集与非相同的模式一起查看
- ARROW-8165 - [Packaging] 使nightly wheels在PyPI服务器上可用
- ARROW-8167 - [CI] 添加对在pull request标题中使用skip pattern跳过构建的支持
- ARROW-8168 - [Java][Plasma] 改善Java Plasma客户端的堆外内存使用
- ARROW-8177 - [Rust] 使schema_to_fb_offset public
- ARROW-8178 - [C++] 升级到Flatbuffers 1.12
- ARROW-8179 - [R] 在GHA上进行nightly packaging的Windows构建脚本调整
- ARROW-8181 - [Java][FlightRPC] 公开传输错误元数据
- ARROW-8182 - [Packaging] 递增从最新的git标签检测到的版本号
- ARROW-8183 - [c++][FlightRPC] 公开传输错误元数据
- ARROW-8184 - [Packaging] 在Anaconda和Gemfury上使用arrow-nightlies组织名称来托管nightlies
- ARROW-8185 - [Packaging] 文档化可用的nightly wheels和conda packages
- ARROW-8187 - [R] 使测试断言对i18n具有鲁棒性
- ARROW-8191 - [Packaging][APT] 修复Debian GNU/Linux Stretch中的cmake删除
- ARROW-8192 - [C++] 用于解包avx512 intrinsics代码的脚本
- ARROW-8194 - [CI] Github Actions Windows job应该并行运行测试
- ARROW-8195 - [CI] 删除Github Actions中的Boost下载步骤
- ARROW-8198 - [C++] Diffing应该处理空数组
- ARROW-8200 - [GLib] 将garrow_file_system_target_info{,s}()重命名为…_file_info{,s}()
- ARROW-8203 - [C#] “dotnet pack” 失败
- ARROW-8204 - [Rust] [DataFusion] 添加对SQL中别名表达式的支持
- ARROW-8207 - [Packaging][wheel] 在manylinux2010和manylinux2014中使用LLVM 8
- ARROW-8215 - [CI][GLib] Meson安装在macOS构建中失败
- ARROW-8218 - [C++] 在实验性IPC压缩代码中,在字段级别并行解压缩
- ARROW-8220 - [Python] 使数据集FileFormat对象可序列化
- ARROW-8222 - [C++] 使用bcp为捆绑构建创建一个精简的boost
- ARROW-8224 - [C++] 删除0.16.0之前已弃用的API
- ARROW-8225 - [Rust] IPC读取器必须遵守延续标记
- ARROW-8227 - [C++] 改进SIMD特性定义
- ARROW-8231 - [Rust] 将来自parquet FileMetaData的key_value_metadata解析为arrow schema metadata
- ARROW-8232 - [Python] 弃用pa.open_file和pa.open_stream,建议使用pa.ipc.open_file/open_stream
- ARROW-8241 - [Rust] 向Schema添加便捷方法
- ARROW-8242 - [C++] Flight无法在GCC 4.8上编译
- ARROW-8243 - [Rust] [DataFusion] 修复LogicalPlanBuilder中不一致的API
- ARROW-8244 - [Python][Parquet] 添加`write_to_dataset`选项以填充“file_path”元数据字段
- ARROW-8246 - [C++] 使用MinGW编译时添加 -Wa,-mbig-obj 以避免链接错误
- ARROW-8247 - [Python] 在pyarrow.parquet.write_table中公开Parquet写入“engine”设置
- ARROW-8249 - [Rust] [DataFusion] 使Table和LogicalPlanBuilder API更加一致
- ARROW-8252 - [CI][Ruby] 添加Ubuntu 20.04
- ARROW-8256 - [Rust] [DataFusion] 更新0.17.0版本的CLI文档
- ARROW-8264 - [Rust] [DataFusion] 创建用于打印记录批次的实用程序
- ARROW-8266 - [C++] 为外部项目源下载添加备份镜像
- ARROW-8267 - [CI][GLib] 无法在Ubuntu 16.04上构建
- ARROW-8271 - [Packaging] 允许wheel上传到gemfury失败
- ARROW-8275 - [Python][Docs] 按照“Feather V2”更改审查Feather + IPC文件文档
- ARROW-8277 - [Python] RecordBatch 接口改进
- ARROW-8279 - [C++] 不要从编解码器实现导出符号,删除对PIMPL模式的需求
- ARROW-8288 - [Python] 在DataType上公开with_修饰符
- ARROW-8290 - [Python][Dataset] 改善FileSystemDataset构造函数的工效学
- ARROW-8291 - [Packaging] Conda nightly builds 无法定位Numpy
- ARROW-8292 - [Python][Dataset] 将模式传递给dataset()函数中的Factory.finish()
- ARROW-8294 - [Format][Flight] 向Flight协议添加DoExchange RPC
- ARROW-8295 - [C++][Dataset] IpcFileFormat 应该显式地向下推送列投影
- ARROW-8299 - [C++] 可重用的 “可选 ParallelFor” 函数,用于可选的多线程使用
- ARROW-8300 - [R] 0.17 的文档和更新日志
- ARROW-8307 - [Python] 在 pyarrow.feather API 中公开 use_memory_map 选项
- ARROW-8308 - [Rust] [Flight] 在示例中实现 DoExchange
- ARROW-8309 - [CI] C++/Java/Rust 工作流应在 Flight.proto 发生更改时触发
- ARROW-8311 - [C++] 添加推送式流格式读取器
- ARROW-8316 - [CI] 设置 docker-compose 使用 docker-cli 而不是 docker-py 来构建镜像
- ARROW-8319 - [CI] 在 debian 构建中安装 thrift 编译器
- ARROW-8320 - [文档][格式] 澄清 C 数据接口中的(缺乏)对齐要求
- ARROW-8321 - [CI] 在 Fedora 30 构建中使用捆绑的 thrift
- ARROW-8322 - [CI] 修复 C# 工作流文件语法
- ARROW-8325 - [R][CI] 停止在 R windows 包中包含 boost
- ARROW-8329 - [文档][C++] Filter 内核中未记录的 FilterOptions 参数
- ARROW-8330 - [文档] 发布后脚本使用开发版本生成文档
- ARROW-8332 - [C++] 要求 Thrift 编译器为 Parquet 构建使用系统 libthrift
- ARROW-8335 - [发布] 添加 crossbow 作业以运行发布验证
- ARROW-8336 - [打包][deb] 在 Debian 10 和 Ubuntu 19.10 或更高版本上使用 libthrift-dev
- ARROW-8341 - [打包][deb] 因磁盘空间不足而构建失败
- ARROW-8343 - [GLib] 添加 GArrowRecordBatchIterator
- ARROW-8347 - [C++] 添加 Result
到 Array 方法的 API - ARROW-8351 - [R][CI] 将 Rtools 构建的 Arrow C++ 库存储为构建工件
- ARROW-8352 - [R] 添加 install_pyarrow()
- ARROW-8356 - [开发者] 支持通过 GitHub Actions 使用 “crossbow submit” 的 * 通配符
- ARROW-8361 - [C++] 添加 Result
到 Buffer 方法和函数的 API - ARROW-8362 - [Crossbow] 确保在 docker 任务中使用本地生成的版本
- ARROW-8367 - [C++] 弃用 Buffer::FromString(…, pool)
- ARROW-8368 - [格式] 在 C 接口中,阐明仅需要 ArrowArray 中子字段子集的消费者的资源管理
- ARROW-8370 - [C++] 添加 Result
到 type / schema API - ARROW-8371 - [Crossbow] 实现和执行 tasks.yml 的健全性检查
- ARROW-8372 - [C++] 添加 Result
到 table / record batch API - ARROW-8375 - [CI][R] 在发生段错误时使 Windows 测试更加冗长
- ARROW-8376 - [R] 添加到 ScanTask/RecordBatch 迭代器的实验性接口
- ARROW-8387 - [Rust] 使 schema_to_fb 公开
- ARROW-8389 - [集成] 并行运行测试
- ARROW-8390 - [R] 公开模式统一功能
- ARROW-8393 - [C++][Gandiva] 使 gandiva 函数注册表不区分大小写
- ARROW-8396 - [Rust] 从依赖项中删除 libc
- ARROW-8398 - [Python] 删除源自 python 测试的弃用警告
- ARROW-8401 - [C++] 添加 ByteStreamSplitDecode/ByteStreamSplitEncode 的 AVX2/AVX512 版本
- ARROW-8403 - [C++] 向 ChunkedArray、Table 和 RecordBatch 添加 ToString()
- ARROW-8407 - [Rust] 为 Dictionary 类型添加 rustdoc
- ARROW-8408 - [Python] 向 pyarrow.feather.read_feather 添加 memory_map= 开关
- ARROW-8409 - [R] 添加 arrow::cpu_count, arrow::set_cpu_count 包装函数,类似于 Python
- ARROW-8412 - [C++][Gandiva] 修复 gandiva date_diff 函数定义
- ARROW-8433 - [R] 在 dataset API 中为 ipc 格式添加 feather 别名
- ARROW-8443 - [Gandiva][C++] 修复 round/truncate 为特殊情况下的无操作
- ARROW-8444 - [文档] 修复整个代码库中的拼写错误
- ARROW-8449 - [R] 到处使用 CMAKE_UNITY_BUILD
- ARROW-8450 - [集成][C++] 实现 large list/binary/utf8 集成
- ARROW-8457 - [C++] bridge test 不考虑字节序
- ARROW-8458 - [C++] 首选原始镜像用于捆绑的第三方依赖项
- ARROW-8461 - [打包][deb] 对 Ubuntu Xenial 使用 zstd 包
- ARROW-8463 - [CI] 平衡 CircleCI、Azure 和 Github 之间的夜间测试构建
- ARROW-8467 - [C++] 使用 ArrayFromJSON 的测试用例仅假定一个小的低位优先平台
- ARROW-8477 - [C++] 允许读取和写入 Windows 的长文件名
- ARROW-8496 - [C++] 细化 ByteStreamSplitDecodeScalar
- ARROW-8499 - [C++][Dataset] 在 ScannerBuilder 中,如果 projecter 不为空,batch_size 将不起作用
- ARROW-8506 - [c++] 缺少使用 RLE 中 bit_width > 8 验证 expected_buffer 的测试
- ARROW-8515 - [C++] Bitmap ToString 应该有一个按字节分组的选项
- ARROW-8517 - [开发者][发布] 更新 Crossbow RC 验证设置,以适应自 0.16.0 以来的更改
- ARROW-8523 - [C++] 优化 BitmapReader
- PARQUET-1663 - [C++] 提供 API 来检查复杂数据类型的存在
- PARQUET-1716 - [C++] 添加对 BYTE_STREAM_SPLIT 编码的支持
- PARQUET-1770 - [C++][CI] 为读取 Parquet 文件添加模糊测试目标
- PARQUET-1785 - [C++] 提高 encoding-test.cc 中的代码可重用性
- PARQUET-1786 - [C++] 使用 simd 来提高 BYTE_STREAM_SPLIT 解码性能
- PARQUET-1806 - [C++] [CI] 改善模糊测试种子语料库
- PARQUET-1825 - [C++] 修复 column_io_benchmark.cc 中的编译错误
- PARQUET-1828 - [C++] 为 ByteStreamSplit 编码器实现添加 SSE2 路径
- PARQUET-1840 - [C++] DecodeSpaced 复制的值超过了必要的量
- PARQUET-458 - [C++] 实现对 DataPageV2 的支持
Bug 修复
- ARROW-1907 - [C++/Python] Feather 格式无法容纳总计超过 2GB 数据的字符串列
- ARROW-2255 - [开发者][集成] 在集成测试 JSON 格式中序列化模式和字段级别的自定义元数据
- ARROW-2587 - [Python] 无法将具有多个子项的 StructArrays 写入 parquet
- ARROW-3004 - [文档] 为 master 而不是固定的 commit 构建文档
- ARROW-3543 - [R] 更好地支持 R 中的时间戳格式和时区
- ARROW-5265 - [Python/CI] 添加与 kartothek 的集成测试
- ARROW-5473 - [C++] 在使用 Ninja 时,googletest_ep 上的 Windows 构建失败
- ARROW-5981 - [C++] DictionaryBuilder
使用 Array 初始化可能会静默失败 - ARROW-6528 - [C++] 虚假的 Flight 测试失败(端口分配失败)
- ARROW-6738 - [Java] 修复当前联合比较逻辑的问题
- ARROW-6757 - [Python] 创建 csv.ParseOptions() 会导致使用 Visual Studio 2017 时出现 “Windows fatal exception: access violation”
- ARROW-6871 - [Java] 增强 TransferPair 相关参数检查和测试
- ARROW-6872 - [C++][Python] 具有字典列的空表会引发 ArrowNotImplementedError
- ARROW-6895 - [C++][Parquet] parquet::arrow::ColumnReader: ByteArrayDictionaryRecordReader 在调用 `NextBatch()` 时重复返回的值
- ARROW-7008 - [Python] pyarrow.chunked_array([array]) 在具有全 None 缓冲区的数组上失败
- ARROW-7049 - [C++] 在 mingw-w64 上构建时的警告
- ARROW-7301 - [Java] Sql 类型 DATE 应对应于 DateDayVector
- ARROW-7335 - [C++][Gandiva] 在 Gandiva 中添加 castBIGINT, extractDay interval_day 函数
- ARROW-7390 - [C++][Dataset] Projector::Project 中的并发竞争
- ARROW-7405 - [Java] ListVector isEmpty API 不正确
- ARROW-7466 - [CI][Java] 修复 gandiva-jar-osx 每晚构建失败的问题
- ARROW-7467 - [Java] ComplexCopier 对于 Map 可空信息复制不正确
- ARROW-7520 - [R] 写入多个批次导致崩溃
- ARROW-7546 - [Java] 使用新的实现来连接批处理中的向量值
- ARROW-7624 - [Rust] 通过 `Buffer` 方法引起的健全性问题
- ARROW-7628 - [Python] 更好地记录一些 read_csv 的极端情况
- ARROW-7631 - [C++][Gandiva] 如果将十进制数转换为较低精度/刻度时发生溢出,则返回零
- ARROW-7680 - [C++][Dataset] 分区发现不适用于 Windows 路径
- ARROW-7701 - [C++] [CI] macOS 上的 Flight 测试错误
- ARROW-7713 - [Java] TastLeak 放置在错误的位置
- ARROW-7722 - [Java][FlightRPC] 内存泄漏
- ARROW-7734 - [C++] 比较带和不带详细信息的状态时出现段错误
- ARROW-7740 - [C++] StructArray::Flatten 中的数组内部损坏
- ARROW-7755 - [Python] Windows wheel 无法在 Python 3.8 上安装
- ARROW-7758 - [Python] 错误地转换了超出 pandas 范围的时间戳(例如 0000-01-01)
- ARROW-7760 - [Release] 修复 verify-release-candidate.sh,因为 pip3 似乎不再位于 miniconda 中
- ARROW-7762 - [Python] ParquetWriter 中的异常被忽略
- ARROW-7766 - [Python][Packaging] Windows py38 wheels 使用错误的 ABI 标记构建
- ARROW-7772 - [R][C++][Dataset] 无法使用 date64 标量过滤 date32 对象
- ARROW-7775 - [Rust] 不要让安全代码任意转换 readers 和 writers
- ARROW-7777 - [Go] StructBuilder/ListBuilder 索引超出范围 panic
- ARROW-7780 - [Release] 修复 Python 3.8 中缺少 “m” ABI 标记的 Windows wheel RC 验证脚本
- ARROW-7781 - [C++][Dataset] 过滤不存在的列会产生段错误
- ARROW-7783 - [C++] ARROW_DATASET 应该启用 ARROW_COMPUTE
- ARROW-7785 - [C++] sparse_tensor.cc 编译速度非常慢
- ARROW-7786 - [R] 在 Table.Equals 方法中连接 check_metadata
- ARROW-7789 - [R] 加载 R.oo 包时无法初始化 arrow 对象
- ARROW-7791 - [C++][Parquet] 修复构建错误 “cannot bind lvalue”
- ARROW-7792 - [R] read_* 函数应该关闭与文件的连接
- ARROW-7793 - [Java] 如果存在泄漏,则基本分配器应该在抛出异常之前将多余的内存释放给父分配器
- ARROW-7794 - [Rust] 由于 Flight.proto 的相对路径,cargo publish 失败
- ARROW-7797 - [Release][Rust] 修复 datafusion crate 中的 arrow-flight 版本
- ARROW-7802 - [C++] 在哈希内核中支持 LargeBinary 和 LargeString
- ARROW-7806 - [Python] 为 LargeBinary/String 列表实现 to_pandas
- ARROW-7807 - [R] RHEL 7 上的安装无法调用 io___MemoryMappedFile__Open()
- ARROW-7809 - [R] vignette 无法在 Win 10 或 ubuntu 上运行
- ARROW-7813 - [Rust] 修复未定义的行为并移除 unsafe
- ARROW-7815 - [C++] 修复损坏的 IPC 输入造成的崩溃 (OSS-Fuzz)
- ARROW-7827 - [Python] conda-forge pyarrow 包未启用 s3
- ARROW-7832 - [R] 对 0.16.0 版本的补丁
- ARROW-7836 - [Rust] “allocate_aligned”/”reallocate” 需要初始化内存以避免 UB
- ARROW-7837 - [Java] BaseVariableWidthVector.copyFromSafe 中的错误导致索引超出范围异常
- ARROW-7838 - [C++] 安装的 plasma-store-server 无法找到 Boost
- ARROW-7841 - [C++] HADOOP_HOME 无法找到 libhdfs.so
- ARROW-7844 - [R] array_to_vector 不是线程安全的
- ARROW-7848 - 添加 MapType 的文档
- ARROW-7852 - [Python] 0.16.0 wheels 与旧版本的 numpy 不兼容
- ARROW-7857 - [Python] 使用 pandas master 进行扩展类型转换时测试失败
- ARROW-7861 - [C++][Parquet] 为 parquet reader 添加模糊回归语料库
- ARROW-7884 - [C++][Python] pq.read_table() 中的崩溃
- ARROW-7887 - [Rust] Filter kernel 不支持时态类型
- ARROW-7889 - [Rust] Datafusion CLI 不支持注册 Parquet 文件
- ARROW-7899 - [Integration][Java] 空类型集成测试
- ARROW-7908 - [R] 不设置 LIBARROW_DOWNLOAD=true 无法安装包
- ARROW-7922 - [CI][Crossbow] 每晚 macOS wheel 构建失败 (brew bundle edition)
- ARROW-7923 - [CI][Crossbow] macOS autobrew 在 homebrew-versions 上失败
- ARROW-7926 - [Developer] “archery lint” 目标不符合运行单个检查(如 IWYU)的人体工程学
- ARROW-7928 - [Python] Flight 服务器和客户端示例不起作用
- ARROW-7931 - [C++] 修复损坏的 Map 数组输入引起的崩溃 (OSS-Fuzz)
- ARROW-7936 - [Python] FileSystem.from_uri 测试在 python 3.5 上失败
- ARROW-7940 - [C++] 无法使用默认设置以外的设置生成 cmake 构建
- ARROW-7958 - [Java] 将 Avro 更新到版本 1.9.2
- ARROW-7962 - [R][Dataset] “合并 Source 和 Dataset 类” 的后续
- ARROW-7968 - [C++] orc_ep 构建在 64 位 Raspbian 上失败
- ARROW-7973 - [Developer][C++] run_cpplint.py 中的 ResourceWarnings
- ARROW-7974 - [Developer][C++] “make check-format” 中的 ResourceWarning
- ARROW-7975 - [C++] 不要在 “Buffer” IPC 元数据核算中包含填充字节
- ARROW-7978 - [Developer] GitHub Actions “lint” 任务正在运行 include-what-you-use 并且失败
- ARROW-7980 - [Python] 对于某些基于时间戳的数据帧,使用 pyarrow 进行反序列化失败
- ARROW-7981 - [C++][Dataset] 在 gcc 5.4 上编译失败
- ARROW-7985 - [C++] 如果底层 value builder 为空且已 .Reserve’d,则 ListBuilder.Finish 失败
- ARROW-7990 - [C++][Developer] 添加用于运行 “iwyu.sh all” 的 “archery lint” 选项
- ARROW-7992 - [C++] MSVC 警告导致 sort_to_indices.cc 中的 Appveyor 失败
- ARROW-7996 - [Python] 使用 pyarrow 序列化空的 pandas DataFrame 时出错
- ARROW-7997 - [Python] pyarrow 中具有不一致文档的 Schema equals 方法
- ARROW-7999 - [C++] 修复损坏的 Map 数组输入引起的崩溃 (OSS-Fuzz)
- ARROW-8000 - [C++] gcc 4.8 构建失败
- ARROW-8003 - [C++] 使用 clang 构建时,-DBZip2_SOURCE=BUNDLED 失败
- ARROW-8006 - [C++] 从 parquet 恢复的不安全 arrow 字典
- ARROW-8007 - [Python] 删除 plasma 测试中未使用且已失效的 assert_get_object_equal
- ARROW-8008 - [C++/Python] 即使不是激活的 Python,也首选 Framework Python
- ARROW-8009 - [Java] 修复 BitVector 的哈希代码方法
- ARROW-8011 - [C++] 从 Parquet 读取时,某些缓冲区未调整大小
- ARROW-8013 - [Python][Packaging] 修复 manylinux wheels
- ARROW-8021 - [Python] Appveyor 似乎未在测试运行中包含 pandas
- ARROW-8036 - [C++] 使用 gtest 1.10.0 编译失败
- ARROW-8042 - [Python] pyarrow.ChunkedArray docstring 关于没有块的零长度 ChunkedArray 的描述不正确
- ARROW-8057 - [Python] 不要在 __eq__ 和 __ne__ 中检查 Schema 元数据
- ARROW-8070 - [C++] 从列表进行不支持的强制转换会导致段错误
转换为 utf8 - ARROW-8071 - [GLib] 使用 configure 构建错误
- ARROW-8088 - [C++][Dataset] 具有指定字典类型的分区列导致所有空值
- ARROW-8091 - [CI][Crossbow] 修复每晚 homebrew 和 R 失败
- ARROW-8092 - [CI][Crossbow] OSX wheels 在捆绑的 bzip2 上失败
- ARROW-8094 - [CI][Crossbow] 每晚 valgrind 测试失败
- ARROW-8095 - [CI][Crossbow] 每晚 turbodbc 作业失败
- ARROW-8098 - [go] Go 1.14 上的 Checkptr 失败
- ARROW-8101 - [FlightRPC][Java] 无法仅读取/写入空的空数组
- ARROW-8102 - [Dev] Crossbow 的版本检测在 comment bot 的场景中不起作用
- ARROW-8105 - [Python] 传递带有收缩掩码的掩码数组时,pyarrow.array 出现段错误
- ARROW-8106 - [Python] pandas 1.0.2 版本的 master 构建已损坏
- ARROW-8110 - [C#] 如果包含 NestedType,则 BuildArrays 失败
- ARROW-8112 - [FlightRPC][C++] 某些状态代码无法通过 gRPC 进行往返
- ARROW-8119 - [Dev] 使 Yaml 成为 archery 的可选依赖项
- ARROW-8122 - [Python] 无法反序列化具有形状的空 numpy 数组
- ARROW-8125 - [C++] “arrow-tests” 目标在 ninja 构建中已损坏
- ARROW-8127 - [C++] [Parquet] 用于多页批处理写入的不正确的列块元数据
- ARROW-8128 - [C#] 在错误的长度上序列化 NestedType 子项
- ARROW-8132 - [C++] arrow-s3fs-test 在 master 上失败
- ARROW-8133 - [CI] Github Actions 有时无法检出 Arrow
- ARROW-8136 - [C++][Python] 从相对路径创建数据集不再有效
- ARROW-8139 - [C++] FileSystem 枚举导致属性警告
- ARROW-8142 - [C++] 强制转换具有 0 个块的分块数组会导致严重故障
- ARROW-8144 - [CI] Cmake 3.2 每晚构建失败
- ARROW-8159 - [Python] pyarrow.Schema.from_pandas 不支持 ExtensionDtype
- ARROW-8166 - [C++] AVX512 intrinsics 在 Ubuntu 18.04 上使用 clang-8 编译失败
- ARROW-8176 - [FlightRPC][集成] 让 Flight 服务在集成中绑定到端口 0
- ARROW-8186 - [Python] 对于无效值,数据集表达式 != 返回 bool 而不是表达式
- ARROW-8188 - [R] 适应 R-devel 中的最新检查
- ARROW-8193 - [C++] arrow-future-test 在 gcc 4.8 上编译失败
- ARROW-8197 - [Rust] DataFusion “create_physical_plan” 返回错误的 schema?
- ARROW-8206 - [R] 修复 Linux 安装上的向后兼容性小问题
- ARROW-8209 - [Python] 按名称访问 Table 的重复列会给出错误的错误信息
- ARROW-8213 - [Python][Dataset] 使用错误的本地路径打开数据集会给出令人困惑的错误消息
- ARROW-8216 - [R][C++][Dataset] 过滤返回所有缺失的行,其中过滤列缺失
- ARROW-8217 - [R][C++] 修复 ARROW-7979 导致的 32 位 Windows 上 test-dataset.R 中的崩溃测试
- ARROW-8219 - [Rust] sqlparser crate 需要升级到 0.2.5 版本
- ARROW-8233 - [CI] “AMD64 Windows MinGW 64 GLib & Ruby “ 上的构建超时
- ARROW-8237 - [Python] 审查 conda 和非 conda 用户的开发人员构建说明
- ARROW-8238 - [C++][Compute] 无法在 Windows 上使用 msvc2015 构建计算测试
- ARROW-8239 - [Java] 修复 splitAndTransfer 方法中的参数检查
- ARROW-8245 - [Python][Parquet] 读取分区 parquet 文件时跳过隐藏目录
- ARROW-8255 - [Rust] [DataFusion] COUNT(*) 导致令人困惑的错误
- ARROW-8259 - [Rust] [DataFusion] ProjectionPushDownRule 不重写 LIMIT
- ARROW-8268 - [Ruby] 由于缺少内置的 ZSTD 支持导致的测试失败
- ARROW-8269 - [Python] test_parquet_row_group_fragments 中 “nopandas” 构建失败
- ARROW-8270 - [Python][Flight] 带有 TLS 证书和密钥的示例 Flight 服务器无法正常工作
- ARROW-8272 - [CI][Python] Ubuntu 16.04 上的测试失败
- ARROW-8274 - [C++] 在 IPC 写入中使用 LZ4 帧格式进行 “LZ4” 压缩
- ARROW-8276 - [C++][Dataset] 扫描 Fragment 不考虑分区列
- ARROW-8280 - [C++] 由于 CARES 相关工具链问题,MinGW 构建失败
- ARROW-8286 - [Python] 从 pathlib 创建数据集导致 UnionDataset 而不是 FileSystemDataset
- ARROW-8298 - [C++][CI] MinGW 构建在构建 grpc 时失败
- ARROW-8303 - [Python] 修复 Python 3.5 上由不确定的 dict 键排序导致的测试失败
- ARROW-8304 - [Flight][Python] 带有 TLS 根证书的 Flight 客户端在 do_get() 上报告错误
- ARROW-8305 - [Java] ExtensionTypeVector 应该确保 underlyingVector 不为 null
- ARROW-8310 - [C++] Minio 的异常无法被 IsConnectError() 识别
- ARROW-8315 - [Python][Dataset] 不要在 test_dataset.py 中依赖有序的 dict 键
- ARROW-8323 - [C++] 将 gRPC 锁定在 v1.27 以避免其头文件中的编译错误
- ARROW-8326 - [C++] 不要使用已弃用的 TYPED_TEST_CASE
- ARROW-8327 - [FlightRPC][Java] gRPC trailers 可能为 null
- ARROW-8331 - [C++] arrow-compute-filter-benchmark 编译失败
- ARROW-8333 - [C++][CI] 始终在某些 C++ CI 条目中编译基准测试
- ARROW-8334 - [C++] [Gandiva] LLVM Types / Simple D32 Compute Functions 中缺少 DATE32
- ARROW-8342 - [Python] dask 和 kartothek 集成测试失败
- ARROW-8345 - [Python] feather.read_table 不应要求 pandas
- ARROW-8346 - [CI][Ruby] GLib/Ruby macOS 构建在 zlib 上失败
- ARROW-8349 - [CI][NIGHTLY:gandiva-jar-osx] 使用最新的 pygit2
- ARROW-8353 - [C++] parquet writer 中的 is_nullable 可能未初始化
- ARROW-8354 - [R] 修复 Table 到 Array 转换中的段错误
- ARROW-8357 - [Rust] [DataFusion] CLI 的 Dockerfile 缺少 format 目录
- ARROW-8358 - [C++] 修复 clang-11 中的 -Wrange-loop-construct 警告
- ARROW-8360 - [C++][Gandiva] 修复了 date/time 函数的 date32 支持
- ARROW-8365 - [C++] 将大于 5 GB 的文件写入 S3 时出错
- ARROW-8366 - [Rust] 需要还原最近的 arrow-flight 构建更改
- ARROW-8369 - [CI] 修复 crossbow 通配符组
- ARROW-8373 - [GLib] Meson 构建中解析 gobject-introspection, arrow 时出现问题
- ARROW-8380 - [RUST] StringDictionaryBuilder 未从 arrow::array 公开导出
- ARROW-8384 - [C++][Python] arrow/filesystem/hdfs.h 和 Python 包装器没有用于设置 Kerberos 票证路径的选项
- ARROW-8386 - [Python] pyarrow.jvm 为空 Arrays 引发错误
- ARROW-8388 - [C++] GCC 4.8 无法在返回时移动
- ARROW-8397 - [C++] 在 Ubuntu 16.04 上编译 aggregate_test.cc 失败
- ARROW-8406 - [Python] 在 Windows 上从不同的驱动器运行时,test_fs 失败
- ARROW-8410 - [C++] CMake 在不支持 -march=armv8-a+crc+crypto 的 aarch64 系统上失败
- ARROW-8414 - [Python] test_parquet.py 中不确定的行顺序失败
- ARROW-8415 - [C++][Packaging] 修复 gandiva linux job
- ARROW-8416 - [Python] 在 dataset API 中提供 “feather” 别名
- ARROW-8420 - [C++] CMake 在 armv7l 平台上配置失败 (例如 Raspberry Pi 3)
- ARROW-8427 - [C++][Dataset] 指定完整路径时,不要忽略带有下划线/点的文件路径
- ARROW-8428 - [C++][NIGHTLY:gandiva-jar-trusty] GCC 4.8 在 C++ 单元测试中失败
- ARROW-8429 - [C++] 修复 0 大小缓冲区上的 Buffer::CopySlice
- ARROW-8432 - [Python][CI] 下载 Hadoop 失败
- ARROW-8437 - [C++] 从 MakeRandomNullBitmap 测试实用程序中删除 std::move 返回值
- ARROW-8438 - [C++] arrow-io-memory-benchmark 崩溃
- ARROW-8439 - [Python] 文件系统文档已过时
- ARROW-8441 - [C++] 修复无效输入时的崩溃 (OSS-Fuzz)
- ARROW-8442 - [Python] NullType.to_pandas_dtype 与 to_pandas/to_numpy 中返回的 dtype 不一致
- ARROW-8460 - [Packaging][deb] Ubuntu Focal 构建失败
- ARROW-8465 - [Packaging][Python] 由于 boost,Windows py35 wheel 构建失败
- ARROW-8466 - [Packaging] python 单元测试未在 windows wheel 构建中运行
- ARROW-8468 - [Document] 修复不正确的 null 位描述
- ARROW-8469 - [Dev] 修复 azure 上的 nightly docker 测试
- ARROW-8478 - [Java] 回滚 contrib 包更改。
- ARROW-8498 - [Python] Schema.from_pandas 在扩展类型上失败,而 Table.from_pandas 正常工作
- ARROW-8511 - [Developer][Release] 如果 C++ 编译失败,Windows 发布验证脚本不会停止
- PARQUET-1780 - [C++] 设置 ColumnMetadata.encoding_stats 字段
- PARQUET-1788 - [C++] ColumnWriter 在写入 arrow chunks 时具有未定义的行为
- PARQUET-1797 - [C++] 修复模糊测试错误
- PARQUET-1799 - [C++] Stream API: 读取时放宽 schema 检查
- PARQUET-1810 - [C++] 修复无效枚举值上的未定义行为 (OSS-Fuzz)
- PARQUET-1813 - [C++] 删除单元测试中的日志记录语句
- PARQUET-1819 - [C++] 修复损坏 IPC 输入时的崩溃 (OSS-Fuzz)
- PARQUET-1823 - [C++] 使用 parquet::arrow::FileReader->RowGroup(i)->Column(j) 读取时返回无效的 RowGroup
- PARQUET-1829 - [C++] 修复无效输入时的崩溃 (OSS-Fuzz)
- PARQUET-1831 - [C++] 修复无效输入时的崩溃 (OSS-Fuzz)
- PARQUET-1835 - [C++] 修复无效输入时的崩溃 (OSS-Fuzz)