Apache Arrow 0.17.0 (2020年4月20日)
这是一个涵盖两个多月开发的主要版本。
下载
贡献者
该版本包括来自79位不同贡献者的569次提交。
$ git shortlog -sn apache-arrow-0.16.0..apache-arrow-0.17.0
80 Antoine Pitrou
78 Krisztián Szűcs
58 Wes McKinney
55 Neal Richardson
39 Sutou Kouhei
30 Benjamin Kietzman
26 Joris Van den Bossche
20 Andy Grove
13 liyafan82
11 David Li
11 François Saint-Jacques
8 Micah Kornfield
8 Projjal Chanda
7 Max Burke
7 Prudhvi Porandla
6 Kenta Murata
6 Uwe L. Korn
6 Yibo Cai
6 tianchen
5 Frank Du
5 Martin Radev
4 Rok
3 Paddy Horan
3 Takashi Hashida
3 Yosuke Shiro
3 Zhuo Peng
2 Bryan Cutler
2 David Kegley
2 Jacek Pliszka
2 Ji Kunshang
2 Jorge C. Leitao
2 Jörn Horstmann
2 Kazuaki Ishizaki
2 Markus Westerlind
2 Morgan Cassels
2 Ryan Murray
2 Sam Albers
2 Siyuan
2 Stephanie Wang
2 Yuqi Gu
2 gawain.bolton
1 Adam Hooper
1 Andreas Zimmerer
1 Bryant Biggs
1 Chao Sun
1 Dan Nugent
1 Dominik Durner
1 Eyal Farago-Hagag
1 Grant Monroe
1 Hatem Helal
1 Ismaël Mejía
1 John Muehlhausen
1 Ken Suenobu
1 Kevin Conaway
1 Li, Jiajia
1 Mahmut Bulut
1 Marius van Niekerk
1 Michael Chirico
1 NAITOH Jun
1 Neville Dipale
1 Omega Gamage
1 Onur Satici
1 Palmer Lao
1 Paul Balanca
1 Prudhvi
1 Ravindra Wagh
1 Richard Artoul
1 Sebastien Binet
1 TP Boudreau
1 Tarek Allam
1 Tobias Mayer
1 Yuan Zhou
1 Zherui Cao
1 andy-thomason
1 caleboverman
1 mubai
1 psuman
1 ravindra-wagh
1 wenjun.swj
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-0.16.0..apache-arrow-0.17.0
128 Wes McKinney
109 Krisztián Szűcs
86 Antoine Pitrou
61 Neal Richardson
60 Sutou Kouhei
33 Benjamin Kietzman
23 Andy Grove
14 François Saint-Jacques
10 Micah Kornfield
7 Paddy Horan
7 Praveen
5 David Li
5 Sebastien Binet
3 GitHub
3 Joris Van den Bossche
3 Neville Dipale
3 Pindikura Ravindra
3 Yosuke Shiro
2 Bryan Cutler
2 Philipp Moritz
1 Brian Hulette
1 Chao Sun
更新日志
新功能和改进
- ARROW-1560 - [C++] "match" 函数的内核实现
- ARROW-1571 - [C++] 使用 O(n) 计数排序实现整数的 argsort 内核 (排序索引)
- ARROW-1581 - [打包] 用于提供 nightly wheels 以供安装的工具
- ARROW-1582 - [Python] 为 macOS 设置并文档化 nightly conda 构建
- ARROW-1636 - [格式] 空类型的集成测试
- ARROW-2447 - [C++] 创建一个设备抽象
- ARROW-3054 - [打包] 使 nightly conda 包能更新到某个 anaconda.org 频道的工具
- ARROW-3410 - [C++][Dataset] 用于内存受限环境的流式 CSV 读取器接口
- ARROW-3750 - [R] 通过 reticulate 将在 Python 中创建的各种包装 Arrow 对象零拷贝传递到 R
- ARROW-4120 - [Python] 定义检查宏观层面无内存泄漏的测试流程
- ARROW-4226 - [格式][C++] 添加 CSF 稀疏张量支持
- ARROW-4304 - [Rust] 增强 arrow 的文档
- ARROW-4428 - [R] R 构建的特性标志
- ARROW-4482 - [网站] 添加博客存档页面
- ARROW-4815 - [Rust] [DataFusion] 在 SQL 投影中添加对 * 的支持
- ARROW-5357 - [Rust] 在 Buffer 中添加 capacity 字段
- ARROW-5405 - [文档] 将集成测试文档移至 Sphinx 文档,并为 JavaScript 添加说明
- ARROW-5497 - [发布] 构建并发布 R/Java/JS 文档
- ARROW-5501 - [R] 重组读/写文件/流函数
- ARROW-5510 - [格式] 基于 Arrow IPC 文件格式的 Feather V2,支持压缩
- ARROW-5563 - [格式] 更新集成测试 JSON 格式文档
- ARROW-5585 - [Go] 将 arrow.TypeEquals 重命名为 arrow.TypeEqual
- ARROW-5742 - [CI] 添加每日/每周的 Valgrind 构建
- ARROW-5757 - [Python] 停止支持 Python 2.7
- ARROW-590 - [集成] 为 Union 类型添加集成测试
- ARROW-5949 - [Rust] 实现 DictionaryArray
- ARROW-6165 - [集成] 使用多进程在多个 CPU 核心上运行集成测试
- ARROW-6176 - [Python] 允许子类化 ExtensionArray 以附加到自定义扩展类型
- ARROW-6393 - [C++] 在 SparseTensor::Equals 中添加 EqualOptions 支持
- ARROW-6479 - [C++] 内联显示来自外部项目构建日志的错误
- ARROW-6510 - [Python][Filesystem] 暴露纳秒级分辨率的 mtime
- ARROW-6666 - [Rust] [DataFusion] 实现字符串字面量表达式
- ARROW-6724 - [C++] 为 BufferOutputStream 添加比当前 Create 函数更简单的静态构造函数
- ARROW-6821 - [C++][Parquet] 构建时不需要 Thrift 编译器(但仍需要其库)
- ARROW-6823 - [C++][Python][R] 在 feather 格式中支持元数据?
- ARROW-6837 - [C++/Python] 访问 File Footer 的 custom_metadata
- ARROW-6841 - [C++] 升级到 LLVM 8
- ARROW-6875 - [FlightRPC] 为 ListFlights RPC / list_flights 方法实现 Criteria
- ARROW-6915 - [开发者] 即使提交者未指定,合并脚本也不应覆盖次要发布版本号
- ARROW-6947 - [Rust] [DataFusion] 添加对标量 UDF 的支持
- ARROW-6996 - [Python] 在 Table 上暴露布尔过滤内核
- ARROW-7044 - [发布] 为 home-brew 公式创建一个发布后脚本
- ARROW-7048 - [Java] 支持在 VectorSchemaRoot 下组合多个向量
- ARROW-7063 - [C++] Schema 打印方法打印了过多的元数据
- ARROW-7073 - [Java] 支持批量连接向量值
- ARROW-7080 - [Python][Parquet][C++] 在 Schema 对象中暴露 parquet 的 field_id
- ARROW-7091 - [C++] 将所有工厂移至 type_fwd.h
- ARROW-7119 - [C++][CI] 使用 scripts/util_coredump.sh 显示自动回溯
- ARROW-7201 - [GLib][Gandiva] 添加对 BooleanNode 的支持
- ARROW-7202 - [R][CI] 改进 CI 上的 rwinlib 构建,以停止重新下载依赖项
- ARROW-7222 - [Python][发布] 更新网站时,清除任何已生成的现有 Python API 文档
-
ARROW-7233 - [C++] 添加 Result
API 到 IPC 模块 - ARROW-7256 - [C++] 移除 ARROW_MEMORY_POOL_DEFAULT 宏
-
ARROW-7330 - [C++] 添加 Result
到 arrow/gpu 的 API 中 - ARROW-7332 - [C++][Parquet] 在 PARQUET_CATCH_NOT_OK 中显式捕获状态异常
- ARROW-7336 - [C++] 实现 MinMax 选项以不跳过空值
- ARROW-7338 - [C++] 改进 InMemoryDataSource 以支持生成器而非静态列表
- ARROW-7365 - [Python] 在转换为 numpy/pandas 时支持 FixedSizeList 类型
- ARROW-7400 - [Java] 避免快速排序的最坏情况
- ARROW-7412 - [C++][Dataset] 确保数据集代码对具有重复字段名称的模式具有鲁棒性
- ARROW-7419 - [Python] 支持 SparseCSCMatrix
- ARROW-7427 - [Python] 支持 SparseCSFTensor
- ARROW-7428 - [格式][C++] 为 CSF 稀疏张量添加序列化
- ARROW-7444 - [GLib] 添加 LocalFileSystem 支持
- ARROW-7462 - [C++] 为 Arm64 架构添加 CpuInfo 检测
- ARROW-7491 - [Java] 提高对齐性能
- ARROW-7515 - [C++] 将 nonexistent 和 non_existent 重命名为 not_found
- ARROW-7524 - [C++][CI] 在 VS2019 GitHub Actions 作业中构建 parquet 支持
- ARROW-7530 - [开发者] 不要在 squash 摘要消息中包含来自 PR 的提交列表
- ARROW-7534 - [Java] 创建一个新的 java/contrib 模块
- ARROW-7547 - [C++] [Python] [Dataset] ParquetFileFormat 中的额外读取器选项
- ARROW-7587 - [C++][Compute] 添加 Top-k 内核
- ARROW-7608 - [C++][Dataset] 暴露更多信息属性
- ARROW-7615 - [CI][Gandiva] 确保 gandiva_jni 库在 Travis CI 作业中只包含白名单内的共享依赖项
- ARROW-7616 - [Java] 支持比较稠密联合向量的值范围
- ARROW-7625 - [GLib] Parquet GLib 和 Red Parquet (Ruby) 不允许指定压缩类型
- ARROW-7641 - [R] 使数据集小插图具有可执行代码
- ARROW-7662 - [R] 支持从 R 列表创建 ListArray
- ARROW-7664 - [C++] 从 FileSystemFromUri 中提取 localfs 默认值
- ARROW-7675 - [R][CI] 将 Windows CI 从 Appveyor 移至 GHA (GitHub Actions)
- ARROW-7679 - [R] 创建 UnionDataset 的更简洁接口
- ARROW-7684 - [Rust] 提供 DataFusion 的 Flight 服务器示例
- ARROW-7685 - [开发者] 为 Crossbow 添加 GitHub Actions 支持
- ARROW-7691 - [C++] 在遍历 Flatbuffers 数据时验证缺失的字段
- ARROW-7708 - [发布] 在发布变更日志中包含来自 git changelog 的 PARQUET 提交
- ARROW-7712 - [CI][Crossbow] 修复或删除 fuzzit 作业
- ARROW-7720 - [C++][Python] 向 Table.equals 添加 check_metadata 参数
- ARROW-7725 - [C++] 为 unity 构建和预编译头添加基础设施
- ARROW-7726 - [CI] [C++] 在 Windows GHA 构建中使用 boost 二进制文件
- ARROW-7729 - [Python][CI] 在 dask 集成测试中将 pandas 版本固定为 0.25
- ARROW-7733 - [开发者] 为发布验证脚本本地安装足够新的 Go 版本
- ARROW-7735 - [发布] 验证 wheels 时缺少 conda-forge 频道
- ARROW-7736 - [发布] 二进制文件验证有时会因瞬时错误而失败
- ARROW-7739 - [GLib] 使用 placement new 在私有结构中初始化 shared_ptr 对象
- ARROW-7741 - [C++][Parquet] 在 parquet 写入路径中集成新的层级生成逻辑,并提供一个标志以恢复到旧逻辑
- ARROW-7742 - [GLib] 添加对 MapArray 的支持
- ARROW-7745 - [文档] [C++] 更新 Parquet 文档
- ARROW-7749 - [C++] 将更多测试链接在一起
- ARROW-7750 - [发布] 使源码发布验证脚本可重新启动
- ARROW-7751 - [发布] macOS wheel 验证也需要 arrow-testing
- ARROW-7752 - [发布] 在验证脚本中启用并测试 dataset
-
ARROW-7754 - [C++] Result
速度很慢 - ARROW-7761 - [C++] 向 fs::FileSystemFromUri 添加 S3 支持
- ARROW-7764 - [C++] 即使没有空值,构建器也会分配一个空值位图缓冲区
- ARROW-7771 - [开发者] 在验证脚本中使用 ARROW_TMPDIR 环境变量而不是 TMPDIR
- ARROW-7774 - [打包][Python] 更新 macos 和 windows 的 wheel 文件名
- ARROW-7787 - [Rust] 向 Table API 添加 collect
- ARROW-7788 - [C++] 添加对 map 类型的模式转换支持
- ARROW-7790 - [网站] 更新如何安装 Linux 软件包
- ARROW-7795 - [Rust - DataFusion] 支持布尔否定 (NOT)
- ARROW-7796 - [R] write_* 函数应该不可见地返回它们的输入
- ARROW-7799 - [R][CI] 从 homebrew 公式中移除 flatbuffers
- ARROW-7804 - [C++][R] 在 macOS 10.11 上出现编译错误
- ARROW-7812 - [打包][Python] 在 manylinux1 docker 镜像中升级 LLVM
- ARROW-7817 - [CI] macOS R autobrew nightly 在从源码安装依赖时失败
- ARROW-7819 - [C++][Gandiva] 向 Filter/Projector 类添加 DumpIR
- ARROW-7824 - [C++][Dataset] 提供将 Dataset 写入 IPC 格式的功能
- ARROW-7828 - [发布] 移除内部使用的 SSH 密钥
- ARROW-7829 - [R] 在 clang 上测试 R 绑定
- ARROW-7833 - [R] 使 install_arrow() 真正安装 arrow
- ARROW-7834 - [发布] 更新文档的发布后任务
- ARROW-7839 - [Python][Dataset] 向 python 绑定添加 IPC 格式
- ARROW-7846 - [Python][开发] 移除对 six 的最后依赖
- ARROW-7849 - [打包][Python] 从 nightly 构建中移除剩余的 py27 crossbow wheel 任务
- ARROW-7858 - [C++][Python] 支持将 Extension 类型转换为其存储类型
- ARROW-7859 - [R] 为 CRAN 提交 0.16.0.2 版本的小补丁
- ARROW-7862 - [R] Linux 安装默认应该更安静地运行
- ARROW-7863 - [C++][Python][CI] 确保运行 HDFS 相关测试
- ARROW-7864 - [R] 即使存在系统包,也要确保捆绑安装能正常工作
- ARROW-7865 - [R] 在最新的 Linux 版本上测试构建
- ARROW-7868 - [Crossbow] 减少 GitHub API 查询并行度
- ARROW-7869 - [Python] Python wheels 中不再需要 Boost::system 和 boost::filesystem
- ARROW-7872 - [Python] 在 Array/Table.to_pandas 中支持 list-of-struct 转换
- ARROW-7874 - [Python][Archery] 使用 numpydoc 验证文档字符串
- ARROW-7876 - [R] 在文档生成镜像中安装失败
- ARROW-7877 - [打包] 修复 crossbow 部署到 github artifacts 的问题
- ARROW-7879 - [C++][文档] 为 Device API 添加文档
- ARROW-7880 - [CI][R] R sanitizer 作业并未真正工作
- ARROW-7881 - [C++] 修复 pedantic 警告
- ARROW-7882 - [C++][Gandiva] 优化子字符串模式的 like 函数
- ARROW-7886 - [C++][Dataset] 整合 Source 和 Dataset
- ARROW-7888 - [Python] 允许在 pyarrow.jvm 中使用更新版本的 jpype
- ARROW-7890 - [C++] 添加 Promise / Future 实现
- ARROW-7891 - [C++] RecordBatch->Equals 也应该有一个 check_metadata 参数
- ARROW-7892 - [Python] 暴露 FilesystemSource.format 属性
- ARROW-7895 - [Python] 移除更多 python 2.7 的陈旧代码
- ARROW-7896 - [C++] 从 #include guards 重构为 #pragma once
- ARROW-7897 - [打包] 暂时禁用 artifact 上传,直到我们修复部署问题
- ARROW-7898 - [Python] 使用 numpydoc 减少文档字符串违规的数量
- ARROW-7904 - [C++] 决定 Field/Schema 元数据打印参数以及默认显示多少
- ARROW-7907 - [Python] 转换带有时间戳类型的空表到 pandas 时中止
- ARROW-7912 - [格式] C 数据接口
- ARROW-7913 - [C++][Python][R] C 数据接口的 C++ 实现
- ARROW-7915 - [CI] [Python] 在启用 Python 开发模式的情况下运行测试
- ARROW-7916 - [C++][Dataset] 将 IPC 记录批次投影到具体化字段
- ARROW-7917 - [CMake] FindPythonInterp 应该检查 python3
- ARROW-7919 - [R] install_arrow() 在适当时应该使用 conda 安装
- ARROW-7920 - [R] 补充一些缺失的输入验证
- ARROW-7921 - [Go] 为各种组件添加 Reset 方法并清理注释
- ARROW-7927 - [C++] 修复 'cpu_info.cc' 编译警告
- ARROW-7929 - [C++] CMake 目标名称与上游提供的名称不同
- ARROW-7930 - [Python][CI] 在 CI 中测试 jpype 集成
- ARROW-7932 - [Rust] [Parquet] 为时间类型实现数组读取器
- ARROW-7934 - [C++] 修复空字符串的 UriEscape
- ARROW-7935 - [Java] 移除 BufferAllocator 和 ReferenceManager 对 Netty 的依赖
- ARROW-7937 - [Python][打包] 从 macos wheels 中移除 boost
- ARROW-7941 - [Rust] [DataFusion] 逻辑计划应支持未解析的列引用
- ARROW-7943 - [C++][Parquet] 添加能够处理嵌套数据的新层级构建器
- ARROW-7947 - [Rust] [Flight] [DataFusion] 实现 get_schema 的示例
- ARROW-7949 - [开发者] 更新 '.gitignore' 以不跟踪用户特定的 'cpp/Brewfile.lock.json' 文件
- ARROW-7951 - [Python][Parquet] 将 BYTE_STREAM_SPLIT 暴露给 pyarrow
- ARROW-7959 - [Ruby] 重新添加对 Ruby 2.3 的支持
- ARROW-7963 - [C++][Python][Dataset] 暴露列出片段的功能
- ARROW-7965 - [Python] 优化更高级别的 dataset API
- ARROW-7966 - [集成][Flight][C++] 客户端应独立验证每个批次
- ARROW-7969 - [打包] 使用 cURL 上传 artifacts
- ARROW-7970 - [打包][Python] 使用系统 boost 构建 macos wheels
- ARROW-7971 - [Rust] 创建 rowcount 实用工具
- ARROW-7977 - [C++] 将 fs::FileStats 重命名为 fs::FileInfo
- ARROW-7979 - [C++] 在 IPC 消息中实现实验性的缓冲区压缩
- ARROW-7982 - [C++] 让 ArrayDataVisitor 接受返回 void 的函数
- ARROW-7983 - [CI][R] nightly 构建在失败时应提供更详细的信息
- ARROW-7984 - [R] 在更多地方检查有效输入
- ARROW-7986 - [Python] pa.Array.from_pandas 无法转换包含 pyspark.ml.linalg.SparseVector 的 pandas.Series
- ARROW-7987 - [CI][R] 修复详细的 nightly 构建
- ARROW-7988 - [R] 修复 reticulate 绑定中的 on.exit 调用
- ARROW-7991 - [C++][Plasma] 在创建对象时,如果空间已满,允许选择驱逐
- ARROW-7993 - [Java] 在 ComplexCopier 中支持 decimal 类型
- ARROW-7994 - [CI][C++] 将 AppVeyor MinGW 构建移至 GitHub Actions
- ARROW-7995 - [C++] IO: 合并并缓存读取范围
- ARROW-7998 - [C++][Plasma] 使 Seal 请求同步
- ARROW-8005 - [网站] 审查并调整网站/工具中对 Apache 分发系统的任何使用
- ARROW-8014 - [C++] 提供 CMake 目标,以仅在给定标签内进行测试
- ARROW-8016 - [开发者] 修复 PR 合并工具中的弃用警告
- ARROW-8018 - [C++][Parquet]Parquet 模块化加密
- ARROW-8024 - [R] BinaryType 和 FixedBinaryType 的绑定
- ARROW-8026 - [Python] 除了字符串值类型外,还支持 memoryview 用于构建字符串和二进制类型数组
- ARROW-8027 - [开发者][集成] 为重复字段名称添加集成测试
- ARROW-8028 - [Go] 允许在模式和嵌套类型中存在重复的字段名称
- ARROW-8030 - [C++][Plasma] 修复不一致的注释风格
- ARROW-8039 - [Python][Dataset] 通过一个最小的 ParquetDataset shim,在 pyarrow.parquet 中支持使用 dataset API
- ARROW-8044 - [CI][NIGHTLY:gandiva-jar-osx] pygit2 需要 libgit2 v1.0.x
- ARROW-8055 - [GLib][Ruby] 向 GArrowSchema 添加一些元数据绑定
- ARROW-8058 - [C++][Python][Dataset] 在 FileSystemDatasetFactoryOptions 中提供一个选项来切换验证和模式推断
- ARROW-8059 - [Python] 使 FileSystem 对象可序列化
- ARROW-8060 - [Python] 使 dataset Expression 对象可序列化
- ARROW-8061 - [C++][Dataset] 能够指定 ParquetFileFragment 的粒度 (支持行组)
- ARROW-8063 - [Python] 为 Datasets API 添加用户指南文档
- ARROW-8064 - [开发] 通过 Github actions 实现评论机器人
- ARROW-8072 - [C++][Plasma] 在解析数据时添加 const 约束
- ARROW-8077 - [Python] 为 Windows 上的 Python 3.5 添加 wheel 构建脚本和 Crossbow 配置
- ARROW-8079 - [Python] 为 KeyValueMetadata 实现一个包装器,在相关处模仿 dict 的行为
- ARROW-8080 - [C++] 添加 AVX512 构建选项
- ARROW-8082 - [Java][Plasma] 添加 JNI list() 接口
- ARROW-8083 - [GLib] 为 GIOInputStream 添加对 Peek() 的支持
- ARROW-8086 - [Java] 在 UnionListWriter 中支持从大端字节数组写入 decimal
- ARROW-8087 - [C++][Dataset] 使用 HivePartitioning 时,键的顺序在结果模式中丢失
- ARROW-8096 - [C++][Gandiva] 创建 Interval 类型的空节点
- ARROW-8097 - [开发] 评论机器人的 crossbow 命令作用于 master 分支
- ARROW-8103 - [R] 使默认的 Linux 构建更精简
- ARROW-8104 - [C++] 不安装捆绑的 Thrift
- ARROW-8107 - [打包][APT] 为 Debian GNU/Linux stretch 的 LLVM APT 仓库使用 HTTPS
- ARROW-8109 - [打包][APT] 放弃对 Ubuntu Disco 的支持
- ARROW-8117 - [Rust] [Datafusion] 允许从数字 CAST 到时间戳
- ARROW-8118 - [R] 为 FileSystemDataset 添加 dim 方法
- ARROW-8120 - [打包][APT] 添加对 Ubuntu Focal 的支持
- ARROW-8123 - [Rust] [DataFusion] 创建 LogicalPlanBuilder
- ARROW-8124 - [Rust] 更新库依赖项
- ARROW-8126 - [C++][Compute] 添加 Top-K 内核基准测试
- ARROW-8129 - [C++][Compute] 优化比较排序内核
- ARROW-8130 - [C++][Gandiva] 修复 llvm_generator 中的 Dex 访问器以处理 interval 类型
- ARROW-8140 - [开发者] 遵循 NullType -> NullField 的变更
- ARROW-8141 - [C++] 使用 AVX512 内在函数 API 优化 BM_PlainDecodingBoolean 性能
- ARROW-8145 - [C++] 重命名 GetTargetInfos
- ARROW-8146 - [C++] 添加按文件系统清理路径的工具
- ARROW-8150 - [Rust] 允许写入自定义 FileMetaData 键/值对
- ARROW-8151 - [基准测试][Dataset] 使用 S3File 对 Parquet 读取性能进行基准测试
- ARROW-8153 - [打包] 更新 conda feedstock 文件并将 artifacts 上传到 Anaconda
- ARROW-8158 - [Java] 获取数据缓冲区和基本可变宽度向量的长度
- ARROW-8164 - [C++][Dataset] 允许使用非相同模式查看数据集
- ARROW-8165 - [打包] 在 PyPI 服务器上提供 nightly wheels
- ARROW-8167 - [CI] 添加支持,通过在拉取请求标题中使用跳过模式来跳过构建
- ARROW-8168 - [Java][Plasma] 改进 Java Plasma 客户端的堆外内存使用
- ARROW-8177 - [Rust] 将 schema_to_fb_offset 设为公开
- ARROW-8178 - [C++] 升级到 Flatbuffers 1.12
- ARROW-8179 - [R] 为 GHA 上的 nightly 打包调整 Windows 构建脚本
- ARROW-8181 - [Java][FlightRPC] 暴露传输错误元数据
- ARROW-8182 - [打包] 增加从最新 git 标签检测到的版本号
- ARROW-8183 - [c++][FlightRPC] 暴露传输错误元数据
- ARROW-8184 - [打包] 在 Anaconda 和 Gemfury 上使用 arrow-nightlies 组织名称来托管 nightly 构建
- ARROW-8185 - [打包] 文档化可用的 nightly wheels 和 conda 包
- ARROW-8187 - [R] 使测试断言对国际化 (i18n) 具有鲁棒性
- ARROW-8191 - [打包][APT] 修复在 Debian GNU/Linux Stretch 中移除 cmake 的问题
- ARROW-8192 - [C++] 用于解包 avx512 内在函数代码的脚本
- ARROW-8194 - [CI] Github Actions Windows 作业应该并行运行测试
- ARROW-8195 - [CI] 在 Github Actions 中移除 Boost 下载步骤
- ARROW-8198 - [C++] 差异比较应处理空数组
- ARROW-8200 - [GLib] 将 garrow_file_system_target_info{,s}() 重命名为 ..._file_info{,s}()
- ARROW-8203 - [C#] "dotnet pack" 失败
- ARROW-8204 - [Rust] [DataFusion] 在 SQL 中添加对别名表达式的支持
- ARROW-8207 - [打包][wheel] 在 manylinux2010 和 manylinux2014 中使用 LLVM 8
- ARROW-8215 - [CI][GLib] Meson install 在 macOS 构建中失败
- ARROW-8218 - [C++] 在实验性 IPC 压缩代码中,在字段级别上并行化解压缩
- ARROW-8220 - [Python] 使 dataset FileFormat 对象可序列化
- ARROW-8222 - [C++] 使用 bcp 为捆绑构建制作一个精简的 boost
- ARROW-8224 - [C++] 移除在 0.16.0 之前已弃用的 API
- ARROW-8225 - [Rust] IPC 读取器必须遵守连续标记
- ARROW-8227 - [C++] 优化 SIMD 特性定义
- ARROW-8231 - [Rust] 将 parquet FileMetaData 中的 key_value_metadata 解析到 arrow 模式元数据中
- ARROW-8232 - [Python] 弃用 pa.open_file 和 pa.open_stream,推荐使用 pa.ipc.open_file/open_stream
- ARROW-8241 - [Rust] 向 Schema 添加便捷方法
- ARROW-8242 - [C++] Flight 在 GCC 4.8 上编译失败
- ARROW-8243 - [Rust] [DataFusion] 修复 LogicalPlanBuilder 中不一致的 API
- ARROW-8244 - [Python][Parquet] 添加 `write_to_dataset` 选项以填充 "file_path" 元数据字段
- ARROW-8246 - [C++] 使用 MinGW 编译时添加 -Wa,-mbig-obj 以避免链接错误
- ARROW-8247 - [Python] 在 pyarrow.parquet.write_table 中暴露 Parquet 写入 "engine" 设置
- ARROW-8249 - [Rust] [DataFusion] 使 Table 和 LogicalPlanBuilder API 更加一致
- ARROW-8252 - [CI][Ruby] 添加 Ubuntu 20.04
- ARROW-8256 - [Rust] [DataFusion] 为 0.17.0 版本更新 CLI 文档
- ARROW-8264 - [Rust] [DataFusion] 创建用于打印记录批次的实用工具
- ARROW-8266 - [C++] 为外部项目源文件下载添加备份镜像
- ARROW-8267 - [CI][GLib] 在 Ubuntu 16.04 上构建失败
- ARROW-8271 - [打包] 允许 wheel 上传到 gemfury 失败
- ARROW-8275 - [Python][文档] 根据 "Feather V2" 的变更审查 Feather + IPC 文件文档
- ARROW-8277 - [Python] RecordBatch 接口改进
- ARROW-8279 - [C++] 不从 Codec 实现中导出符号,移除对 PIMPL 模式的需求
- ARROW-8288 - [Python] 在 DataType 上暴露 with_ 修改器
- ARROW-8290 - [Python][Dataset] 改进 FileSystemDataset 构造函数的人体工程学
- ARROW-8291 - [打包] Conda nightly 构建无法找到 Numpy
- ARROW-8292 - [Python][Dataset] 在 dataset() 函数中将模式传递给 Factory.finish()
- ARROW-8294 - [格式][Flight] 向 Flight 协议添加 DoExchange RPC
- ARROW-8295 - [C++][Dataset] IpcFileFormat 应该显式下推列投影
- ARROW-8299 - [C++] 用于可选使用多线程的可重用 "optional ParallelFor" 函数
- ARROW-8300 - [R] 0.17 版本的文档和变更日志更新
- ARROW-8307 - [Python] 在 pyarrow.feather API 中暴露 use_memory_map 选项
- ARROW-8308 - [Rust] [Flight] 在示例中实现 DoExchange
- ARROW-8309 - [CI] C++/Java/Rust 工作流应在 Flight.proto 更改时触发
- ARROW-8311 - [C++] 添加推式流格式读取器
- ARROW-8316 - [CI] 设置 docker-compose 使用 docker-cli 而不是 docker-py 来构建镜像
- ARROW-8319 - [CI] 在 debian 构建中安装 thrift 编译器
- ARROW-8320 - [文档][格式] 阐明 C 数据接口中对齐的要求(或缺乏要求)
- ARROW-8321 - [CI] 在 Fedora 30 构建中使用捆绑的 thrift
- ARROW-8322 - [CI] 修复 C# 工作流文件语法
- ARROW-8325 - [R][CI] 停止在 R windows 捆绑包中包含 boost
- ARROW-8329 - [文档][C++] Filter 内核中未记录的 FilterOptions 参数
- ARROW-8330 - [文档] 发布后脚本使用开发版本生成文档
- ARROW-8332 - [C++] Parquet 构建需要 Thrift 编译器才能使用系统 libthrift
- ARROW-8335 - [发布] 添加 crossbow 作业以运行发布验证
- ARROW-8336 - [打包][deb] 在 Debian 10 和 Ubuntu 19.10 或更高版本上使用 libthrift-dev
- ARROW-8341 - [打包][deb] 因磁盘空间不足而构建失败
- ARROW-8343 - [GLib] 添加 GArrowRecordBatchIterator
-
ARROW-8347 - [C++] 添加 Result
API 到 Array 方法中 - ARROW-8351 - [R][CI] 将 Rtools 构建的 Arrow C++ 库存储为构建产物
- ARROW-8352 - [R] 添加 install_pyarrow()
- ARROW-8356 - [开发者] 通过 GitHub actions 支持 "crossbow submit" 使用 * 通配符
-
ARROW-8361 - [C++] 添加 Result
API 到 Buffer 方法和函数中 - ARROW-8362 - [Crossbow] 确保在 docker 任务中使用本地生成的版本
- ARROW-8367 - [C++] 弃用 Buffer::FromString(..., pool)
- ARROW-8368 - [格式] 在 C 接口中,为仅需要 ArrowArray 中部分子字段的消费者阐明资源管理
-
ARROW-8370 - [C++] 添加 Result
到类型/模式 API 中 - ARROW-8371 - [Crossbow] 实现并执行对 tasks.yml 的健全性检查
-
ARROW-8372 - [C++] 添加 Result
到表/记录批次 API 中 - ARROW-8375 - [CI][R] 在发生段错误时使 Windows 测试更详细
- ARROW-8376 - [R] 为 ScanTask/RecordBatch 迭代器添加实验性接口
- ARROW-8387 - [Rust] 将 schema_to_fb 设为公开
- ARROW-8389 - [集成] 并行运行测试
- ARROW-8390 - [R] 暴露模式统一功能
- ARROW-8393 - [C++][Gandiva] 使 gandiva 函数注册表不区分大小写
- ARROW-8396 - [Rust] 从依赖项中移除 libc
- ARROW-8398 - [Python] 移除源自 python 测试的弃用警告
- ARROW-8401 - [C++] 添加 ByteStreamSplitDecode/ByteStreamSplitEncode 的 AVX2/AVX512 版本
- ARROW-8403 - [C++] 为 ChunkedArray、Table 和 RecordBatch 添加 ToString()
- ARROW-8407 - [Rust] 为 Dictionary 类型添加 rustdoc
- ARROW-8408 - [Python] 向 pyarrow.feather.read_feather 添加 memory_map= 开关
- ARROW-8409 - [R] 添加类似 Python 的 arrow::cpu_count、arrow::set_cpu_count 包装函数
- ARROW-8412 - [C++][Gandiva] 修复 gandiva 的 date_diff 函数定义
- ARROW-8433 - [R] 在 dataset API 中为 ipc 格式添加 feather 别名
- ARROW-8443 - [Gandiva][C++] 修复 round/truncate 在特殊情况下的空操作问题
- ARROW-8444 - [文档] 修复整个代码库中的拼写错误
- ARROW-8449 - [R] 在所有地方使用 CMAKE_UNITY_BUILD
- ARROW-8450 - [集成][C++] 实现大型 list/binary/utf8 集成
- ARROW-8457 - [C++] bridge 测试未考虑字节序问题
- ARROW-8458 - [C++] 优先使用原始镜像来获取捆绑的第三方依赖
- ARROW-8461 - [打包][deb] 为 Ubuntu Xenial 使用 zstd 包
- ARROW-8463 - [CI] 在 CircleCI、Azure 和 Github 之间平衡 nightly 测试构建
- ARROW-8467 - [C++] 使用 ArrayFromJSON 的测试用例假定仅为小端平台
- ARROW-8477 - [C++] 为 Windows 启用长文件名的读写
- ARROW-8496 - [C++] 优化 ByteStreamSplitDecodeScalar
- ARROW-8499 - [C++][Dataset] 在 ScannerBuilder 中,如果 projector 不为空,batch_size 将不起作用
- ARROW-8506 - [c++] 缺少测试来验证 RLE 中 bit_width > 8 的 expected_buffer
- ARROW-8515 - [C++] Bitmap ToString 应该有一个按字节分组的选项
- ARROW-8517 - [开发者][发布] 根据 0.16.0 以来的变更更新 Crossbow RC 验证设置
- ARROW-8523 - [C++] 优化 BitmapReader
- PARQUET-1663 - [C++] 提供 API 以检查复杂数据类型的存在
- PARQUET-1716 - [C++] 添加对 BYTE_STREAM_SPLIT 编码的支持
- PARQUET-1770 - [C++][CI] 添加用于读取 Parquet 文件的模糊测试目标
- PARQUET-1785 - [C++] 提高 encoding-test.cc 中的代码可重用性
- PARQUET-1786 - [C++] 使用 simd 提高 BYTE_STREAM_SPLIT 解码性能
- PARQUET-1806 - [C++] [CI] 改进模糊测试的种子语料库
- PARQUET-1825 - [C++] 修复 column_io_benchmark.cc 中的编译错误
- PARQUET-1828 - [C++] 为 ByteStreamSplit 编码器实现添加一个 SSE2 路径
- PARQUET-1840 - [C++] DecodeSpaced 复制了比必要更多的值
- PARQUET-458 - [C++] 实现对 DataPageV2 的支持
Bug 修复
- ARROW-1907 - [C++/Python] Feather 格式无法容纳总数据量超过 2GB 的字符串列
- ARROW-2255 - [开发者][集成] 在集成测试 JSON 格式中序列化模式级和字段级的自定义元数据
- ARROW-2587 - [Python] 无法将具有多个子项的 StructArrays 写入 parquet
- ARROW-3004 - [文档] 为 master 构建文档,而不是固定的提交
- ARROW-3543 - [R] 在 R 中更好地支持时间戳格式和时区
- ARROW-5265 - [Python/CI] 添加与 kartothek 的集成测试
- ARROW-5473 - [C++] 在 Windows 上使用 Ninja 时,googletest_ep 构建失败
-
ARROW-5981 - [C++] DictionaryBuilder
使用 Array 初始化可能会静默失败 - ARROW-6528 - [C++] 零星的 Flight 测试失败(端口分配失败)
- ARROW-6738 - [Java] 修复当前联合类型比较逻辑中的问题
- ARROW-6757 - [Python] 使用 Visual Studio 2017 创建 csv.ParseOptions() 会导致 "Windows 致命异常:访问冲突"
- ARROW-6871 - [Java] 增强 TransferPair 相关参数检查和测试
- ARROW-6872 - [C++][Python] 带有字典列的空表会引发 ArrowNotImplementedError
- ARROW-6895 - [C++][Parquet] parquet::arrow::ColumnReader: ByteArrayDictionaryRecordReader 在调用 `NextBatch()` 时重复返回值
- ARROW-7008 - [Python] pyarrow.chunked_array([array]) 在数组具有全为 None 的缓冲区时失败
- ARROW-7049 - [C++] 在 mingw-w64 上构建时的警告
- ARROW-7301 - [Java] Sql 类型 DATE 应该对应于 DateDayVector
- ARROW-7335 - [C++][Gandiva] 在 Gandiva 中添加 castBIGINT, extractDay interval_day 函数
- ARROW-7390 - [C++][Dataset] Projector::Project 中的并发竞争问题
- ARROW-7405 - [Java] ListVector isEmpty API 不正确
- ARROW-7466 - [CI][Java] 修复 gandiva-jar-osx nightly 构建失败
- ARROW-7467 - [Java] ComplexCopier 对 Map 可空信息的复制不正确
- ARROW-7520 - [R] 写入多个批次导致崩溃
- ARROW-7546 - [Java] 使用新的实现来批量连接向量值
- ARROW-7624 - [Rust] 通过 `Buffer` 方法导致的健全性问题
- ARROW-7628 - [Python] 更好地记录一些 read_csv 的边界情况
- ARROW-7631 - [C++][Gandiva] 将 decimal 转换为较低精度/标度时如果发生溢出则返回零
- ARROW-7680 - [C++][Dataset] 分区发现在 windows 路径下不起作用
- ARROW-7701 - [C++] [CI] macOS 上的 Flight 测试错误
- ARROW-7713 - [Java] TastLeak 被放在了错误的位置
- ARROW-7722 - [Java][FlightRPC] 内存泄漏
- ARROW-7734 - [C++] 比较带和不带详细信息的状态时发生段错误
- ARROW-7740 - [C++] StructArray::Flatten 中数组内部损坏
- ARROW-7755 - [Python] Windows wheel 无法在 Python 3.8 上安装
- ARROW-7758 - [Python] 对超出 pandas 范围的时间戳(例如 0000-01-01)转换错误
- ARROW-7760 - [发布] 修复 verify-release-candidate.sh,因为 pip3 似乎不再在 miniconda 中
- ARROW-7762 - [Python] ParquetWriter 中的异常被忽略
- ARROW-7766 - [Python][打包] Windows py38 wheels 使用了错误的 ABI 标签构建
- ARROW-7772 - [R][C++][Dataset] 无法使用 date64 标量过滤 date32 对象
- ARROW-7775 - [Rust] 不要让安全代码任意地转换 readers 和 writers
- ARROW-7777 - [Go] StructBuilder/ListBuilder 索引越界导致 panic
- ARROW-7780 - [发布] 修复因 Python 3.8 缺少 "m" ABI 标签导致的 Windows wheel RC 验证脚本问题
- ARROW-7781 - [C++][Dataset] 对不存在的列进行过滤导致段错误
- ARROW-7783 - [C++] ARROW_DATASET 应启用 ARROW_COMPUTE
- ARROW-7785 - [C++] sparse_tensor.cc 编译速度极慢
- ARROW-7786 - [R] 在 Table.Equals 方法中启用 check_metadata
- ARROW-7789 - [R] 加载 R.oo 包后无法初始化 arrow 对象
- ARROW-7791 - [C++][Parquet] 修复 "cannot bind lvalue" 的编译错误
- ARROW-7792 - [R] read_* 函数应关闭文件连接
- ARROW-7793 - [Java] 如果存在内存泄漏,基础分配器应在抛出异常前将多余内存释放给父级
- ARROW-7794 - [Rust] 由于 Flight.proto 的相对路径,cargo publish 在 arrow-flight 上失败
- ARROW-7797 - [发布][Rust] 修复 datafusion crate 中 arrow-flight 的版本
- ARROW-7802 - [C++] 在哈希内核中支持 LargeBinary 和 LargeString
- ARROW-7806 - [Python] 为 LargeBinary/String 列表实现 to_pandas
- ARROW-7807 - [R] 在 RHEL 7 上安装时无法调用 io___MemoryMappedFile__Open()
- ARROW-7809 - [R] vignette 无法在 Win 10 和 ubuntu 上运行
- ARROW-7813 - [Rust] 修复未定义行为并移除 unsafe
- ARROW-7815 - [C++] 修复因损坏的 IPC 输入导致的崩溃 (OSS-Fuzz)
- ARROW-7827 - [Python] conda-forge 的 pyarrow 包未启用 s3 支持
- ARROW-7832 - [R] 针对 0.16.0 版本的补丁
- ARROW-7836 - [Rust] "allocate_aligned"/"reallocate" 需要初始化内存以避免未定义行为 (UB)
- ARROW-7837 - [Java] BaseVariableWidthVector.copyFromSafe 中的 bug 导致索引越界异常
- ARROW-7838 - [C++] 已安装的 plasma-store-server 找不到 Boost
- ARROW-7841 - [C++] HADOOP_HOME 无法用于查找 libhdfs.so
- ARROW-7844 - [R] array_to_vector 不是线程安全的
- ARROW-7848 - 为 MapType 添加文档
- ARROW-7852 - [Python] 0.16.0 的 wheels 与旧版 numpy 不兼容
- ARROW-7857 - [Python] 扩展类型转换在 pandas master 分支上测试失败
- ARROW-7861 - [C++][Parquet] 为 parquet 读取器添加模糊测试回归语料库
- ARROW-7884 - [C++][Python] pq.read_table() 崩溃
- ARROW-7887 - [Rust] 过滤内核不支持时间类型
- ARROW-7889 - [Rust] Datafusion CLI 不支持注册 Parquet 文件
- ARROW-7899 - [集成][Java] null 类型集成测试
- ARROW-7908 - [R] 未设置 LIBARROW_DOWNLOAD=true 时无法安装包
- ARROW-7922 - [CI][Crossbow] 每夜构建的 macOS wheel 失败 (brew bundle 版本问题)
- ARROW-7923 - [CI][Crossbow] macOS autobrew 在 homebrew-versions 上失败
- ARROW-7926 - [开发者] "archery lint" 目标对于运行像 IWYU 这样的单个检查不够方便
- ARROW-7928 - [Python] Flight 服务器和客户端的示例无法工作
- ARROW-7931 - [C++] 修复因损坏的 Map 数组输入导致的崩溃 (OSS-Fuzz)
- ARROW-7936 - [Python] FileSystem.from_uri 测试在 python 3.5 上失败
- ARROW-7940 - [C++] 使用非默认设置无法生成 cmake 构建
- ARROW-7958 - [Java] 将 Avro 更新到 1.9.2 版本
- ARROW-7962 - [R][Dataset] 对 "合并 Source 和 Dataset 类" 的后续跟进
- ARROW-7968 - [C++] orc_ep 在 64 位 Raspbian 上构建失败
- ARROW-7973 - [开发者][C++] run_cpplint.py 中出现 ResourceWarning
- ARROW-7974 - [开发者][C++] "make check-format" 中出现 ResourceWarning
- ARROW-7975 - [C++] 不要在 "Buffer" IPC 元数据核算中包含填充字节
- ARROW-7978 - [开发者] GitHub Actions 的 "lint" 任务正在运行 include-what-you-use 并失败
- ARROW-7980 - [Python] 使用 pyarrow 对某些基于时间戳的数据帧进行反序列化时失败
- ARROW-7981 - [C++][Dataset] 在 gcc 5.4 上编译失败
- ARROW-7985 - [C++] 如果底层值构建器为空且已调用 .Reserve,ListBuilder.Finish 会失败
- ARROW-7990 - [C++][开发者] 为运行 "iwyu.sh all" 添加 "archery lint" 选项
- ARROW-7992 - [C++] MSVC 警告导致 sort_to_indices.cc 中的 Appveyor 构建失败
- ARROW-7996 - [Python] 使用 pyarrow 序列化空的 pandas DataFrame 时出错
- ARROW-7997 - [Python] pyarrow 中 Schema 的 equals 方法与文档不一致
- ARROW-7999 - [C++] 修复因损坏的 Map 数组输入导致的崩溃 (OSS-Fuzz)
- ARROW-8000 - [C++] gcc 4.8 构建失败
- ARROW-8003 - [C++] 使用 clang 构建时 -DBZip2_SOURCE=BUNDLED 失败
- ARROW-8006 - [C++] 从 parquet 恢复的 arrow 字典不安全
- ARROW-8007 - [Python] 移除 plasma 测试中未使用且已废弃的 assert_get_object_equal
- ARROW-8008 - [C++/Python] 框架的 Python 被优先使用,即使它不是已激活的
- ARROW-8009 - [Java] 修复 BitVector 的哈希码方法
- ARROW-8011 - [C++] 从 Parquet 读取时,某些缓冲区未调整大小
- ARROW-8013 - [Python][打包] 修复 manylinux wheels
- ARROW-8021 - [Python] Appveyor 的测试运行似乎没有包含 pandas
- ARROW-8036 - [C++] 使用 gtest 1.10.0 编译失败
- ARROW-8042 - [Python] pyarrow.ChunkedArray 的文档字符串关于零长度 ChunkedArray 没有块的描述不正确
- ARROW-8057 - [Python] 不要在 __eq__ 和 __ne__ 中检查 Schema 元数据
-
ARROW-8070 - [C++] 从列表进行不支持的转换时 Cast 导致段错误
to utf8 - ARROW-8071 - [GLib] 使用 configure 构建时出错
- ARROW-8088 - [C++][Dataset] 具有指定字典类型的分区列导致结果全为 null
- ARROW-8091 - [CI][Crossbow] 修复 nightly homebrew 和 R 的构建失败
- ARROW-8092 - [CI][Crossbow] OSX wheels 在捆绑的 bzip2 上构建失败
- ARROW-8094 - [CI][Crossbow] Nightly valgrind 测试失败
- ARROW-8095 - [CI][Crossbow] Nightly turbodbc 任务失败
- ARROW-8098 - [go] 在 Go 1.14 上 Checkptr 失败
- ARROW-8101 - [FlightRPC][Java] 无法只读/写一个空的 null 数组
- ARROW-8102 - [开发] Crossbow 的版本检测在评论机器人的场景下无法工作
- ARROW-8105 - [Python] 当传递带有收缩掩码的掩码数组时,pyarrow.array 出现段错误
- ARROW-8106 - [Python] master 分支上的构建因 pandas 1.0.2 发布而中断
- ARROW-8110 - [C#] 如果包含 NestedType,BuildArrays 会失败
- ARROW-8112 - [FlightRPC][C++] 一些状态码无法通过 gRPC 进行往返转换
- ARROW-8119 - [开发] 使 Yaml 成为 archery 的可选依赖项
- ARROW-8122 - [Python] 带有 shape 的空 numpy 数组无法反序列化
- ARROW-8125 - [C++] "arrow-tests" 目标在使用 ninja 构建时损坏
- ARROW-8127 - [C++] [Parquet] 多页批量写入时列块元数据不正确
- ARROW-8128 - [C#] NestedType 的子项在序列化时使用了错误的长度
- ARROW-8132 - [C++] arrow-s3fs-test 在 master 分支上失败
- ARROW-8133 - [CI] Github Actions 有时无法检出 Arrow
- ARROW-8136 - [C++][Python] 从相对路径创建数据集的功能不再可用
- ARROW-8139 - [C++] FileSystem 枚举导致属性警告
- ARROW-8142 - [C++] 对包含 0 个块的 chunked array 进行类型转换时发生严重错误
- ARROW-8144 - [CI] Cmake 3.2 nightly build 失败
- ARROW-8159 - [Python] pyarrow.Schema.from_pandas 不支持 ExtensionDtype
- ARROW-8166 - [C++] AVX512 内在函数在 Ubuntu 18.04 上使用 clang-8 编译失败
- ARROW-8176 - [FlightRPC][集成] 在集成测试中让 Flight 服务绑定到端口 0
- ARROW-8186 - [Python] Dataset 表达式 != 对无效值返回布尔值而非表达式
- ARROW-8188 - [R] 适应 R-devel 中的最新检查
- ARROW-8193 - [C++] arrow-future-test 在 gcc 4.8 上编译失败
- ARROW-8197 - [Rust] DataFusion 的 "create_physical_plan" 返回不正确的 schema?
- ARROW-8206 - [R] 针对 Linux 安装的向后兼容性进行小修复
- ARROW-8209 - [Python] 按名称访问 Table 中的重复列时给出错误的错误信息
- ARROW-8213 - [Python][Dataset] 使用本地不正确的路径打开数据集时,给出令人困惑的错误消息
- ARROW-8216 - [R][C++][Dataset] 当过滤列缺失时,过滤操作返回全是缺失值的行
- ARROW-8217 - [R][C++] 修复 ARROW-7979 导致在 32 位 Windows 上 test-dataset.R 中崩溃的测试
- ARROW-8219 - [Rust] sqlparser crate 需要升级到 0.2.5 版本
- ARROW-8233 - [CI] "AMD64 Windows MinGW 64 GLib & Ruby" 构建超时
- ARROW-8237 - [Python] 审查针对 conda 和非 conda 用户的开发者构建说明
- ARROW-8238 - [C++][Compute] 在 Windows 上使用 msvc2015 构建 compute 测试失败
- ARROW-8239 - [Java] 修复 splitAndTransfer 方法中的参数检查
- ARROW-8245 - [Python][Parquet] 读取分区 parquet 文件时跳过隐藏目录
- ARROW-8255 - [Rust] [DataFusion] COUNT(*) 导致令人困惑的错误
- ARROW-8259 - [Rust] [DataFusion] ProjectionPushDownRule 不会重写 LIMIT
- ARROW-8268 - [Ruby] 由于缺少内置的 ZSTD 支持,导致测试失败
- ARROW-8269 - [Python] "nopandas" 构建在 test_parquet_row_group_fragments 中失败
- ARROW-8270 - [Python][Flight] 带有 TLS 证书和密钥的 Flight 服务器示例无法工作
- ARROW-8272 - [CI][Python] 在 Ubuntu 16.04 上测试失败
- ARROW-8274 - [C++] 在 IPC 写入时使用 LZ4 帧格式进行 "LZ4" 压缩
- ARROW-8276 - [C++][Dataset] 扫描 Fragment 时未考虑分区列
- ARROW-8280 - [C++] MinGW 构建因 CARES 相关的工具链问题而失败
- ARROW-8286 - [Python] 从 pathlib 创建数据集导致生成 UnionDataset 而不是 FileSystemDataset
- ARROW-8298 - [C++][CI] MinGW 构建在 grpc 时失败
- ARROW-8303 - [Python] 修复由 Python 3.5 上非确定性字典键顺序导致的测试失败
- ARROW-8304 - [Flight][Python] 带有 TLS 根证书的 Flight 客户端在 do_get() 时报告错误
- ARROW-8305 - [Java] ExtensionTypeVector 应确保 underlyingVector 不为 null
- ARROW-8310 - [C++] Minio 的异常未被 IsConnectError() 识别
- ARROW-8315 - [Python][Dataset] 在 test_dataset.py 中不要依赖有序的字典键
- ARROW-8323 - [C++] 将 gRPC 固定在 v1.27 以避免其头文件中的编译错误
- ARROW-8326 - [C++] 不要使用已弃用的 TYPED_TEST_CASE
- ARROW-8327 - [FlightRPC][Java] gRPC trailers 可能为 null
- ARROW-8331 - [C++] arrow-compute-filter-benchmark 编译失败
- ARROW-8333 - [C++][CI] 在某个 C++ CI 条目中始终编译基准测试
- ARROW-8334 - [C++] [Gandiva] LLVM 类型 / 简单 D32 计算函数中缺少 DATE32
- ARROW-8342 - [Python] dask 和 kartothek 集成测试失败
- ARROW-8345 - [Python] feather.read_table 不应要求安装 pandas
- ARROW-8346 - [CI][Ruby] GLib/Ruby macOS 在 zlib 上构建失败
- ARROW-8349 - [CI][NIGHTLY:gandiva-jar-osx] 使用最新的 pygit2
- ARROW-8353 - [C++] 在 parquet writer 中 is_nullable 可能未初始化
- ARROW-8354 - [R] 修复 Table 到 Array 转换时的段错误
- ARROW-8357 - [Rust] [DataFusion] CLI 的 Dockerfile 缺少 format 目录
- ARROW-8358 - [C++] 修复 clang-11 中的 -Wrange-loop-construct 警告
- ARROW-8360 - [C++][Gandiva] 修复日期/时间函数对 date32 的支持
- ARROW-8365 - [C++] 向 S3 写入大于 5 GB 的文件时出错
- ARROW-8366 - [Rust] 需要回滚最近的 arrow-flight 构建更改
- ARROW-8369 - [CI] 修复 crossbow 的通配符组
- ARROW-8373 - [GLib] 在 Meson 构建中解析 gobject-introspection 和 arrow 时出现问题
- ARROW-8380 - [RUST] StringDictionaryBuilder 未从 arrow::array 公开导出
- ARROW-8384 - [C++][Python] arrow/filesystem/hdfs.h 和 Python 包装器没有设置 Kerberos ticket 路径的选项
- ARROW-8386 - [Python] pyarrow.jvm 对空数组引发错误
- ARROW-8388 - [C++] GCC 4.8 在返回时移动失败
- ARROW-8397 - [C++] 在 Ubuntu 16.04 上编译 aggregate_test.cc 失败
- ARROW-8406 - [Python] 在 Windows 上从不同驱动器运行时 test_fs 失败
- ARROW-8410 - [C++] 在不支持 -march=armv8-a+crc+crypto 的 aarch64 系统上 CMake 失败
- ARROW-8414 - [Python] test_parquet.py 中因行顺序不确定导致的失败
- ARROW-8415 - [C++][打包] 修复 gandiva linux 作业
- ARROW-8416 - [Python] 在 dataset API 中提供 "feather" 别名
- ARROW-8420 - [C++] CMake 在 armv7l 平台(例如 Raspberry Pi 3)上配置失败
- ARROW-8427 - [C++][Dataset] 当指定完整路径时,不忽略带有下划线/点的文件路径
- ARROW-8428 - [C++][NIGHTLY:gandiva-jar-trusty] GCC 4.8 在 C++ 单元测试中失败
- ARROW-8429 - [C++] 修复在 0 大小缓冲区上的 Buffer::CopySlice
- ARROW-8432 - [Python][CI] 下载 Hadoop 失败
- ARROW-8437 - [C++] 从 MakeRandomNullBitmap 测试工具中移除 std::move 返回值
- ARROW-8438 - [C++] arrow-io-memory-benchmark 崩溃
- ARROW-8439 - [Python] Filesystem 文档已过时
- ARROW-8441 - [C++] 修复因无效输入导致的崩溃 (OSS-Fuzz)
- ARROW-8442 - [Python] NullType.to_pandas_dtype 与 to_pandas/to_numpy 返回的 dtype 不一致
- ARROW-8460 - [打包][deb] Ubuntu Focal 构建失败
- ARROW-8465 - [打包][Python] Windows py35 wheel 构建因 boost 而失败
- ARROW-8466 - [打包] python 单元测试未在 windows wheel 构建中运行
- ARROW-8468 - [文档] 修复不正确的 null 位描述
- ARROW-8469 - [开发] 修复 azure 上的 nightly docker 测试
- ARROW-8478 - [Java] 回滚 contrib 包的更改
- ARROW-8498 - [Python] Schema.from_pandas 在扩展类型上失败,而 Table.from_pandas 正常工作
- ARROW-8511 - [开发者][发布] 如果 C++ 编译失败,Windows 发布验证脚本不会停止
- PARQUET-1780 - [C++] 设置 ColumnMetadata.encoding_stats 字段
- PARQUET-1788 - [C++] ColumnWriter 在写入 arrow 块时存在未定义行为
- PARQUET-1797 - [C++] 修复模糊测试错误
- PARQUET-1799 - [C++] 流式 API:读取时放宽 schema 检查
- PARQUET-1810 - [C++] 修复因无效枚举值导致的未定义行为 (OSS-Fuzz)
- PARQUET-1813 - [C++] 移除单元测试中的日志记录语句
- PARQUET-1819 - [C++] 修复因损坏的 IPC 输入导致的崩溃 (OSS-Fuzz)
- PARQUET-1823 - [C++] 使用 parquet::arrow::FileReader->RowGroup(i)->Column(j) 读取时返回无效的 RowGroup
- PARQUET-1829 - [C++] 修复因无效输入导致的崩溃 (OSS-Fuzz)
- PARQUET-1831 - [C++] 修复因无效输入导致的崩溃 (OSS-Fuzz)
- PARQUET-1835 - [C++] 修复因无效输入导致的崩溃 (OSS-Fuzz)