Apache Arrow 0.17.0 (2020 年 4 月 20 日)
这是一个重要的版本,涵盖了超过 2 个月的开发。
下载
贡献者
此版本包含来自 79 位不同贡献者的 569 次提交。
$ git shortlog -sn apache-arrow-0.16.0..apache-arrow-0.17.0
80 Antoine Pitrou
78 Krisztián Szűcs
58 Wes McKinney
55 Neal Richardson
39 Sutou Kouhei
30 Benjamin Kietzman
26 Joris Van den Bossche
20 Andy Grove
13 liyafan82
11 David Li
11 François Saint-Jacques
8 Micah Kornfield
8 Projjal Chanda
7 Max Burke
7 Prudhvi Porandla
6 Kenta Murata
6 Uwe L. Korn
6 Yibo Cai
6 tianchen
5 Frank Du
5 Martin Radev
4 Rok
3 Paddy Horan
3 Takashi Hashida
3 Yosuke Shiro
3 Zhuo Peng
2 Bryan Cutler
2 David Kegley
2 Jacek Pliszka
2 Ji Kunshang
2 Jorge C. Leitao
2 Jörn Horstmann
2 Kazuaki Ishizaki
2 Markus Westerlind
2 Morgan Cassels
2 Ryan Murray
2 Sam Albers
2 Siyuan
2 Stephanie Wang
2 Yuqi Gu
2 gawain.bolton
1 Adam Hooper
1 Andreas Zimmerer
1 Bryant Biggs
1 Chao Sun
1 Dan Nugent
1 Dominik Durner
1 Eyal Farago-Hagag
1 Grant Monroe
1 Hatem Helal
1 Ismaël Mejía
1 John Muehlhausen
1 Ken Suenobu
1 Kevin Conaway
1 Li, Jiajia
1 Mahmut Bulut
1 Marius van Niekerk
1 Michael Chirico
1 NAITOH Jun
1 Neville Dipale
1 Omega Gamage
1 Onur Satici
1 Palmer Lao
1 Paul Balanca
1 Prudhvi
1 Ravindra Wagh
1 Richard Artoul
1 Sebastien Binet
1 TP Boudreau
1 Tarek Allam
1 Tobias Mayer
1 Yuan Zhou
1 Zherui Cao
1 andy-thomason
1 caleboverman
1 mubai
1 psuman
1 ravindra-wagh
1 wenjun.swj
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -csn apache-arrow-0.16.0..apache-arrow-0.17.0
128 Wes McKinney
109 Krisztián Szűcs
86 Antoine Pitrou
61 Neal Richardson
60 Sutou Kouhei
33 Benjamin Kietzman
23 Andy Grove
14 François Saint-Jacques
10 Micah Kornfield
7 Paddy Horan
7 Praveen
5 David Li
5 Sebastien Binet
3 GitHub
3 Joris Van den Bossche
3 Neville Dipale
3 Pindikura Ravindra
3 Yosuke Shiro
2 Bryan Cutler
2 Philipp Moritz
1 Brian Hulette
1 Chao Sun
更新日志
新功能和改进
- ARROW-1560 - [C++] “match” 函数的内核实现
- ARROW-1571 - [C++] 使用 O(n) 计数排序实现整数的 argsort 内核(排序索引)
- ARROW-1581 - [打包] 使夜间构建的 wheels 可用于安装的工具
- ARROW-1582 - [Python] 设置 + 文档化 macOS 的夜间 conda 构建
- ARROW-1636 - [格式] 空类型的集成测试
- ARROW-2447 - [C++] 创建设备抽象
- ARROW-3054 - [打包] 使夜间 conda 包能够更新到 anaconda.org 频道的工具
- ARROW-3410 - [C++][Dataset] 用于内存受限环境的流式 CSV 读取器接口
- ARROW-3750 - [R] 使用 reticulate 通过零拷贝将 Python 中创建的各种包装 Arrow 对象传递到 R 中
- ARROW-4120 - [Python] 定义测试过程的流程,以检查是否存在宏级别的内存泄漏
- ARROW-4226 - [格式][C++] 添加 CSF 稀疏张量支持
- ARROW-4304 - [Rust] 增强 arrow 的文档
- ARROW-4428 - [R] R 构建的功能标志
- ARROW-4482 - [网站] 添加博客存档页面
- ARROW-4815 - [Rust] [DataFusion] 在 SQL 投影中添加对 * 的支持
- ARROW-5357 - [Rust] 在 Buffer 中添加 capacity 字段
- ARROW-5405 - [文档] 将集成测试文档移至 Sphinx 文档,添加 JavaScript 的说明
- ARROW-5497 - [发布] 构建和发布 R/Java/JS 文档
- ARROW-5501 - [R] 重新组织读取/写入文件/流函数
- ARROW-5510 - [格式] 基于 Arrow IPC 文件格式的 Feather V2,具有压缩支持
- ARROW-5563 - [格式] 更新集成测试 JSON 格式文档
- ARROW-5585 - [Go] 将 arrow.TypeEquals 重命名为 arrow.TypeEqual
- ARROW-5742 - [CI] 添加每日/每周 Valgrind 构建
- ARROW-5757 - [Python] 停止支持 Python 2.7
- ARROW-590 - [集成] 为 Union 类型添加集成测试
- ARROW-5949 - [Rust] 实现 DictionaryArray
- ARROW-6165 - [集成] 使用多进程在多个 CPU 核心上运行集成测试
- ARROW-6176 - [Python] 允许子类化 ExtensionArray 以附加到自定义扩展类型
- ARROW-6393 - [C++] 在 SparseTensor::Equals 中添加 EqualOptions 支持
- ARROW-6479 - [C++] 内联来自外部项目构建日志的错误
- ARROW-6510 - [Python][文件系统] 公开纳秒分辨率的 mtime
- ARROW-6666 - [Rust] [DataFusion] 实现字符串字面量表达式
- ARROW-6724 - [C++] 为 BufferOutputStream 添加比当前 Create 函数更简单的静态构造函数
- ARROW-6821 - [C++][Parquet] 构建时不需要 Thrift 编译器(但仍然需要库)
- ARROW-6823 - [C++][Python][R] 支持 feather 格式的元数据?
- ARROW-6837 - [C++/Python] 访问文件页脚 custom_metadata
- ARROW-6841 - [C++] 升级到 LLVM 8
- ARROW-6875 - [FlightRPC] 为 ListFlights RPC / list_flights 方法实现 Criteria
- ARROW-6915 - [开发者] 不要使用合并脚本覆盖次要版本号,即使提交者未指定
- ARROW-6947 - [Rust] [DataFusion] 添加对标量 UDF 的支持
- ARROW-6996 - [Python] 在 Table 上公开布尔过滤器内核
- ARROW-7044 - [发布] 为 home-brew 公式创建一个发布后脚本
- ARROW-7048 - [Java] 支持在 VectorSchemaRoot 下组合多个向量
- ARROW-7063 - [C++] Schema print 方法打印太多元数据
- ARROW-7073 - [Java] 支持批量连接向量值
- ARROW-7080 - [Python][Parquet][C++] 在 Schema 对象中公开 parquet field_id
- ARROW-7091 - [C++] 将所有工厂移动到 type_fwd.h
- ARROW-7119 - [C++][CI] 使用 scripts/util_coredump.sh 显示自动回溯
- ARROW-7201 - [GLib][Gandiva] 添加对 BooleanNode 的支持
- ARROW-7202 - [R][CI] 改进 CI 上的 rwinlib 构建,以停止重新下载依赖项
- ARROW-7222 - [Python][发布] 在更新网站时清除任何现有的生成的 Python API 文档
- ARROW-7233 - [C++] 添加 Result
IPC 模块的 API - ARROW-7256 - [C++] 删除 ARROW_MEMORY_POOL_DEFAULT 宏
- ARROW-7330 - [C++] 添加 Result
到 arrow/gpu 的 API - ARROW-7332 - [C++][Parquet] 在 PARQUET_CATCH_NOT_OK 中显式捕获状态异常
- ARROW-7336 - [C++] 实现 MinMax 选项以不跳过空值
- ARROW-7338 - [C++] 改进 InMemoryDataSource 以支持生成器而不是静态列表
- ARROW-7365 - [Python] 支持转换为 numpy/pandas 中的 FixedSizeList 类型
- ARROW-7400 - [Java] 避免快速排序的最坏情况
- ARROW-7412 - [C++][Dataset] 确保数据集代码对于具有重复字段名称的模式是健壮的
- ARROW-7419 - [Python] 支持 SparseCSCMatrix
- ARROW-7427 - [Python] 支持 SparseCSFTensor
- ARROW-7428 - [格式][C++] 为 CSF 稀疏张量添加序列化
- ARROW-7444 - [GLib] 添加 LocalFileSystem 支持
- ARROW-7462 - [C++] 添加对 Arm64 架构的 CpuInfo 检测
- ARROW-7491 - [Java] 提高对齐的性能
- ARROW-7515 - [C++] 将 nonexistent 和 non_existent 重命名为 not_found
- ARROW-7524 - [C++][CI] 在 VS2019 GitHub Actions 作业中构建 parquet 支持
- ARROW-7530 - [开发者] 不要将 PR 中的提交列表包含在压缩摘要消息中
- ARROW-7534 - [Java] 创建一个新的 java/contrib 模块
- ARROW-7547 - [C++] [Python] [Dataset] ParquetFileFormat 中的其他读取器选项
- ARROW-7587 - [C++][Compute] 添加 Top-k 内核
- ARROW-7608 - [C++][Dataset] 公开更多信息属性
- ARROW-7615 - [CI][Gandiva] 确保 gandiva_jni 库在 Travis CI 作业中仅具有一组白名单的共享依赖项
- ARROW-7616 - [Java] 支持比较密集联合向量的值范围
- ARROW-7625 - [GLib] Parquet GLib 和 Red Parquet (Ruby) 不允许指定压缩类型
- ARROW-7641 - [R] 使数据集小插图具有可执行代码
- ARROW-7662 - [R] 支持从 R 列表创建 ListArray
- ARROW-7664 - [C++] 从 FileSystemFromUri 中提取 localfs 默认值
- ARROW-7675 - [R][CI] 将 Windows CI 从 Appveyor 迁移到 GHA
- ARROW-7679 - [R] 用于创建 UnionDataset 的更简洁的接口
- ARROW-7684 - [Rust] 为 DataFusion 提供 Flight 服务器示例
- ARROW-7685 - [开发者] 为 Crossbow 添加 GitHub Actions 支持
- ARROW-7691 - [C++] 遍历 Flatbuffers 数据时验证缺失字段
- ARROW-7708 - [发布] 在发布变更日志中包含 git 变更日志中的 PARQUET 提交
- ARROW-7712 - [CI][Crossbow] 修复或删除 fuzzit 任务
- ARROW-7720 - [C++][Python] 为 Table.equals 添加 check_metadata 参数
- ARROW-7725 - [C++] 为统一构建和预编译头添加基础设施
- ARROW-7726 - [CI] [C++] 在 Windows GHA 构建上使用 boost 二进制文件
- ARROW-7729 - [Python][CI] 在 dask 集成测试中将 pandas 版本固定为 0.25
- ARROW-7733 - [开发者] 本地安装足够新版本的 Go 用于发布验证脚本
- ARROW-7735 - [发布] conda-forge 通道缺少用于验证 wheels
- ARROW-7736 - [发布] 二进制验证有时会因瞬时错误而失败
- ARROW-7739 - [GLib] 使用 placement new 在私有结构中初始化 shared_ptr 对象
- ARROW-7741 - [C++][Parquet] 在 parquet 写入路径中合并新的级别生成逻辑,并使用标志恢复旧逻辑
- ARROW-7742 - [GLib] 添加对 MapArray 的支持
- ARROW-7745 - [文档] [C++] 更新 Parquet 文档
- ARROW-7749 - [C++] 将更多测试链接在一起
- ARROW-7750 - [发布] 使源代码发布验证脚本可重启
- ARROW-7751 - [发布] macOS wheel 验证也需要 arrow-testing
- ARROW-7752 - [发布] 在验证脚本中启用并测试数据集
- ARROW-7754 - [C++] Result
很慢 - ARROW-7761 - [C++] 为 fs::FileSystemFromUri 添加 S3 支持
- ARROW-7764 - [C++] 即使没有 null 值,构建器也会分配一个 null 位图缓冲区
- ARROW-7771 - [开发者] 在验证脚本中使用 ARROW_TMPDIR 环境变量而不是 TMPDIR
- ARROW-7774 - [打包][Python] 更新 macOS 和 Windows wheel 文件名
- ARROW-7787 - [Rust] 向 Table API 添加 collect
- ARROW-7788 - [C++] 为 map 类型添加模式转换支持
- ARROW-7790 - [网站] 更新如何安装 Linux 软件包
- ARROW-7795 - [Rust - DataFusion] 支持布尔取反 (NOT)
- ARROW-7796 - [R] write_* 函数应该隐式返回它们的输入
- ARROW-7799 - [R][CI] 从 homebrew 公式中删除 flatbuffers
- ARROW-7804 - [C++][R] macOS 10.11 上的编译错误
- ARROW-7812 - [打包][Python] 升级 manylinux1 docker 镜像中的 LLVM
- ARROW-7817 - [CI] macOS R autobrew 夜间构建在从源代码安装依赖项时失败
- ARROW-7819 - [C++][Gandiva] 向 Filter/Projector 类添加 DumpIR
- ARROW-7824 - [C++][Dataset] 提供数据集写入 IPC 格式
- ARROW-7828 - [发布] 删除内部使用的 SSH 密钥
- ARROW-7829 - [R] 在 clang 上测试 R 绑定
- ARROW-7833 - [R] 使 install_arrow() 真正安装 arrow
- ARROW-7834 - [发布] 用于更新文档的发布后任务
- ARROW-7839 - [Python][Dataset] 为 python 绑定添加 IPC 格式
- ARROW-7846 - [Python][Dev] 删除对 six 的最后依赖
- ARROW-7849 - [打包][Python] 从夜间构建中删除剩余的 py27 crossbow wheel 任务
- ARROW-7858 - [C++][Python] 支持将扩展类型转换为其存储类型
- ARROW-7859 - [R] 用于 CRAN 提交 0.16.0.2 的小补丁
- ARROW-7862 - [R] 默认情况下,Linux 安装应该更安静
- ARROW-7863 - [C++][Python][CI] 确保运行 HDFS 相关测试
- ARROW-7864 - [R] 确保即使存在系统软件包,捆绑安装也能正常工作
- ARROW-7865 - [R] 在最新的 Linux 版本上测试构建
- ARROW-7868 - [Crossbow] 减少 GitHub API 查询并行度
- ARROW-7869 - [Python] Python wheels 中不再需要 Boost::system 和 boost::filesystem
- ARROW-7872 - [Python] 支持在 Array/Table.to_pandas 中转换 struct 列表
- ARROW-7874 - [Python][Archery] 使用 numpydoc 验证文档字符串
- ARROW-7876 - [R] 安装在文档生成镜像中失败
- ARROW-7877 - [打包] 修复 crossbow 部署到 github 工件
- ARROW-7879 - [C++][文档] 为 Device API 添加文档
- ARROW-7880 - [CI][R] R sanitizer 任务实际上没有工作
- ARROW-7881 - [C++] 修复 pedantic 警告
- ARROW-7882 - [C++][Gandiva] 优化子字符串模式的 like 函数
- ARROW-7886 - [C++][Dataset] 合并 Source 和 Dataset
- ARROW-7888 - [Python] 允许在 pyarrow.jvm 中使用更新版本的 jpype
- ARROW-7890 - [C++] 添加 Promise / Future 实现
- ARROW-7891 - [C++] RecordBatch->Equals 也应该有一个 check_metadata 参数
- ARROW-7892 - [Python] 公开 FilesystemSource.format 属性
- ARROW-7895 - [Python] 删除更多 python 2.7 的遗留代码
- ARROW-7896 - [C++] 将 #include guards 重构为 #pragma once
- ARROW-7897 - [打包] 暂时禁用工件上传,直到我们解决部署问题
- ARROW-7898 - [Python] 使用 numpydoc 减少文档字符串违规的数量
- ARROW-7904 - [C++] 决定 Field/Schema 元数据打印参数以及默认显示多少
- ARROW-7907 - [Python] 带有时间戳类型的空表转换为 pandas 时中止
- ARROW-7912 - [格式] C 数据接口
- ARROW-7913 - [C++][Python][R] C 数据接口的 C++ 实现
- ARROW-7915 - [CI] [Python] 在启用 Python 开发模式的情况下运行测试
- ARROW-7916 - [C++][Dataset] 将 IPC 记录批次投影到物化字段
- ARROW-7917 - [CMake] FindPythonInterp 应该检查 python3
- ARROW-7919 - [R] 如果合适,install_arrow() 应该使用 conda 安装
- ARROW-7920 - [R] 填写一些缺失的输入验证
- ARROW-7921 - [Go] 向各种组件添加 Reset 方法并清理注释
- ARROW-7927 - [C++] 修复 ‘cpu_info.cc’ 编译警告
- ARROW-7929 - [C++] CMake 目标名称与上游提供的名称不同
- ARROW-7930 - [Python][CI] 在 CI 中测试 jpype 集成
- ARROW-7932 - [Rust] [Parquet] 实现时间类型数组读取器
- ARROW-7934 - [C++] 修复空字符串的 UriEscape
- ARROW-7935 - [Java] 删除 BufferAllocator 和 ReferenceManager 的 Netty 依赖项
- ARROW-7937 - [Python][打包] 从 macOS wheels 中删除 boost
- ARROW-7941 - [Rust] [DataFusion] 逻辑计划应该支持未解析的列引用
- ARROW-7943 - [C++][Parquet] 添加一个新的级别构建器,能够处理嵌套数据
- ARROW-7947 - [Rust] [Flight] [DataFusion] 实现 get_schema 的示例
- ARROW-7949 - [开发者] 更新 ‘.gitignore’ 以不跟踪用户特定的 ‘cpp/Brewfile.lock.json’ 文件
- ARROW-7951 - [Python][Parquet] 将 BYTE_STREAM_SPLIT 公开给 pyarrow
- ARROW-7959 - [Ruby] 再次添加对 Ruby 2.3 的支持
- ARROW-7963 - [C++][Python][Dataset] 公开列表片段
- ARROW-7965 - [Python] 改进更高级别的数据集 API
- ARROW-7966 - [集成][Flight][C++] 客户端应该独立验证每个批次
- ARROW-7969 - [打包] 使用 cURL 上传工件
- ARROW-7970 - [打包][Python] 使用系统 boost 构建 macOS wheels
- ARROW-7971 - [Rust] 创建行计数实用程序
- ARROW-7977 - [C++] 将 fs::FileStats 重命名为 fs::FileInfo
- ARROW-7979 - [C++] 在 IPC 消息中实现实验性的缓冲区压缩
- ARROW-7982 - [C++] 让 ArrayDataVisitor 接受返回 void 的函数
- ARROW-7983 - [CI][R] 夜间构建失败时应更详细
- ARROW-7984 - [R] 在更多地方检查有效输入
- ARROW-7986 - [Python] pa.Array.from_pandas 无法转换包含 pyspark.ml.linalg.SparseVector 的 pandas.Series
- ARROW-7987 - [CI][R] 修复详细夜间构建
- ARROW-7988 - [R] 修复 reticulate 绑定中的 on.exit 调用
- ARROW-7991 - [C++][Plasma] 允许在创建对象时选择是否在满时驱逐
- ARROW-7993 - [Java] 在 ComplexCopier 中支持 decimal 类型
- ARROW-7994 - [CI][C++] 将 AppVeyor MinGW 构建迁移到 GitHub Actions
- ARROW-7995 - [C++] IO: 合并和缓存读取范围
- ARROW-7998 - [C++][Plasma] 使 Seal 请求同步
- ARROW-8005 - [网站] 检查并调整网站/工具中 Apache dist 系统的所有用法
- ARROW-8014 - [C++] 提供 CMake 目标,以便仅在给定标签内进行测试
- ARROW-8016 - [开发者] 修复 PR 合并工具中的弃用警告
- ARROW-8018 - [C++][Parquet] Parquet 模块化加密
- ARROW-8024 - [R] BinaryType 和 FixedBinaryType 的绑定
- ARROW-8026 - [Python] 除了字符串值类型外,支持 memoryview 用于构造字符串和二进制类型数组
- ARROW-8027 - [开发者][集成] 为重复的字段名添加集成测试
- ARROW-8028 - [Go] 允许在 schema 和嵌套类型中使用重复的字段名
- ARROW-8030 - [C++][Plasma] 修复不一致的注释风格
- ARROW-8039 - [Python][Dataset] 支持在 pyarrow.parquet 中使用数据集 API,并使用最小的 ParquetDataset shim
- ARROW-8044 - [CI][NIGHTLY:gandiva-jar-osx] pygit2 需要 libgit2 v1.0.x
- ARROW-8055 - [GLib][Ruby] 向 GArrowSchema 添加一些元数据绑定
- ARROW-8058 - [C++][Python][Dataset] 在 FileSystemDatasetFactoryOptions 中提供一个选项来切换验证和 schema 推断
- ARROW-8059 - [Python] 使 FileSystem 对象可序列化
- ARROW-8060 - [Python] 使数据集 Expression 对象可序列化
- ARROW-8061 - [C++][Dataset] 指定 ParquetFileFragment 粒度的能力 (支持行组)
- ARROW-8063 - [Python] 为 Datasets API 添加用户指南文档
- ARROW-8064 - [Dev] 通过 Github Actions 实现评论机器人
- ARROW-8072 - [C++][Plasma] 在解析数据时添加 const 约束
- ARROW-8077 - [Python] 为 Python 3.5 上的 Windows 添加 wheel 构建脚本和 Crossbow 配置
- ARROW-8079 - [Python] 实现 KeyValueMetadata 的包装器,在相关位置进行 duck-typing dict
- ARROW-8080 - [C++] 添加 AVX512 构建选项
- ARROW-8082 - [Java][Plasma] 添加 JNI list() 接口
- ARROW-8083 - [GLib] 向 GIOInputStream 添加 Peek() 的支持
- ARROW-8086 - [Java] 支持在 UnionListWriter 中从大端字节数组写入 decimal
- ARROW-8087 - [C++][Dataset] 使用 HivePartitioning 时,键的顺序在结果 schema 中丢失
- ARROW-8096 - [C++][Gandiva] 创建 Interval 类型的 null 节点
- ARROW-8097 - [Dev] 评论机器人的 crossbow 命令作用于 master 分支
- ARROW-8103 - [R] 使默认的 Linux 构建更小
- ARROW-8104 - [C++] 不要安装捆绑的 Thrift
- ARROW-8107 - [打包][APT] 对 Debian GNU/Linux stretch 使用 HTTPS 作为 LLVM APT 存储库
- ARROW-8109 - [打包][APT] 删除对 Ubuntu Disco 的支持
- ARROW-8117 - [Rust] [Datafusion] 允许从数字转换为时间戳
- ARROW-8118 - [R] FileSystemDataset 的 dim 方法
- ARROW-8120 - [打包][APT] 添加对 Ubuntu Focal 的支持
- ARROW-8123 - [Rust] [DataFusion] 创建 LogicalPlanBuilder
- ARROW-8124 - [Rust] 更新库依赖项
- ARROW-8126 - [C++][Compute] 添加 Top-K 内核基准
- ARROW-8129 - [C++][Compute] 改进比较排序内核
- ARROW-8130 - [C++][Gandiva] 修复 llvm_generator 中的 Dex 访问者以处理 interval 类型
- ARROW-8140 - [开发者] 跟随 NullType -> NullField 的更改
- ARROW-8141 - [C++] 使用 AVX512 Intrinsics API 优化 BM_PlainDecodingBoolean 的性能
- ARROW-8145 - [C++] 重命名 GetTargetInfos
- ARROW-8146 - [C++] 添加每个文件系统的工具来清理路径
- ARROW-8150 - [Rust] 允许写入自定义 FileMetaData 键/值对
- ARROW-8151 - [基准测试][Dataset] 使用 S3File 对 Parquet 读取性能进行基准测试
- ARROW-8153 - [打包] 更新 conda feedstock 文件并将工件上传到 Anaconda
- ARROW-8158 - [Java] 获取数据缓冲区和基本可变宽度向量的长度
- ARROW-8164 - [C++][Dataset] 允许数据集以不完全相同的 schema 查看
- ARROW-8165 - [打包] 使 nightly wheel 在 PyPI 服务器上可用
- ARROW-8167 - [CI] 添加支持,以便使用 pull 请求标题中的跳过模式跳过构建
- ARROW-8168 - [Java][Plasma] 改进 Java Plasma 客户端的堆外内存使用
- ARROW-8177 - [Rust] 使 schema_to_fb_offset 公开
- ARROW-8178 - [C++] 升级到 Flatbuffers 1.12
- ARROW-8179 - [R] 为 GHA 上的 nightly 打包调整 Windows 构建脚本
- ARROW-8181 - [Java][FlightRPC] 公开传输错误元数据
- ARROW-8182 - [打包] 增加从最新 git 标签检测到的版本号
- ARROW-8183 - [c++][FlightRPC] 公开传输错误元数据
- ARROW-8184 - [打包] 在 Anaconda 和 Gemfury 上使用 arrow-nightlies 组织名称来托管 nightlies
- ARROW-8185 - [打包] 文档化可用的 nightly wheel 和 conda 包
- ARROW-8187 - [R] 使测试断言对 i18n 具有鲁棒性
- ARROW-8191 - [打包][APT] 修复 Debian GNU/Linux Stretch 中的 cmake 删除问题
- ARROW-8192 - [C++] 用于解压缩 avx512 内联代码的脚本
- ARROW-8194 - [CI] Github Actions Windows 作业应并行运行测试
- ARROW-8195 - [CI] 删除 Github Actions 中的 Boost 下载步骤
- ARROW-8198 - [C++] Diffing 应处理 null 数组
- ARROW-8200 - [GLib] 将 garrow_file_system_target_info{,s}() 重命名为 …_file_info{,s}()
- ARROW-8203 - [C#] “dotnet pack” 失败
- ARROW-8204 - [Rust] [DataFusion] 添加对 SQL 中别名表达式的支持
- ARROW-8207 - [打包][wheel] 在 manylinux2010 和 manylinux2014 中使用 LLVM 8
- ARROW-8215 - [CI][GLib] Meson 安装在 macOS 构建中失败
- ARROW-8218 - [C++] 在实验性 IPC 压缩代码中并行化字段级别的解压缩
- ARROW-8220 - [Python] 使数据集 FileFormat 对象可序列化
- ARROW-8222 - [C++] 使用 bcp 为捆绑构建创建精简的 boost
- ARROW-8224 - [C++] 删除 0.16.0 之前弃用的 API
- ARROW-8225 - [Rust] IPC 读取器必须遵守延续标记
- ARROW-8227 - [C++] 改进 SIMD 功能定义
- ARROW-8231 - [Rust] 将 parquet FileMetaData 中的 key_value_metadata 解析为 arrow schema 元数据
- ARROW-8232 - [Python] 弃用 pa.open_file 和 pa.open_stream,改用 pa.ipc.open_file/open_stream
- ARROW-8241 - [Rust] 向 Schema 添加便捷方法
- ARROW-8242 - [C++] Flight 在 GCC 4.8 上无法编译
- ARROW-8243 - [Rust] [DataFusion] 修复 LogicalPlanBuilder 中不一致的 API
- ARROW-8244 - [Python][Parquet] 添加 `write_to_dataset` 选项以填充“file_path”元数据字段
- ARROW-8246 - [C++] 使用 MinGW 编译时添加 -Wa,-mbig-obj 以避免链接错误
- ARROW-8247 - [Python] 在 pyarrow.parquet.write_table 中公开 Parquet 写入“引擎”设置
- ARROW-8249 - [Rust] [DataFusion] 使 Table 和 LogicalPlanBuilder API 更一致
- ARROW-8252 - [CI][Ruby] 添加 Ubuntu 20.04
- ARROW-8256 - [Rust] [DataFusion] 更新 0.17.0 版本的 CLI 文档
- ARROW-8264 - [Rust] [DataFusion] 创建用于打印记录批次的实用程序
- ARROW-8266 - [C++] 为外部项目源下载添加备份镜像
- ARROW-8267 - [CI][GLib] 在 Ubuntu 16.04 上构建失败
- ARROW-8271 - [打包] 允许 wheel 上传到 gemfury 失败
- ARROW-8275 - [Python][Docs] 根据 “Feather V2” 的更改,审查 Feather + IPC 文件文档
- ARROW-8277 - [Python] RecordBatch 接口改进
- ARROW-8279 - [C++] 不要从 Codec 实现中导出符号,删除对 PIMPL 模式的需求
- ARROW-8288 - [Python] 公开 DataType 上的 with_ 修饰符
- ARROW-8290 - [Python][Dataset] 改进 FileSystemDataset 构造函数的工程性
- ARROW-8291 - [打包] Conda 夜间构建无法找到 Numpy
- ARROW-8292 - [Python][数据集] 在 dataset() 函数中将 schema 传递给 Factory.finish()
- ARROW-8294 - [格式][Flight] 向 Flight 协议添加 DoExchange RPC
- ARROW-8295 - [C++][数据集] IpcFileFormat 应该显式地向下推送列投影
- ARROW-8299 - [C++] 用于可选多线程的可重用 “可选 ParallelFor” 函数
- ARROW-8300 - [R] 0.17 的文档和变更日志更新
- ARROW-8307 - [Python] 在 pyarrow.feather API 中公开 use_memory_map 选项
- ARROW-8308 - [Rust] [Flight] 在示例中实现 DoExchange
- ARROW-8309 - [CI] C++/Java/Rust 工作流应该在 Flight.proto 更改时触发
- ARROW-8311 - [C++] 添加推送式流格式读取器
- ARROW-8316 - [CI] 设置 docker-compose 使用 docker-cli 而不是 docker-py 来构建镜像
- ARROW-8319 - [CI] 在 debian 构建中安装 thrift 编译器
- ARROW-8320 - [文档][格式] 阐明 C 数据接口中的对齐要求(或缺乏对齐要求)
- ARROW-8321 - [CI] 在 Fedora 30 构建中使用捆绑的 thrift
- ARROW-8322 - [CI] 修复 C# 工作流文件语法
- ARROW-8325 - [R][CI] 停止在 R windows 包中包含 boost
- ARROW-8329 - [文档][C++] Filter 内核中未记录的 FilterOptions 参数
- ARROW-8330 - [文档] 发布后脚本使用开发版本生成文档
- ARROW-8332 - [C++] 要求 Thrift 编译器在 Parquet 构建中使用系统 libthrift
- ARROW-8335 - [发布] 添加 crossbow 作业以运行发布验证
- ARROW-8336 - [打包][deb] 在 Debian 10 和 Ubuntu 19.10 或更高版本上使用 libthrift-dev
- ARROW-8341 - [打包][deb] 因磁盘空间不足而构建失败
- ARROW-8343 - [GLib] 添加 GArrowRecordBatchIterator
- ARROW-8347 - [C++] 向 Array 方法添加 Result API
Array 方法的 API - ARROW-8351 - [R][CI] 将 Rtools 构建的 Arrow C++ 库存储为构建工件
- ARROW-8352 - [R] 添加 install_pyarrow()
- ARROW-8356 - [开发] 通过 GitHub 操作支持 “crossbow submit” 的 * 通配符
- ARROW-8361 - [C++] 向 Buffer 方法和函数添加 Result API
Buffer 方法和函数的 API - ARROW-8362 - [Crossbow] 确保在 docker 任务中使用本地生成的版本
- ARROW-8367 - [C++] 弃用 Buffer::FromString(…, pool)
- ARROW-8368 - [格式] 在 C 接口中,阐明仅需要 ArrowArray 中子字段子集的消费者的资源管理
- ARROW-8370 - [C++] 向 type/schema API 添加 Result
到类型/模式 API - ARROW-8371 - [Crossbow] 实现并练习 tasks.yml 的健全性检查
- ARROW-8372 - [C++] 向 table/record batch API 添加 Result
到表/记录批次 API - ARROW-8375 - [CI][R] 在发生段错误时使 Windows 测试更详细
- ARROW-8376 - [R] 向 ScanTask/RecordBatch 迭代器添加实验性接口
- ARROW-8387 - [Rust] 使 schema_to_fb 公开
- ARROW-8389 - [集成] 并行运行测试
- ARROW-8390 - [R] 公开模式统一功能
- ARROW-8393 - [C++][Gandiva] 使 gandiva 函数注册表不区分大小写
- ARROW-8396 - [Rust] 从依赖项中删除 libc
- ARROW-8398 - [Python] 删除源自 Python 测试的弃用警告
- ARROW-8401 - [C++] 添加 ByteStreamSplitDecode/ByteStreamSplitEncode 的 AVX2/AVX512 版本
- ARROW-8403 - [C++] 向 ChunkedArray、Table 和 RecordBatch 添加 ToString()
- ARROW-8407 - [Rust] 为 Dictionary 类型添加 rustdoc
- ARROW-8408 - [Python] 向 pyarrow.feather.read_feather 添加 memory_map= 开关
- ARROW-8409 - [R] 添加 arrow::cpu_count, arrow::set_cpu_count 包装函数,类似于 Python
- ARROW-8412 - [C++][Gandiva] 修复 gandiva date_diff 函数定义
- ARROW-8433 - [R] 在数据集 API 中为 ipc 格式添加 feather 别名
- ARROW-8443 - [Gandiva][C++] 修复 round/truncate 对于特殊情况不执行任何操作
- ARROW-8444 - [文档] 修复代码库中的拼写错误
- ARROW-8449 - [R] 在所有地方使用 CMAKE_UNITY_BUILD
- ARROW-8450 - [集成][C++] 实现大型列表/二进制/utf8 集成
- ARROW-8457 - [C++] 桥接测试不考虑字节序
- ARROW-8458 - [C++] 对于捆绑的第三方依赖项,首选原始镜像
- ARROW-8461 - [打包][deb] 为 Ubuntu Xenial 使用 zstd 包
- ARROW-8463 - [CI] 平衡 CircleCI、Azure 和 Github 之间的夜间测试构建
- ARROW-8467 - [C++] 使用 ArrayFromJSON 的测试用例假设只有小端平台
- ARROW-8477 - [C++] 启用 Windows 长文件名的读写
- ARROW-8496 - [C++] 优化 ByteStreamSplitDecodeScalar
- ARROW-8499 - [C++][数据集] 在 ScannerBuilder 中,如果 projecter 不为空,则 batch_size 将不起作用
- ARROW-8506 - [c++] 缺少测试以验证 RLE 中 bit_width > 8 的 expected_buffer
- ARROW-8515 - [C++] Bitmap ToString 应该有一个按字节分组的选项
- ARROW-8517 - [开发][发布] 更新 Crossbow RC 验证设置,以适应 0.16.0 以来的更改
- ARROW-8523 - [C++] 优化 BitmapReader
- PARQUET-1663 - [C++] 提供 API 来检查复杂数据类型的存在
- PARQUET-1716 - [C++] 添加对 BYTE_STREAM_SPLIT 编码的支持
- PARQUET-1770 - [C++][CI] 为读取 Parquet 文件添加模糊测试目标
- PARQUET-1785 - [C++] 提高 encoding-test.cc 中的代码可重用性
- PARQUET-1786 - [C++] 使用 simd 来提高 BYTE_STREAM_SPLIT 解码性能
- PARQUET-1806 - [C++] [CI] 改进模糊测试种子语料库
- PARQUET-1825 - [C++] 修复 column_io_benchmark.cc 中的编译错误
- PARQUET-1828 - [C++] 为 ByteStreamSplit 编码器实现添加 SSE2 路径
- PARQUET-1840 - [C++] DecodeSpaced 复制的值比必要的更多
- PARQUET-458 - [C++] 实现对 DataPageV2 的支持
错误修复
- ARROW-1907 - [C++/Python] Feather 格式无法容纳总计超过 2GB 数据的字符串列
- ARROW-2255 - [开发][集成] 在集成测试 JSON 格式中序列化模式级和字段级自定义元数据
- ARROW-2587 - [Python] 无法将具有多个子项的 StructArray 写入 parquet
- ARROW-3004 - [文档] 为 master 而不是固定的提交构建文档
- ARROW-3543 - [R] 更好地支持 R 中的时间戳格式和时区
- ARROW-5265 - [Python/CI] 添加与 kartothek 的集成测试
- ARROW-5473 - [C++] 在 Windows 上使用 Ninja 时,googletest_ep 构建失败
- ARROW-5981 - [C++] DictionaryBuilder 使用 Array 进行初始化可能会无提示地失败
使用 Array 进行初始化可能会无提示地失败 - ARROW-6528 - [C++] 虚假的 Flight 测试失败(端口分配失败)
- ARROW-6738 - [Java] 修复当前 union 比较逻辑的问题
- ARROW-6757 - [Python] 使用 Visual Studio 2017 创建 csv.ParseOptions() 会导致“Windows fatal exception: access violation”
- ARROW-6871 - [Java] 增强 TransferPair 相关参数检查和测试
- ARROW-6872 - [C++][Python] 带有字典列的空表引发 ArrowNotImplementedError
- ARROW-6895 - [C++][Parquet] parquet::arrow::ColumnReader:当调用 `NextBatch()` 时,ByteArrayDictionaryRecordReader 重复返回的值
- ARROW-7008 - [Python] pyarrow.chunked_array([array]) 在具有全 None 缓冲区的数组上失败
- ARROW-7049 - [C++] 在 mingw-w64 上构建时的警告
- ARROW-7301 - [Java] Sql 类型 DATE 应对应于 DateDayVector
- ARROW-7335 - [C++][Gandiva] 在 Gandiva 中添加 castBIGINT、extractDay interval_day 函数
- ARROW-7390 - [C++][数据集] Projector::Project 中的并发竞争
- ARROW-7405 - [Java] ListVector isEmpty API 不正确
- ARROW-7466 - [CI][Java] 修复 gandiva-jar-osx 夜间构建失败
- ARROW-7467 - [Java] ComplexCopier 为 Map 可空信息执行不正确的复制
- ARROW-7520 - [R] 写入许多批次会导致崩溃
- ARROW-7546 - [Java] 使用新的实现来连接批次中的向量值
- ARROW-7624 - [Rust] 通过 `Buffer` 方法发出的健全性问题
- ARROW-7628 - [Python] 更好地记录一些 read_csv 极端情况
- ARROW-7631 - [C++][Gandiva] 如果将十进制转换为较低的精度/比例时发生溢出,则返回零
- ARROW-7680 - [C++][数据集] 分区发现不适用于 Windows 路径
- ARROW-7701 - [C++] [CI] macOS 上的 Flight 测试错误
- ARROW-7713 - [Java] TastLeak 被放置在错误的位置
- ARROW-7722 - [Java][FlightRPC] 内存泄漏
- ARROW-7734 - [C++] 在比较有和没有详细信息的 status 时出现段错误
- ARROW-7740 - [C++] StructArray::Flatten 中的 Array 内部损坏
- ARROW-7755 - [Python] Windows 轮子无法在 Python 3.8 上安装
- ARROW-7758 - [Python] 错误地转换超出 pandas 范围的时间戳(例如 0000-01-01)
- ARROW-7760 - [发布] 修复 verify-release-candidate.sh,因为 pip3 似乎不再位于 miniconda 中
- ARROW-7762 - [Python] ParquetWriter 中的异常被忽略
- ARROW-7766 - [Python][打包] Windows py38 wheels 使用错误的 ABI 标签构建
- ARROW-7772 - [R][C++][数据集] 无法使用 date64 标量过滤 date32 对象
- ARROW-7775 - [Rust] 不要让安全代码随意转换 readers 和 writers
- ARROW-7777 - [Go] StructBuilder/ListBuilder 索引超出范围 panic
- ARROW-7780 - [发布] 修复 Python 3.8 中缺少 “m” ABI 标签导致的 Windows wheel RC 验证脚本问题
- ARROW-7781 - [C++][数据集] 过滤不存在的列会导致段错误
- ARROW-7783 - [C++] ARROW_DATASET 应该启用 ARROW_COMPUTE
- ARROW-7785 - [C++] sparse_tensor.cc 编译速度极慢
- ARROW-7786 - [R] 在 Table.Equals 方法中连接 check_metadata
- ARROW-7789 - [R] 当 R.oo 包被加载时无法初始化 arrow 对象
- ARROW-7791 - [C++][Parquet] 修复构建错误 “cannot bind lvalue”
- ARROW-7792 - [R] read_* 函数应该关闭与文件的连接
- ARROW-7793 - [Java] 如果存在内存泄漏,基础分配器应该在抛出异常之前将多余的内存释放给父级
- ARROW-7794 - [Rust] 由于 Flight.proto 的相对路径,cargo publish 失败
- ARROW-7797 - [发布][Rust] 修复 datafusion crate 中 arrow-flight 的版本
- ARROW-7802 - [C++] 哈希内核中支持 LargeBinary 和 LargeString
- ARROW-7806 - [Python] 为 LargeBinary/String 列表实现 to_pandas
- ARROW-7807 - [R] 在 RHEL 7 上安装无法调用 io___MemoryMappedFile__Open()
- ARROW-7809 - [R] 小插图无法在 Win 10 或 ubuntu 上运行
- ARROW-7813 - [Rust] 修复未定义行为并删除 unsafe
- ARROW-7815 - [C++] 修复损坏的 IPC 输入导致的崩溃 (OSS-Fuzz)
- ARROW-7827 - [Python] conda-forge pyarrow 包未启用 s3
- ARROW-7832 - [R] 0.16.0 版本的补丁
- ARROW-7836 - [Rust] “allocate_aligned”/”reallocate” 需要初始化内存以避免 UB
- ARROW-7837 - [Java] BaseVariableWidthVector.copyFromSafe 中的 bug 导致索引超出范围异常
- ARROW-7838 - [C++] 安装的 plasma-store-server 无法找到 Boost
- ARROW-7841 - [C++] HADOOP_HOME 无法找到 libhdfs.so
- ARROW-7844 - [R] array_to_vector 不是线程安全的
- ARROW-7848 - 添加 MapType 的文档
- ARROW-7852 - [Python] 0.16.0 wheels 与旧版本的 numpy 不兼容
- ARROW-7857 - [Python] 使用 pandas master 进行扩展类型转换时测试失败
- ARROW-7861 - [C++][Parquet] 为 parquet 读取器添加 fuzz 回归语料库
- ARROW-7884 - [C++][Python] pq.read_table() 中的崩溃
- ARROW-7887 - [Rust] Filter 内核不支持时间类型
- ARROW-7889 - [Rust] Datafusion CLI 不支持注册 Parquet 文件
- ARROW-7899 - [集成][Java] null 类型集成测试
- ARROW-7908 - [R] 不设置 LIBARROW_DOWNLOAD=true 无法安装包
- ARROW-7922 - [CI][Crossbow] 夜间 macOS wheel 构建失败 (brew bundle 版本)
- ARROW-7923 - [CI][Crossbow] macOS autobrew 在 homebrew-versions 上失败
- ARROW-7926 - [开发者] “archery lint” 目标对于运行像 IWYU 这样的单个检查来说并不符合人体工程学
- ARROW-7928 - [Python] flight 服务器和客户端的示例无法正常工作
- ARROW-7931 - [C++] 修复损坏的 Map 数组输入导致的崩溃 (OSS-Fuzz)
- ARROW-7936 - [Python] FileSystem.from_uri 测试在 python 3.5 上失败
- ARROW-7940 - [C++] 无法生成使用默认设置之外的其他设置的 cmake 构建
- ARROW-7958 - [Java] 将 Avro 更新到 1.9.2 版本
- ARROW-7962 - [R][数据集] “合并 Source 和 Dataset 类” 的后续
- ARROW-7968 - [C++] orc_ep 在 64 位 Raspbian 上构建失败
- ARROW-7973 - [开发者][C++] run_cpplint.py 中的 ResourceWarnings
- ARROW-7974 - [开发者][C++] “make check-format” 中的 ResourceWarning
- ARROW-7975 - [C++] 不要在 “Buffer” IPC 元数据核算中包含填充字节
- ARROW-7978 - [开发者] GitHub Actions “lint” 任务正在运行 include-what-you-use 并失败
- ARROW-7980 - [Python] 对于某些基于 Timestamp 的数据帧,使用 pyarrow 反序列化失败
- ARROW-7981 - [C++][数据集] 在 gcc 5.4 上编译失败
- ARROW-7985 - [C++] 如果底层值构建器为空且已 .Reserve,ListBuilder.Finish 会失败
- ARROW-7990 - [C++][开发者] 添加用于运行 “iwyu.sh all” 的 “archery lint” 选项
- ARROW-7992 - [C++] MSVC 警告导致 sort_to_indices.cc 中的 Appveyor 失败
- ARROW-7996 - [Python] 使用 pyarrow 序列化空的 pandas DataFrame 时出错
- ARROW-7997 - [Python] pyarrow 中 Schema equals 方法的文档不一致
- ARROW-7999 - [C++] 修复损坏的 Map 数组输入导致的崩溃 (OSS-Fuzz)
- ARROW-8000 - [C++] gcc 4.8 构建失败
- ARROW-8003 - [C++] 当使用 clang 构建时,-DBZip2_SOURCE=BUNDLED 失败
- ARROW-8006 - [C++] 从 parquet 恢复的不安全的 arrow 字典
- ARROW-8007 - [Python] 删除 plasma 测试中未使用且已失效的 assert_get_object_equal
- ARROW-8008 - [C++/Python] 即使不是激活的 Python,也首选框架 Python
- ARROW-8009 - [Java] 修复 BitVector 的哈希代码方法
- ARROW-8011 - [C++] 从 Parquet 读取时,某些缓冲区未调整大小
- ARROW-8013 - [Python][打包] 修复 manylinux wheels
- ARROW-8021 - [Python] Appveyor 似乎没有在测试运行中包含 pandas
- ARROW-8036 - [C++] gtest 1.10.0 编译失败
- ARROW-8042 - [Python] pyarrow.ChunkedArray 文档字符串对于没有 chunks 的零长度 ChunkedArray 的描述不正确
- ARROW-8057 - [Python] 不要在 __eq__ 和 __ne__ 中检查 Schema 元数据
- ARROW-8070 - [C++] 从列表进行不支持的转换会导致段错误
转为 utf8 - ARROW-8071 - [GLib] 使用 configure 构建时出错
- ARROW-8088 - [C++][数据集] 使用指定的字典类型进行分区列会导致所有值为空
- ARROW-8091 - [CI][Crossbow] 修复夜间 homebrew 和 R 失败
- ARROW-8092 - [CI][Crossbow] OSX wheels 在捆绑的 bzip2 上失败
- ARROW-8094 - [CI][Crossbow] 夜间 valgrind 测试失败
- ARROW-8095 - [CI][Crossbow] 夜间 turbodbc 作业失败
- ARROW-8098 - [go] Go 1.14 上的 Checkptr 失败
- ARROW-8101 - [FlightRPC][Java] 无法仅读取/写入一个空的 null 数组
- ARROW-8102 - [开发] Crossbow 的版本检测在评论机器人场景中不起作用
- ARROW-8105 - [Python] 当传递带有收缩掩码的掩码数组时,pyarrow.array 会导致段错误
- ARROW-8106 - [Python] 由于 pandas 1.0.2 版本的发布,master 上的构建被破坏
- ARROW-8110 - [C#] 如果包含 NestedType,BuildArrays 会失败
- ARROW-8112 - [FlightRPC][C++] 某些状态码无法通过 gRPC 进行往返
- ARROW-8119 - [开发] 使 Yaml 成为 archery 的可选依赖项
- ARROW-8122 - [Python] 无法反序列化带有形状的空 numpy 数组
- ARROW-8125 - [C++] 使用 ninja 构建时 “arrow-tests” 目标被破坏
- ARROW-8127 - [C++] [Parquet] 多页批处理写入的错误列块元数据
- ARROW-8128 - [C#] NestedType 子项以错误的长度序列化
- ARROW-8132 - [C++] arrow-s3fs-test 在 master 上失败
- ARROW-8133 - [CI] Github Actions 有时无法签出 Arrow
- ARROW-8136 - [C++][Python] 从相对路径创建数据集不再起作用
- ARROW-8139 - [C++] FileSystem 枚举会导致属性警告
- ARROW-8142 - [C++] 转换具有 0 个块的块数组会导致严重错误
- ARROW-8144 - [CI] Cmake 3.2 夜间构建失败
- ARROW-8159 - [Python] pyarrow.Schema.from_pandas 不支持 ExtensionDtype
- ARROW-8166 - [C++] AVX512 内在函数无法在 Ubuntu 18.04 上使用 clang-8 编译
- ARROW-8176 - [FlightRPC][集成] 使 Flight 服务在集成中绑定到端口 0
- ARROW-8186 - [Python] 对于无效值,数据集表达式 != 返回 bool 而不是表达式
- ARROW-8188 - [R] 适应 R-devel 中的最新检查
- ARROW-8193 - [C++] arrow-future-test 在 gcc 4.8 上编译失败
- ARROW-8197 - [Rust] DataFusion “create_physical_plan” 返回错误的 schema?
- ARROW-8206 - [R] Linux 安装中向后兼容性的小修复
- ARROW-8209 - [Python] 通过名称访问 Table 的重复列会给出错误信息
- ARROW-8213 - [Python][数据集] 打开具有本地错误路径的数据集会给出令人困惑的错误消息
- ARROW-8216 - [R][C++][数据集] 当过滤列缺失时,过滤会返回所有缺失的行
- ARROW-8217 - [R][C++] 修复 ARROW-7979 导致的 32 位 Windows 上 test-dataset.R 中的崩溃测试
- ARROW-8219 - [Rust] sqlparser crate 需要升级到 0.2.5 版本
- ARROW-8233 - [CI] “AMD64 Windows MinGW 64 GLib & Ruby” 构建超时
- ARROW-8237 - [Python] 审查 conda 和非 conda 用户的开发者构建说明
- ARROW-8238 - [C++][Compute] 使用 msvc2015 在 Windows 上构建计算测试失败
- ARROW-8239 - [Java] 修复 splitAndTransfer 方法中的参数检查
- ARROW-8245 - [Python][Parquet] 读取分区 parquet 文件时跳过隐藏目录
- ARROW-8255 - [Rust] [DataFusion] COUNT(*) 导致令人困惑的错误
- ARROW-8259 - [Rust] [DataFusion] ProjectionPushDownRule 不重写 LIMIT
- ARROW-8268 - [Ruby] 由于缺少内置的 ZSTD 支持,测试失败
- ARROW-8269 - [Python] “nopandas” 构建中 test_parquet_row_group_fragments 失败
- ARROW-8270 - [Python][Flight] 带有 TLS 证书和密钥的示例 Flight 服务器无法工作
- ARROW-8272 - [CI][Python] Ubuntu 16.04 上的测试失败
- ARROW-8274 - [C++] 在 IPC 写入中使用 LZ4 帧格式进行 “LZ4” 压缩
- ARROW-8276 - [C++][Dataset] 扫描 Fragment 时没有考虑分区列
- ARROW-8280 - [C++] MinGW 构建由于 CARES 相关的工具链问题而失败
- ARROW-8286 - [Python] 从 pathlib 创建数据集导致 UnionDataset 而不是 FileSystemDataset
- ARROW-8298 - [C++][CI] MinGW 构建构建 grpc 失败
- ARROW-8303 - [Python] 修复 Python 3.5 上由不确定的字典键排序引起的测试失败
- ARROW-8304 - [Flight][Python] 带有 TLS 根证书的 Flight 客户端在 do_get() 上报告错误
- ARROW-8305 - [Java] ExtensionTypeVector 应确保 underlyingVector 不为 null
- ARROW-8310 - [C++] Minio 的异常无法被 IsConnectError() 识别
- ARROW-8315 - [Python][Dataset] 不要依赖 test_dataset.py 中的有序字典键
- ARROW-8323 - [C++] 将 gRPC 锁定在 v1.27,以避免其头文件中的编译错误
- ARROW-8326 - [C++] 不要使用已弃用的 TYPED_TEST_CASE
- ARROW-8327 - [FlightRPC][Java] gRPC trailers 可能为空
- ARROW-8331 - [C++] arrow-compute-filter-benchmark 编译失败
- ARROW-8333 - [C++][CI] 始终在某些 C++ CI 条目中编译基准测试
- ARROW-8334 - [C++] [Gandiva] LLVM 类型/简单 D32 计算函数中缺少 DATE32
- ARROW-8342 - [Python] dask 和 kartothek 集成测试失败
- ARROW-8345 - [Python] feather.read_table 不应需要 pandas
- ARROW-8346 - [CI][Ruby] GLib/Ruby macOS 构建在 zlib 上失败
- ARROW-8349 - [CI][NIGHTLY:gandiva-jar-osx] 使用最新的 pygit2
- ARROW-8353 - [C++] 在 parquet 写入器中可能未初始化 is_nullable
- ARROW-8354 - [R] 修复 Table 到 Array 转换中的段错误
- ARROW-8357 - [Rust] [DataFusion] CLI 的 Dockerfile 缺少 format 目录
- ARROW-8358 - [C++] 修复 clang-11 中的 -Wrange-loop-construct 警告
- ARROW-8360 - [C++][Gandiva] 修复日期/时间函数的 date32 支持
- ARROW-8365 - [C++] 将大于 5 GB 的文件写入 S3 时出错
- ARROW-8366 - [Rust] 需要回滚最近的 arrow-flight 构建更改
- ARROW-8369 - [CI] 修复 crossbow 通配符组
- ARROW-8373 - [GLib] 在 Meson 构建中解析 gobject-introspection、arrow 时出现问题
- ARROW-8380 - [RUST] StringDictionaryBuilder 未从 arrow::array 公开导出
- ARROW-8384 - [C++][Python] arrow/filesystem/hdfs.h 和 Python 包装器没有设置 Kerberos 票证路径的选项
- ARROW-8386 - [Python] pyarrow.jvm 对空数组引发错误
- ARROW-8388 - [C++] GCC 4.8 未能在返回时移动
- ARROW-8397 - [C++] 在 Ubuntu 16.04 上编译 aggregate_test.cc 失败
- ARROW-8406 - [Python] 在 Windows 上从不同的驱动器运行时 test_fs 失败
- ARROW-8410 - [C++] CMake 在不支持 -march=armv8-a+crc+crypto 的 aarch64 系统上配置失败
- ARROW-8414 - [Python] test_parquet.py 中不确定的行顺序失败
- ARROW-8415 - [C++][Packaging] 修复 gandiva linux 作业
- ARROW-8416 - [Python] 在数据集 API 中提供 “feather” 别名
- ARROW-8420 - [C++] CMake 在 armv7l 平台(例如 Raspberry Pi 3)上配置失败
- ARROW-8427 - [C++][Dataset] 指定完整路径时不要忽略带有下划线/点的文件路径
- ARROW-8428 - [C++][NIGHTLY:gandiva-jar-trusty] C++ 单元测试中 GCC 4.8 失败
- ARROW-8429 - [C++] 修复 0 大小缓冲区上的 Buffer::CopySlice
- ARROW-8432 - [Python][CI] 下载 Hadoop 失败
- ARROW-8437 - [C++] 从 MakeRandomNullBitmap 测试实用程序中删除 std::move 返回值
- ARROW-8438 - [C++] arrow-io-memory-benchmark 崩溃
- ARROW-8439 - [Python] 文件系统文档已过时
- ARROW-8441 - [C++] 修复无效输入时的崩溃问题 (OSS-Fuzz)
- ARROW-8442 - [Python] NullType.to_pandas_dtype 与 to_pandas/to_numpy 中返回的 dtype 不一致
- ARROW-8460 - [Packaging][deb] Ubuntu Focal 构建失败
- ARROW-8465 - [Packaging][Python] 由于 boost,Windows py35 wheel 构建失败
- ARROW-8466 - [Packaging] Python 单元测试未在 Windows wheel 构建中运行
- ARROW-8468 - [Document] 修复不正确的空位描述
- ARROW-8469 - [Dev] 修复 azure 上的 nightly docker 测试
- ARROW-8478 - [Java] 回滚 contrib 包更改。
- ARROW-8498 - [Python] Schema.from_pandas 在扩展类型上失败,而 Table.from_pandas 可以工作
- ARROW-8511 - [Developer][Release] 如果 C++ 编译失败,Windows 发布验证脚本不会停止
- PARQUET-1780 - [C++] 设置 ColumnMetadata.encoding_stats 字段
- PARQUET-1788 - [C++] ColumnWriter 在写入 arrow 块时具有未定义的行为
- PARQUET-1797 - [C++] 修复模糊测试错误
- PARQUET-1799 - [C++] Stream API:读取时放松模式检查
- PARQUET-1810 - [C++] 修复无效枚举值上的未定义行为 (OSS-Fuzz)
- PARQUET-1813 - [C++] 删除单元测试中的日志语句
- PARQUET-1819 - [C++] 修复损坏的 IPC 输入时的崩溃问题 (OSS-Fuzz)
- PARQUET-1823 - [C++] 当使用 parquet::arrow::FileReader->RowGroup(i)->Column(j) 读取时返回无效的 RowGroup
- PARQUET-1829 - [C++] 修复无效输入时的崩溃问题 (OSS-Fuzz)
- PARQUET-1831 - [C++] 修复无效输入时的崩溃问题 (OSS-Fuzz)
- PARQUET-1835 - [C++] 修复无效输入时的崩溃问题 (OSS-Fuzz)