Apache Arrow 0.16.0 (2020 年 2 月 7 日)
这是一个涵盖 3 个多月开发的主要版本。
下载
贡献者
此版本包含 99 位不同贡献者的 709 次提交。
$ git shortlog -sn apache-arrow-0.15.1..apache-arrow-0.16.0
84 Antoine Pitrou
80 Sutou Kouhei
50 Neal Richardson
47 Krisztián Szűcs
44 Joris Van den Bossche
41 Wes McKinney
32 François Saint-Jacques
30 liyafan82
27 tianchen
26 Benjamin Kietzman
19 Andy Grove
16 Kazuaki Ishizaki
14 Kenta Murata
13 Neville Dipale
12 Projjal Chanda
9 gawain.bolton
8 David Li
6 Prudhvi Porandla
6 Renjie Liu
6 Yibo Cai
6 Yosuke Shiro
5 Bryan Cutler
5 Fokko Driesprong
5 Or Ozeri
5 Sebastien Binet
5 Uwe L. Korn
5 Zhuo Peng
4 Gurwinder Singh
4 Kyle McCarthy
4 Micah Kornfield
3 Anthony Abate
3 Paddy Horan
3 Rok
3 macx
3 takashi hashida
2 Adam Lippai
2 Danyang Zhuo
2 Gal Lushi
2 Jonathan A. Sternberg
2 Martin Grund
2 Pindikura Ravindra
2 Rohit Gupta
2 Romain Francois
2 Stéphane Campinas
2 Yuqi Gu
2 czxrrr
2 tianchen92
1 Adam Krebs
1 Alexis Mignon
1 Artem
1 Artem Alekseev
1 Bob Skowron
1 Brian Gold
1 Brian Hulette
1 Brian Wignall
1 Bruce Mitchener
1 Christopher Hutchinson
1 Davis Silverman
1 Dmitry Kalinkin
1 Donatien Criaud
1 Eric Erhardt
1 Fabian Höring
1 François Garillot
1 Gawain Bolton
1 Ha Thi Tham
1 Hengruo Zhang
1 Hiroaki Yutani
1 Hongze Zhang
1 Jim Apple
1 John Muehlhausen
1 John Norris
1 Kazuma Furuhashi
1 Keith Hughitt
1 Kornelijus Survila
1 Li, Jiajia
1 Maarten Ballintijn
1 Maarten Breddels
1 Matteo Figus
1 Matthew Franglen
1 Nick Poorman
1 Noel Hustler
1 Onur Satici
1 Pasha Stetsenko
1 Peter Hoffmann
1 Philipp Moritz
1 Rick Cobb
1 Rong Rong
1 Takashi Hashida
1 Taylor Baldwin
1 Wakahisa
1 Xavier Lacroze
1 Zherui Cao
1 francois-blanchard
1 gnguy
1 karldw
1 lmeyerov
1 luozijun
1 ptaylor
1 root
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -csn apache-arrow-0.15.1..apache-arrow-0.16.0
133 Krisztián Szűcs
100 Sutou Kouhei
91 Wes McKinney
85 Antoine Pitrou
70 Neal Richardson
60 Micah Kornfield
34 Benjamin Kietzman
32 François Saint-Jacques
23 Andy Grove
13 Neville Dipale
12 Praveen
8 David Li
6 Paddy Horan
6 Yosuke Shiro
5 Bryan Cutler
5 Eric Erhardt
4 Kenta Murata
4 Pindikura Ravindra
4 Sebastien Binet
4 Sidd
3 Philipp Moritz
2 Joris Van den Bossche
2 Uwe L. Korn
1 Brian Hulette
1 Chao Sun
1 GitHub
变更日志
新特性和改进
- ARROW-1175 - [Java] 实现/测试字典编码的子字段
- ARROW-1456 - [Python] 在 Travis CI 中运行 s3fs 单元测试
- ARROW-1562 - [C++] 用于加法 (+) 的数值内核实现
- ARROW-1638 - [Java] 空类型的 IPC 往返
- ARROW-1900 - [C++] 添加用于确定整数数组值范围(最大值和最小值)的内核函数
- ARROW-2428 - [Python] 添加 API 以将 Arrow 类型(包括扩展类型)映射到 pandas ExtensionArray 实例,用于 to_pandas 转换
- ARROW-2602 - [打包] 自动化开发 Docker 容器的构建
- ARROW-2863 - [Python] 向 RecordBatch*Writer/Reader 类添加上下文管理器 API
- ARROW-3408 - [C++] 添加 CSV 读取器的选项,以字典编码单个列或所有字符串/二进制列
- ARROW-3444 - [Python] Table.nbytes 属性
- ARROW-3789 - [Python] 允许在 Table.to_pandas 中调用对象进行“自我销毁”,以提高内存使用率
- ARROW-3808 - [R] 实现 [.arrow::Array
- ARROW-3813 - [R] 字典数组的较低级别构造
- ARROW-412 - [格式] 在 IPC 元数据中处理缓冲区填充
- ARROW-4208 - [CI/Python] 具有 S3 的自动化测试
- ARROW-4219 - [Rust] [Parquet] 实现 ArrowReader
- ARROW-4223 - [Python] 支持 scipy.sparse 集成
- ARROW-4224 - [Python] 支持与 pydata/sparse 库集成
- ARROW-4225 - [格式][C++] 添加 CSC 稀疏矩阵支持
- ARROW-4722 - [C++] 实现 Bitmap 类以模块化处理位图
- ARROW-4748 - [Rust] [DataFusion] 可以优化 GROUP BY 性能
- ARROW-4930 - [Python] 删除 Python 构建中的 LIBDIR 假设
- ARROW-5181 - [Rust] 创建 Arrow 文件读取器
- ARROW-5182 - [Rust] 创建 Arrow 文件写入器
- ARROW-5277 - [C#] MemoryAllocator.Allocate(length: 0) 不应返回 null
- ARROW-5333 - [C++] 将构建选项摘要放入较窄的控制台中
- ARROW-5366 - [Rust] 实现 Duration 和 Interval 数组
- ARROW-5454 - [C++] 为 DataFrame 使用实现 ChunkedArray 的 Take
- ARROW-5508 - [C++] 创建可重用的 Iterator
接口 - ARROW-5523 - [Python] [打包] 为下载依赖项一致使用 HTTPS
- ARROW-5801 - [CI] 将所有 Travis CI Linux 任务 Docker 化(添加到 docker-compose)
- ARROW-5802 - [CI] 将“lint”Travis CI 作业 Docker 化
- ARROW-5809 - [Rust] 将 Rust Travis CI 构建 Docker 化(添加到 docker-compose)
- ARROW-5831 - [发布] 迁移和改进二进制发布验证脚本
- ARROW-5855 - [Python] 添加对 Duration 类型的支持
- ARROW-5859 - [Python] 支持转换为 numpy/pandas 的 ExtentionType
- ARROW-5971 - [网站] 介绍 Arrow Flight 的博客文章
- ARROW-6003 - [C++] CSV 读取器中更好的输入验证和错误消息
- ARROW-6074 - [FlightRPC] 实现中间件
- ARROW-6091 - [Rust] [DataFusion] 为 limit 实现并行执行
- ARROW-6112 - [Java] 更新 API 以支持 64 位地址空间
- ARROW-6184 - [Java] 提供基于哈希表的字典编码器
- ARROW-6251 - [开发人员] 将 PR 合并工具添加到 apache/arrow-site
- ARROW-6274 - [Rust] [DataFusion] 添加对将结果写入 CSV 的支持
- ARROW-6277 - [C++][Parquet] 支持读取/写入其他 Parquet 原始类型到 DictionaryArray
- ARROW-6283 - [Rust] [DataFusion] 实现将查询结果写入分区 CSV 的运算符
- ARROW-6285 - [GLib] 添加对 LargeBinary 和 LargeString 类型的支持
- ARROW-6286 - [GLib] 添加对 LargeList 类型的支持
- ARROW-6321 - [Python] 能够在转换为 pandas 时创建 ExtensionBlock
- ARROW-6340 - [R] 实现数据集类的低级绑定
- ARROW-6341 - [Python] 为数据集实现低级绑定
- ARROW-6352 - [Java] 添加 DenseUnionVector 的实现。
- ARROW-6367 - [C++][Gandiva] 实现字符串反转
- ARROW-6378 - [C++][数据集] 实现 TreeDataSource
- ARROW-6394 - [Java] 支持增量向量和部分和向量之间的转换
- ARROW-6396 - [C++] 将 ResolveNullOptions 添加到 Logical 内核
- ARROW-6405 - [Python] 添加 std::move 包装器以用于 Cython
- ARROW-6452 - [Java] 覆盖 ValueVector toString() 方法
- ARROW-6463 - [C++][Python] 将 arrow::fs::Selector 重命名为 FileSelector
- ARROW-6466 - [开发人员] 将 integration/integration_test.py 重构为合适的 Python 包
- ARROW-6468 - [C++] 删除未使用的哈希例程
- ARROW-6473 - [格式] 澄清字典编码的极端情况
- ARROW-6503 - [C++] 向 SparseTensorConverter 添加内存池对象参数
- ARROW-6508 - [C++] 添加带有验证的 Tensor 和 SparseTensor 工厂函数
- ARROW-6515 - [C++] 清理 type_traits.h 定义
- ARROW-6578 - [C++] 将 int64 转换为字符串列
- ARROW-6592 - [Java] 添加对跳过 Avro 转换器中列/字段解码的支持
- ARROW-6594 - [Java] 支持来自 Avro 的逻辑类型编码
- ARROW-6598 - [Java] 对 ApproxEqualsVisitor 的代码进行排序
- ARROW-6608 - [C++] 将 ARROW_HDFS 的默认值设置为 OFF
- ARROW-6610 - [C++] 添加 ARROW_FILESYSTEM=ON/OFF CMake 配置标志
- ARROW-6619 - [Ruby] 添加对通过 Arrow::Schema#build_expression 构建 Gandiva::Expression 的支持
- ARROW-6624 - [C++] 添加 SparseTensor.ToTensor() 方法
- ARROW-6625 - [Python] 允许 concat_tables 为缺失的列填充 null 或默认值
- ARROW-6631 - [C++] 默认情况下不使用任何压缩库依赖项进行构建
- ARROW-6633 - [C++] 默认构建不需要 double-conversion
- ARROW-6634 - [C++] 不需要 flatbuffers 或 flatbuffers_ep 进行构建
- ARROW-6635 - [C++] 默认构建不需要 glog
- ARROW-6636 - [C++] 默认情况下不构建 C++ 命令行实用程序
- ARROW-6637 - [C++] 零依赖默认核心构建
- ARROW-6646 - [Go] 修改 NullType IPC 实现以在 RecordBatch 消息中不附加缓冲区
- ARROW-6650 - [Rust] [集成] 创建方法以针对集成 JSON 测试 Arrow 文件
- ARROW-6656 - [Rust] [DataFusion] 实现 MIN 和 MAX 聚合表达式
- ARROW-6657 - [Rust] [DataFusion] 实现 COUNT 聚合表达式
- ARROW-6658 - [Rust] [DataFusion] 实现 AVG 聚合表达式
- ARROW-6659 - [Rust] [DataFusion] 重构 HashAggregateExec 以支持自定义合并
- ARROW-6662 - [Java] 为 VectorSchemaRoot 实现 equals/approxEquals API
- ARROW-6671 - [C++] 稀疏张量命名
- ARROW-6672 - [Java] 为字典构建器提取通用接口
- ARROW-6685 - [C++/Python] S3 FileStat 对象的 base_path 和类型取决于尾部斜杠
- ARROW-6686 - [CI] 拉取和推送 docker 镜像以加速夜间构建
- ARROW-6688 - [打包] 在 conda 包中包含 s3 支持
- ARROW-6690 - [Rust] [DataFusion] 没有 GROUP BY 的 HashAggregate 应该使用 SIMD
- ARROW-6692 - [Rust] [DataFusion] 更新示例以使用物理查询计划
- ARROW-6694 - [Rust] [DataFusion] 更新集成测试以使用物理计划
- ARROW-6695 - [Rust] [DataFusion] 移除逻辑计划的执行
- ARROW-6696 - [Rust] [DataFusion] 在物理查询计划中实现简单的数学运算
- ARROW-6700 - [Rust] [DataFusion] 使用新的 parquet arrow 读取器
- ARROW-6707 - [Java] 通过使用可空信息来提高 JDBC 适配器的性能
- ARROW-6710 - [Java] 添加 JDBC 适配器测试以覆盖包含一些空值的情况
- ARROW-6711 - [C++] 合并 Filter 和 Expression 类
- ARROW-6721 - [JAVA] Avro 适配器基准测试在 JMH 中仅运行一次
- ARROW-6722 - [Java] 提供一种统一的方法来获取向量名称
- ARROW-6729 - [C++] StlStringBuffer 构造函数不是零拷贝的
- ARROW-6730 - [CI] 为 “C++ with clang 7” docker 镜像使用 GitHub Actions
- ARROW-6732 - [Java] 以非递归方式实现快速排序以避免堆栈溢出
- ARROW-6741 - [发布] 更新 changelog.py 以使用带有 APACHE_ 前缀的 JIRA_USERNAME 和 JIRA_PASSWORD 环境变量
- ARROW-6742 - [C++] 从 arrow/io/hdfs_internal.cc 中删除 boost::filesystem::path 的使用
- ARROW-6743 - [C++] 完全删除 boost::filesystem 的使用(hdfs_internal 中除外)
- ARROW-6744 - [Rust] 在 array 模块中导出 JsonEqual trait
- ARROW-6754 - [C++] 合并 arrow/allocator.h 和 arrow/stl.h,或者重命名 allocator.h
- ARROW-6758 - [发布] 在发布验证脚本中安装临时的 node/npm/npx
- ARROW-6764 - [C++] 添加预读迭代器
- ARROW-6767 - [JS] 在 scan/scanReverse 中延迟绑定批次
- ARROW-6768 - [C++][Dataset] 实现 dataset::Scan 到 Table 的辅助函数
- ARROW-6769 - [C++][Dataset] 端到端数据集集成测试用例
- ARROW-6770 - [CI][Travis] 静默下载 Minio
- ARROW-6777 - [GLib][CI] 取消固定 gobject-introspection gem
- ARROW-6778 - [C++] 在 Cast 内核中支持 DurationType
- ARROW-6782 - [C++] 构建不包含任何 Boost 头的最小核心 Arrow 库
- ARROW-6784 - [C++][R] 将 filter 和 take 代码从 Rcpp 移动到 C++ 库
- ARROW-6787 - [CI] 停用 “C++ with clang 7 and system packages” Travis CI 作业
- ARROW-6788 - [CI] 将 Travis CI lint 作业迁移到 GitHub Actions
- ARROW-6789 - [Python] 自动在 Result 值中装箱从 `FlightServerBase.do_action` 产生的字节/类缓冲区值
- ARROW-6790 - [发布] 在发布验证中自动禁用集成测试用例
- ARROW-6793 - [R] 用于 Linux 的 Arrow C++ 二进制打包
- ARROW-6797 - [发布] 在网站发布后脚本中使用单独克隆的 arrow-site 存储库
- ARROW-6802 - [打包][deb][RPM] 更新 qemu-user-static 包 URL
- ARROW-6803 - [Rust] [DataFusion] 使用新的物理查询计划,聚合查询速度较慢
- ARROW-6804 - [CI] [Rust] 将 Travis Rust 作业迁移到 Github Actions
- ARROW-6807 - [Java][FlightRPC] 公开 gRPC 服务
- ARROW-6810 - [网站] 为 R 包 0.15 版本添加文档
- ARROW-6811 - [R] 各种 0.15 版本后的清理工作
- ARROW-6814 - [C++] 解决发布版本中出现的编译器警告
- ARROW-6822 - [网站] 发布 merge_pr.py
- ARROW-6824 - [Plasma] 支持小对象的批量创建和密封请求
- ARROW-6825 - [C++] 围绕预读迭代器重新设计 CSV 读取器 IO
- ARROW-6831 - [R] 更新 R macOS/Windows 构建以适应 cmake 压缩默认值的更改
- ARROW-6832 - [R] 实现 Codec::IsAvailable
- ARROW-6833 - [R][CI] 为完整的 R autobrew macOS 构建添加 crossbow 作业
- ARROW-6836 - [格式] 在 File.fbs 的 Footer 表中添加一个 custom_metadata:[KeyValue] 字段
- ARROW-6843 - [网站] 禁用拉取请求上的部署
- ARROW-6847 - [C++] 向 Iterator<> 添加 range_expression 接口
- ARROW-6850 - [Java] Jdbc 转换器支持 Null 类型
- ARROW-6852 - [C++] Arm64 上 memory-benchmark 构建失败
- ARROW-6853 - [Java] 支持向量和字典编码器使用不同的哈希器来计算 hashCode
- ARROW-6855 - [C++][Python][Flight] 实现 Flight 中间件
- ARROW-6862 - [开发者] 检查拉取请求标题
- ARROW-6863 - [Java] 提供并行搜索器
- ARROW-6865 - [Java] 提高将 ArrowBuf 与字节数组进行比较的性能
- ARROW-6866 - [Java] 提高计算结构向量哈希码的性能
- ARROW-6881 - [Rust] 删除“array_ops”以支持“compute”子模块
- ARROW-6884 - [Python][Flight] 使服务器端 RPC 异常更友好?
- ARROW-6887 - [Java] 创建有关使用 ValueVectors 的散文文档
- ARROW-6888 - [Java] 支持向量值比较器的复制操作
- ARROW-6889 - [Java] ComplexCopier 启用 FixedSizeList 类型并修复 RangeEualsVisitor StackOverFlow
- ARROW-6891 - [Rust] [Parquet] 向 ArrowReader 添加 Utf8 支持
- ARROW-6902 - [C++] 为 Compare 内核添加 String*/Binary* 支持
- ARROW-6904 - [Python] 实现 MapArray 和 MapType
- ARROW-6907 - [C++][Plasma] 允许 Plasma 存储将通知批量发送给客户端
- ARROW-6911 - [Java] 提供复合比较器
- ARROW-6912 - [Java] 为 avro 转换器消费者提取一个公共基类
- ARROW-6916 - [开发者] 在每晚的 Crossbow 报告中按字母顺序排列任务名称
- ARROW-6918 - [R] 使 docker-compose 设置更快
- ARROW-6919 - [Python] 在 Cython 中公开更多的构建器
- ARROW-6920 - [Python] 为 python3.8 创建 manylinux wheels
- ARROW-6926 - [Python] 支持 Python 对象的 __sizeof__ 协议
- ARROW-6927 - [C++] 添加 gRPC 版本检查
- ARROW-6928 - [Rust] 添加 FixedSizeList 类型
- ARROW-6930 - [Java] 创建一个实用程序类,用于填充仅用于测试目的的向量值
- ARROW-6932 - [Java] 已知扩展类型的错误日志
- ARROW-6933 - [Java] 支持线性字典编码器
- ARROW-6936 - [Python] 当给出错误类型的对象时,改进错误消息
- ARROW-6942 - [开发者] 通过 GitHub Actions 在拉取请求检查中添加 Parquet 支持
- ARROW-6943 - [网站] 将 Apache Arrow Flight 简介翻译成日语
- ARROW-6944 - [Rust] 添加 StringType
- ARROW-6949 - [Java] 修复可升级的写入以处理空向量
- ARROW-6951 - [C++][Dataset] 确保将列投影传递给 ParquetDataFragment
- ARROW-6952 - [C++][Dataset] 确保将表达式过滤器传递给 ParquetDataFragment
- ARROW-6954 - [Python] [CI] 将 Python 3.8 添加到 CI 矩阵
- ARROW-6960 - [R] 在 Windows 构建中添加对更多压缩编解码器的支持
- ARROW-6961 - [C++][Gandiva] 在 Gandiva 中添加 lower_utf8 函数
- ARROW-6963 - [打包][Wheel][OSX] 使用 crossbow 的命令从 travis 构建部署工件
- ARROW-6964 - [C++][Dataset] 为 Scanner::ToTable 公开一个嵌套的并行选项
- ARROW-6965 - [C++][Dataset] 可选地公开分区键作为具体化列
- ARROW-6967 - [C++] 为 IN, IS_VALID 添加过滤表达式
- ARROW-6969 - [C++][Dataset] ParquetScanTask 急切加载文件
- ARROW-6970 - [打包][RPM] 添加对 CentOS 8 的支持
- ARROW-6973 - [C++][ThreadPool] 在 Submit 中使用完美转发
- ARROW-6975 - [C++] 将 make_unique 放入自己的头文件中
- ARROW-6980 - [R] 用于 RecordBatch/Table 的 dplyr 后端
- ARROW-6984 - [C++] 将 LZ4 更新到 1.9.2 版本,以修复 CVE-2019-17543 漏洞
- ARROW-6986 - [R] 添加基本的 Expression 类
- ARROW-6987 - [CI] Travis OSX 安装 sdk 头文件失败
- ARROW-6991 - [打包][deb] 添加对 Ubuntu 19.10 的支持
- ARROW-6994 - [C++] 研究在 macOS 上当 background_thread 选项不可用时 jemalloc 内存页回收配置
- ARROW-6997 - [打包] 添加对 RHEL 的支持
- ARROW-7000 - [C++][Gandiva] 处理字符串 lower 和 upper 函数中的空输入
- ARROW-7003 - [格式] [Rust] 在构建脚本中生成 flatbuffers 文件
- ARROW-7004 - [Plasma] 使 LRU 缓存中的对象可以提升优先级
- ARROW-7006 - [Rust] 升级 flatbuffers 版本以避免漏洞
- ARROW-7007 - [C++] 为 LocalFs 启用 mmap 选项
- ARROW-7014 - [开发者] 编写脚本以验证给定本地 conda 或 virtualenv 环境的 Linux wheels
- ARROW-7015 - [开发者] 编写脚本以验证给定本地 conda 或 virtualenv 环境的 macOS wheels
- ARROW-7016 - [开发者][Python] 编写脚本以验证给定本地 conda 环境的 Windows wheels
- ARROW-7019 - [Java] 提高加载有效性缓冲区的性能
- ARROW-7026 - [Java] 删除 MessageSerializer/vector/writer/reader 中的断言
- ARROW-7031 - [Python] 在 Python 中公开 ListArray 的偏移量
- ARROW-7032 - [发布] 在发布验证脚本中运行 python 单元测试
- ARROW-7034 - [CI][Crossbow] 跳过已知的夜间构建失败
- ARROW-7035 - [R] write_parquet 文档中的默认参数不明确
- ARROW-7036 - [C++] 升级 ORC 版本以避免编译错误
- ARROW-7037 - [C++] protobuf >= 3.9 和 clang 组合时的编译错误
- ARROW-7039 - [Python] 类型检查期望安装 pandas
- ARROW-7047 - [C++][Dataset] 过滤器表达式不应要求精确的类型匹配
- ARROW-7052 - [C++] 当 ARROW_SHARED=OFF 时,数据集示例构建失败
- ARROW-7054 - [文档] 添加选项以使用环境变量覆盖显示的文档版本
- ARROW-7057 - [C++] 添加 API 来解析 URI 查询字符串
- ARROW-7058 - [C++] FileSystemDataSourceDiscovery 应该相对于其选择器的 base_dir 应用分区方案
- ARROW-7060 - [R] 0.15.1 版本后的清理工作
- ARROW-7061 - [C++][Dataset] 使用 ParquetFileFormat 的 FileSystemDiscovery 应该忽略不是 Parquet 的文件
- ARROW-7062 - [C++] Parquet 文件解析错误消息应包含文件名
- ARROW-7064 - [R] 实现 null 类型
- ARROW-7066 - [Python] 支持从 __arrow_array__ 返回 ChunkedArray?
- ARROW-7067 - [CI] 在 Travis-CI 上禁用代码覆盖率
- ARROW-7069 - [C++][Dataset] 将 ConstantPartitionScheme 替换为 PrefixDictionaryPartitionScheme
- ARROW-7070 - [打包][deb] 更新 1.0.0 版本的软件包名称
- ARROW-7072 - [Java] 支持高效地拼接有效位
- ARROW-7082 - [打包][deb] 添加 apache-arrow-archive-keyring
- ARROW-7092 - [R] 为 dplyr 和 datasets 添加小插图
- ARROW-7093 - [R] 支持为更多数据类型创建 ScalarExpressions
- ARROW-7094 - [C++] FileSystemDataSource 应该为 fs::Filesystem 使用拥有指针
- ARROW-7095 - [R] 更好地处理 dplyr 方法中不支持的过滤器和 mutate 表达式
- ARROW-7096 - [C++] 为使用提升的拼接和模式统一添加选项结构
- ARROW-7098 - [Java] 提高比较两个内存块的性能
- ARROW-7099 - [C++] 取消 csv 解析器测试中的函数调用歧义
- ARROW-7101 - [CI] 重构 docker-compose 设置并将其与 GitHub Actions 一起使用
- ARROW-7103 - [R] 各种小的清理工作
- ARROW-7107 - [C++][MinGW] 在 AppVeyor 上启用 Flight
- ARROW-7110 - [GLib] 为 GArrowTable、GArrowChunkedArray 和 GArrowRecordBatch 添加过滤器支持
- ARROW-7111 - [GLib] 为 GArrowTable、GArrowChunkedArray 和 GArrowRecordBatch 添加 take 支持
- ARROW-7113 - [Rust] Buffer 应该接受其他人拥有的内存
- ARROW-7116 - [CI] 使用 apache 组织提供的 docker 仓库
- ARROW-7146 - [R][CI] 为 R docker-compose 设置进行各种修复和加速
- ARROW-7147 - [C++][Dataset] 重构数据集的 API 以使用 Result
- ARROW-7148 - [C++][Dataset] API 清理
- ARROW-7149 - [C++] 删除文件系统 API 的实验状态
- ARROW-7159 - [CI] 将 HDFS 测试作为 cron 任务运行
- ARROW-7160 - [C++] 更新 string_view 反向移植
- ARROW-7161 - [C++] 将文件系统层从 Status 迁移到 Result
- ARROW-7162 - [C++] 清理 cmake_modules/SetupCxxFlags.cmake 中的警告
- ARROW-7166 - [Java] 删除 Jdbc 适配器的冗余代码
- ARROW-7169 - [C++] 供应商 uriparser 库
- ARROW-7171 - [Ruby] 传递 Array
用于 Arrow::Table#filter - ARROW-7172 - [C++][Dataset] 改进 Expression::ToString 的格式
- ARROW-7176 - [C++] 修复 arrow::ipc 编译器警告
- ARROW-7178 - [C++] 供应商向前兼容的 std::optional
- ARROW-7185 - [R][Dataset] 添加 IN 和 IS_VALID 表达式的绑定
- ARROW-7186 - [R] 添加内联注释以记录 dplyr 代码
- ARROW-7192 - [Rust] 实现 Flight crate
- ARROW-7193 - [Rust] 创建 Arrow 流读取器
- ARROW-7195 - [Ruby] 改进 #filter、#take 和 #is_in
- ARROW-7196 - [Ruby] 删除不必要的 BinaryArrayBuilder#append_values
- ARROW-7197 - [Ruby] 使用 Ruby 2.7 抑制与关键字参数相关的警告
- ARROW-7204 - [C++][Dataset] In 表达式不应要求精确的类型匹配
- ARROW-7206 - [Java] 在调用 Preconditions#checkArgument 时避免字符串拼接
- ARROW-7207 - [Rust] 更新生成的 Flatbuffer 文件
- ARROW-7210 - [C++] 标量转换应支持基于时间的类型
- ARROW-7211 - [Rust] [Parquet] 支持写入字节缓冲区
- ARROW-7216 - [Java] 提高设置/清除单个位的性能
- ARROW-7219 - [CI][Python] 在用于 python 版本 3.6 的 conda-python docker 镜像中安装 pickle5
- ARROW-7227 - [Python] 提供 ConcatenateWithPromotion() 的包装器
- ARROW-7228 - [Python] 在 Python 中公开 RecordBatch.FromStructArray。
- ARROW-7235 - [C++] 添加 Result
到 arrow/io 的 API - ARROW-7236 - [C++] 添加 Result
到 arrow/csv 的 API - ARROW-7240 - [C++] 添加 Result
到 arrow/util 的 API - ARROW-7246 - [CI][Python] wheel 无法通过 SSL_ST_INIT 错误构建
- ARROW-7247 - [CI][Python] wheel 无法通过 wget 和 OpenSSL 错误构建
- ARROW-7248 - [Rust] 从 Flatbuffers 自动重新生成 IPC 消息
- ARROW-7255 - [CI] 在 pull request 上运行源发布测试
- ARROW-7256 - [C++] 删除 ARROW_MEMORY_POOL_DEFAULT 选项
- ARROW-7257 - [CI] Homebrew 公式因 openssl 公式名称更新而失败
- ARROW-7258 - [CI] Fuzzit 作业因不存在的目录而失败
- ARROW-7259 - [Java] 支持子字段编码器使用不同的哈希器
- ARROW-7260 - [CI] Ubuntu 14.04 测试因用户定义的字面量而失败
- ARROW-7261 - [Python] Python 支持固定大小列表类型
- ARROW-7262 - [C++][Gandiva] 在 Gandiva 中实现 replace 函数
- ARROW-7263 - [C++][Gandiva] 实现 locate 和 position 函数
- ARROW-7268 - [Rust] 从 IPC 消息传播 `custom_metadata` 字段
- ARROW-7269 - [C++] 修复 arrow::parquet 编译器警告
- ARROW-7270 - [Go] 保留 CSV 读取行为,提高内存使用率
- ARROW-7274 - [C++] 添加 Result
API 到 Decimal 类 - ARROW-7275 - [Ruby] 添加对 Arrow::ListDataType.new(data_type) 的支持
- ARROW-7276 - [Ruby] 添加从 [[…]] 构建 Arrow::ListArray 的支持
- ARROW-7277 - [文档] 添加关于向量生命周期的讨论
- ARROW-7279 - [C++] 将 UnionArray::type_ids 重命名为 UnionArray::type_codes
- ARROW-7284 - [Java] 确保 java 实现满足明确的字典规范
- ARROW-7289 - [C#] ListType 构造函数参数是冗余的
- ARROW-7290 - [C#] 实现 ListArray Builder
- ARROW-7292 - [C++] [CI] [开发] 添加 ASAN / UBSAN CI 运行
- ARROW-7293 - [开发] [C++] 在 docker-compose 构建卷中持久化 ccache
- ARROW-7296 - [Python] 添加 ORC API 文档
- ARROW-7299 - [GLib] 使用 Result 替代 Status
- ARROW-7303 - [C++] 重构基准测试以使用新的 Result API
- ARROW-7306 - [C++] 添加返回 Result 的 FileSystemFromUri 版本
- ARROW-7307 - [CI][GLib] 文档未生成
- ARROW-7309 - [Python] 支持 HDFS federation viewfs://
- ARROW-7310 - [Python] 为 pyarrow.fs 公开 HDFS 实现
- ARROW-7311 - [Python] 从 URI 返回文件系统和路径
- ARROW-7312 - [Rust] ArrowError 应该实现 std::error:Error
- ARROW-7317 - [C++] 将 Iterator API 迁移到 Result
- ARROW-7321 - [CI][GLib] 使用 GLib 警告构建失败
- ARROW-7322 - [CI][Python] 对于 manylinux 镜像,回退到 arrowdev dockerhub 组织
- ARROW-7323 - [CI][Rust] 夜间 CI 因不同的工具链而失败
- ARROW-7324 - [Rust] 向时间戳添加时区
- ARROW-7325 - [Rust] [Parquet] 更新到 parquet-format 2.6 和 thrift 0.12
- ARROW-7329 - [Java] AllocationManager: 允许管理除使用 Netty 分配的内存之外的不同类型的内存
- ARROW-7333 - [CI][Rust] 删除重复的夜间作业
- ARROW-7334 - [CI][Python] macOS 使用 Python 2
- ARROW-7340 - [CI] 删除已失效的 appveyor 构建设置
- ARROW-7344 - [打包][Python] 构建 manylinux2014 wheels
- ARROW-7346 - [CI] 在构建中显式使用 ccache
- ARROW-7347 - [C++] 将捆绑的 Boost 更新到 1.71.0
- ARROW-7348 - [Rust] 添加 API 以返回空位图缓冲区的引用。
- ARROW-7351 - [开发者] 仅在合并 Parquet 补丁时建议 cpp-* 修复版本
- ARROW-7357 - [Go] 从 pkg/errors 迁移到 x/xerrors
- ARROW-7366 - [C++][Dataset] 在 DataSourceDiscovery 中使用 PartitionSchemeDiscovery
- ARROW-7367 - [Python] 在 ParquetDatasetPiece 中使用 np.full 替代 np.array.repeat
- ARROW-7368 - [Ruby] 对格式名称使用 :arrow_file 和 :arrow_streaming
- ARROW-7369 - [GLib] 添加 garrow_table_combine_chunks
- ARROW-7370 - [C++] 旧版本的 Protobuf 使用自动检测失败
- ARROW-7377 - [C++][Dataset] 简化 parquet 列投影
- ARROW-7378 - [C++][Gandiva] IR 优化中循环向量化中断
- ARROW-7379 - [C++] 引入 SchemaBuilder 伴随类和 Field::IsCompatibleWith
- ARROW-7380 - [C++][Dataset] 实现 DatasetFactory
- ARROW-7382 - [C++][Dataset] 重构 FsDsDiscovery 构造函数
- ARROW-7387 - [C#] 支持 ListType 序列化
- ARROW-7392 - [打包] 为 python 3.8 添加 conda 打包任务
- ARROW-7398 - [打包][Python] Conda 构建在 macOS 上失败
- ARROW-7399 - [C++][Gandiva] Gandiva 没有选择运行时 CPU 特性
- ARROW-7402 - [C++] 添加更多关于 CUDA 错误的信息
- ARROW-7403 - [C++][JSON] 在 Arm64 Neon 上启用 Rapidjson
- ARROW-7410 - [Python] [文档] 记录文件系统 API
- ARROW-7411 - [C++][Flight] 错误的 Arrow Flight 基准测试输出
- ARROW-7413 - [Python][Dataset] 为 PartitionSchemeDiscovery 添加测试
- ARROW-7414 - [R][Dataset] 实现 PartitionSchemeDiscovery
- ARROW-7415 - [C++][Dataset] 为由 ipc 文件组成的源实现 IpcFormat
- ARROW-7416 - [R][Nightly] 修复 R 3.6.2 上的 macos-r-autobrew 构建
- ARROW-7417 - [C++] 为 CUDA 10.1 添加 docker-compose 条目
- ARROW-7418 - [C++] 无法在 Ubuntu 16.04 上使用 g++ 5.4.0 构建
- ARROW-7420 - [C++] 将张量相关 API 迁移到返回 Result 的版本
- ARROW-7429 - [Java] 增强 Java 代码的代码样式检查(删除连续空格)
- ARROW-7430 - [Python] 向数据集绑定添加更多文档字符串
- ARROW-7431 - [Python] 将数据集 API 添加到参考文档
- ARROW-7432 - [Python] 添加更高级别的数据集函数
- ARROW-7439 - [C++][Dataset] 删除数据集指针别名
- ARROW-7449 - [GLib] 使 GObject Introspection 可选
- ARROW-7452 - [GLib] 使 GArrowTimeDataType 抽象化
- ARROW-7453 - [Ruby] 添加对 Arrow::NullArray#[] 的支持
- ARROW-7454 - [Ruby] 添加对保存/加载 TSV 的支持
- ARROW-7455 - [Ruby] 对所有 GArrowDataType 输入使用 Arrow::DataType.resolve
- ARROW-7456 - [C++] 添加对 YYYY-MM-DDThh 和 YYYY-MM-DDThh:mm 时间戳格式的支持
- ARROW-7457 - [文档] 修复拼写错误
- ARROW-7459 - [Python] 文档 lint 失败
- ARROW-7460 - [Rust] 通过自动向量化改进一些内核
- ARROW-7461 - [Java] 修复拼写错误
- ARROW-7463 - [文档] 修复断开的链接和拼写错误
- ARROW-7464 - [C++] 使用 std::call_once 优化 CpuInfo 单例
- ARROW-7465 - [C++] 为 Arm64 添加 Arrow 内存基准测试
- ARROW-7468 - [Python] 修复拼写错误
- ARROW-7469 - [C++] 改进与除法相关的位操作
- ARROW-7470 - [JS] 修复拼写错误
- ARROW-7474 - [Ruby] 更快地保存 CSV 文件
- ARROW-7475 - [Rust] 创建 Arrow 流写入器
- ARROW-7477 - [FlightRPC][Java] Flight gRPC 服务缺少反射信息
- ARROW-7479 - [Rust][Ruby][R] 修复拼写错误
- ARROW-7481 - [C#] 修复拼写错误
- ARROW-7482 - [C++] 修复拼写错误
- ARROW-7484 - [C++][Gandiva] 修复拼写错误
- ARROW-7485 - [C++][Plasma] 修复拼写错误
- ARROW-7487 - [开发者] 修复拼写错误
- ARROW-7488 - [GLib] 修复拼写错误和断开的链接
- ARROW-7489 - [CI] 修复拼写错误
- ARROW-7490 - [Java] Avro 转换器应该将属性和 props 转换为 FieldType 元数据
- ARROW-7493 - [Python] 在 pyarrow.compute 中公开 sum 内核,并支持 ChunkedArray 输入
- ARROW-7498 - [C++][Dataset] 重命名 DataFragment/DataSource/PartitionScheme
- ARROW-7502 - [集成] 删除不再需要的 Spark 集成补丁
- ARROW-7513 - [JS] Arrow 教程:常见数据类型
- ARROW-7514 - [C#] 使 GetValueOffset 过时
- ARROW-7519 - [Python] 构建带有数据集支持的 wheels、conda 包
- ARROW-7521 - [Rust] 删除 FixedSizeList 数据类型上的元组
- ARROW-7523 - [开发者] 放宽 clang-tidy 检查
- ARROW-7526 - [C++][Compute] 优化小整数排序
- ARROW-7532 - [CI] 在 Homebrew 上游修复后取消 brew 测试
- ARROW-7537 - [CI][R] 如果失败,夜间 macOS autobrew 作业应该更加详细
- ARROW-7538 - 在 AllocationManager 中澄清实际大小和所需大小
- ARROW-7540 - [C++] 未安装许可证文件
- ARROW-7541 - [GLib] 安装许可证文件
- ARROW-7542 - [CI][C++] nproc 在 macOS 上不可用
- ARROW-7549 - [Java] 重组 Flight 模块以保持顶层干净/有序
- ARROW-7550 - [R][CI] 在 CI 中运行 donttest 示例
- ARROW-7557 - [C++][Compute] 在随机测试中验证排序稳定性
- ARROW-7558 - [打包][deb][RPM] 对工件使用主机所有者和组
- ARROW-7560 - [Rust] 减少 Rc/Refcell 的使用
- ARROW-7565 - [网站] 添加对下载 URL 重定向的支持
- ARROW-7566 - [CI] 在 AppVeyor 上使用更新版本的 Miniconda
- ARROW-7567 - [Java] 将 Checkstyle 从 6.19 升级到 8.18
- ARROW-7568 - [Java] 将 Apache Avro 从 1.9.0 升级到 1.9.1
- ARROW-7569 - [Python] 添加 API 以将 Arrow 类型映射到 pandas ExtensionDtypes 以进行 to_pandas 转换
- ARROW-7570 - [Java] 修复 LGTM 报告的高严重性问题
- ARROW-7571 - [Java] 更正 README 中的最小 Java 版本
- ARROW-7572 - [Java] 强制执行 README 中提到的 Maven 3.3+
- ARROW-7573 - [Rust] 减少装箱和清理
- ARROW-7575 - [R] Linux 二进制打包后续
- ARROW-7576 - [C++][Dev] 改进模糊测试设置
- ARROW-7577 - [C++][CI] 在 CI 中检查模糊测试设置
- ARROW-7578 - [R] 添加对带有 IPC 文件和多个源的数据集的支持
- ARROW-7581 - [R] 0.16 版本的文档/润色
- ARROW-7590 - [C++] thirdparty/ 目录下的托管文件被忽略
- ARROW-7597 - [C++] 改进 CMake 配置控制台摘要
- ARROW-7600 - [C++][Parquet] 添加一个基本的禁用单元测试来练习嵌套功能
- ARROW-7601 - [文档] [C++] 更新模糊测试文档
- ARROW-7602 - [Archery] 添加更多构建选项
- ARROW-7613 - [Rust] 删除多余的 `::` 前缀
- ARROW-7622 - [Format] 将 Tensor 和 SparseTensor 字段标记为必需
- ARROW-7623 - [C++] 更新生成的 flatbuffers 文件
- ARROW-7626 - [Parquet][GLib] 添加对版本宏的支持
- ARROW-7627 - [C++][Gandiva] 优化字符串截断函数
- ARROW-7629 - [C++][CI] 将模糊回归文件添加到 arrow-testing
- ARROW-7630 - [C++][CI] 在 CI 中检查模糊崩溃回归
- ARROW-7632 - [C++] [CI] 改进模糊测试种子语料库
- ARROW-7635 - [C++] 为每个组件添加 pkg-config 支持
- ARROW-7636 - [Python] 清理 pyarrow.dataset.partitioning() API
- ARROW-7644 - 添加 vcpkg 安装说明
- ARROW-7645 - [Packaging][deb][RPM] crossbow 的 arm64 构建已损坏
- ARROW-7648 - [C++] 清理 Windows 上的本地路径
- ARROW-7658 - [R] 支持对日期/时间进行 dplyr 过滤
- ARROW-7659 - [Rust] 减少 Rc 的使用
- ARROW-7660 - [C++][Gandiva] 优化单字节字符的 castVarchar(string, int) 函数
- ARROW-7665 - [R] linuxLibs.R 应该并行构建
- ARROW-7666 - [Packaging][deb] 始终使用 NInja 以减少构建时间
- ARROW-7667 - [Packaging][deb] 夜间作业中缺少 ubuntu-eoan
- ARROW-7668 - [Packaging][RPM] 如果可能,使用 NInja 以减少构建时间
- ARROW-7670 - [Python][Dataset] 更好的过滤器表达式人体工程学
- ARROW-7671 - [Python][Dataset] 为 DatasetFactory 添加绑定
- ARROW-7674 - 在 merge_arrow_pr.py 中为验证码挑战添加有用的消息
- ARROW-7682 - [Packaging][APT][Yum] 添加对 arm64 APT/Yum 存储库的支持
- ARROW-7683 - [Packaging] 将 0.16.0 设置为下一个版本
- ARROW-7686 - [Packaging][deb][RPM] 包括更多 arrow-*.pc
- ARROW-7687 - [C++] README 中的 C++ 开发人员文档链接已损坏
- ARROW-7692 - [Rust] 几个模式匹配难以阅读
- ARROW-7694 - [Packaging][deb][RPM] 无法为 RC 构建存储库包
- ARROW-7695 - [Release] 将 java 版本更新为 0.16-SNAPSHOT
- ARROW-7696 - [Release] 发布分支上的单元测试失败
- ARROW-7697 - [Release] 为 00-prepare.sh 更新 Linux 包添加测试
- ARROW-7710 - [Release][C#] .NET 下载 URL 被重定向
- ARROW-7711 - [C#] Date32 测试依赖于系统时区
- ARROW-7715 - [Release][APT] 忽略一些 arm64 验证
- ARROW-7716 - [Packaging][APT] 为 Ubuntu 19.10 使用 “main” 组件
- ARROW-7719 - [Python][Dataset] 表相等性检查偶尔失败
- ARROW-772 - [C++] 实现 take 内核函数
- ARROW-7724 - [Release][Yum] 忽略一些 arm64 验证
- ARROW-7743 - [Rust] [Parquet] 支持读取时间戳微秒
- ARROW-7768 - [Rust] 为 reader.rs 中的 Cursor<Vec
> 实现 Length 和 TryClone 特性 - ARROW-843 - [C++] 实现模式统一,合并不等但等效的模式
- ARROW-976 - [C++][Python] 提供 API 用于定义和读取具有更多临时分区方案的 Parquet 数据集
Bug Fixes
- ARROW-3783 - [R] 不正确的浮点类型集合
- ARROW-3962 - [Go] 读取 CSV 文件时支持空值。
- ARROW-5575 - [C++] arrowConfig.cmake 包括未安装的目标
- ARROW-5655 - [Python] Table.from_pydict/from_arrays 未正确使用指定模式中的类型
- ARROW-5680 - [Rust] datafusion group-by 测试依赖于结果集顺序
- ARROW-6157 - [Python][C++] 具有无效数据的 UnionArray 通过验证/导致段错误
- ARROW-6195 - [C++] 如果未安装 python,CMake 会因找不到文件错误而失败(在捆绑 thrift 时)
- ARROW-6429 - [CI][Crossbow] 夜间 spark 集成作业失败
- ARROW-6445 - [CI][Crossbow] 夜间 Gandiva jar trusty 作业失败
- ARROW-6567 - [Rust] [DataFusion] SQL 聚合查询执行假定分组表达式在聚合表达式之前
- ARROW-6581 - [C++] 修复 fuzzit 作业提交
- ARROW-6704 - [C++] 从时间戳转换为更高分辨率的时间戳不会检查超出范围的时间戳
- ARROW-6708 - [C++] “cannot find -lboost_filesystem_static”
- ARROW-6728 - [C#] 支持读取和写入 Date32 和 Date64 数组
- ARROW-6736 - [Rust] [DataFusion] 聚合表达式被重复评估
- ARROW-6740 - [Python] 无法在 Windows 上删除关闭的 MemoryMappedFile
- ARROW-6745 - [Rust] 修复各种拼写错误
- ARROW-6749 - [Python] 将非纳秒时间戳数组转换为 numpy 会给出错误的值
- ARROW-6750 - [Python] 默认情况下静默 S3 错误日志
- ARROW-6761 - [Rust] Travis CI 构建不遵守 rust-toolchain
- ARROW-6762 - [C++] JSON 读取器在换行符处出现段错误
- ARROW-6785 - [JS] 删除多余的子赋值
- ARROW-6786 - [C++] arrow-dataset-file-parquet-test 速度慢
- ARROW-6795 - [C#] 在 C# 中读取大型 Arrow 文件会导致异常
- ARROW-6801 - [Rust] Arrow 源发行版 tarball 缺少基准测试
- ARROW-6806 - [C++] 反序列化包含空/空列表的 ListArray 时出现段错误
- ARROW-6808 - [Ruby] 确保需要合适的 MSYS2 包
- ARROW-6809 - [RUBY] 由于 glib2 3.3.7 编译失败,Gem 未在 macOS 上安装
- ARROW-6812 - [Java] 从许可证标头中删除 Dremio Corp.
- ARROW-6813 - [Ruby] headers=true 的 Arrow::Table.load 会导致 Arrow 0.15 中出现异常
- ARROW-6820 - [C++] [文档] [Format] 映射规范和实现不一致
- ARROW-6834 - [C++] 将 gtest 固定到 1.8.1 以分类失败的 Appveyor/MSVC 构建
- ARROW-6835 - [Archery][CMake] 恢复 ARROW_LINT_ONLY
- ARROW-6842 - [网站] Jekyll 构建网站时出错
- ARROW-6844 - [C++][Parquet][Python] 列表
列读取在 0.15.0 中损坏 - ARROW-6857 - [Python][C++] 空 chunked_array 上 dictionary_encode 的段错误(边缘情况)
- ARROW-6859 - [CI][Nightly] 禁用 CircleCI 任务的 Docker 层缓存
- ARROW-6860 - [Python] 仅将 libarrow_flight.so 链接到 pyarrow._flight
- ARROW-6861 - [Python] arrow-0.15.0 读取 arrow-0.14.1 输出的 Parquet 字典列:读取列失败:IOError:Arrow 错误:无效:调整大小无法缩小
- ARROW-6864 - [C++] bz2 / zstd 测试未启用
- ARROW-6867 - [FlightRPC][Java] Flight 服务器可以在关闭时挂起 JVM
- ARROW-6868 - [Go] 切片 Struct 数组不会切片子字段
- ARROW-6869 - [C++] builder_dict.h 中的字典“delta”构建逻辑产生无效数组
- ARROW-6873 - [Python] 过时的 CColumn 引用破坏 Cython cimport pyarrow
- ARROW-6874 - [Python] 当转换为 object dtype 时,Table.to_pandas() 中的内存泄漏
- ARROW-6876 - [Python] 读取具有许多列的 parquet 文件对于 0.15.0 变得很慢
- ARROW-6877 - [C++] 未从正确的环境中找到 Boost
- ARROW-6878 - [Python] pa.array() 在 python3 下无法正确处理带有字节键的 dict 列表
- ARROW-6882 - [Python] 无法从 dictionary_encoding 结果创建 chunked_array
- ARROW-6885 - [Python] 删除多余的跳过的 timedelta 测试
- ARROW-6886 - [C++] arrow::io 头文件 nvcc 编译器警告
- ARROW-6895 - [C++][Parquet] parquet::arrow::ColumnReader: ByteArrayDictionaryRecordReader 在调用 `NextBatch()` 时重复返回的值
- ARROW-6898 - [Java] 修复 ArrowWriter 和多个测试类中潜在的内存泄漏
- ARROW-6899 - [Python] list<dictionary<values=string, indices=int32> 未实现 to_pandas()
- ARROW-6901 - [Rust][Parquet] SerializedFileWriter 将 total_num_rows 写入为零
- ARROW-6903 - [Python] 在 ARROW-6860 更改后 Wheels 被破坏
- ARROW-6905 - [Packaging][OSX] 由于 brew 编译超时,MacOS 上的夜间构建失败
- ARROW-6910 - [Python] pyarrow.parquet.read_table(…) 占用大量内存,直到程序退出才释放
- ARROW-6913 - [R] compute.cc 中潜在的错误
- ARROW-6914 - [CI] docker-clang-format 夜间构建失败
- ARROW-6922 - [Python] Pandas master 构建失败(MultiIndex.levels 更改)
- ARROW-6925 - [C++] Arrow 无法在 MacOS 10.13.6 上使用 brew gcc 7 和 8 构建
- ARROW-6929 - [C++] ValidateArray 与 ListArray IPC 规范不同步
- ARROW-6937 - [打包][Python] 修复 conda linux 和 OSX wheel 夜间构建
- ARROW-6938 - [Python] Windows wheel 依赖于 zstd.dll 和 libbz2.dll,但没有捆绑
- ARROW-6948 - [Rust] [Parquet] 修复 Arrow 读取器中的布尔数组支持。
- ARROW-6950 - [C++][Dataset] 添加使用数据集读取 parquet 文件的示例/基准测试
- ARROW-6957 - [CI][Crossbow] 使用 sanitizers 的夜间 R 构建在安装依赖项时失败
- ARROW-6962 - [C++] [CI] 停止使用 -Weverything 进行编译
- ARROW-6966 - [Go] 32位 memset 为 null
- ARROW-6977 - [C++] 仅在支持该特性时启用 jemalloc background_thread
- ARROW-6983 - [C++] 线程化任务组有时会崩溃
- ARROW-6989 - [Python][C++] 当十进制类型推断发生在超出范围精度的值上时,会触发断言
- ARROW-6992 - [C++]: 未定义行为 sanitizers 构建选项在 GCC 上失败
- ARROW-6999 - [Python] KeyError:传递 Table.from_pandas 其自身 schema 时出现 ‘__index_level_0__’
- ARROW-7013 - [C++] arrow-dataset pkgconfig 不完整
- ARROW-7020 - [Java] 修复计算向量哈希码时的错误
- ARROW-7021 - [Java] UnionFixedSizeListWriter 十进制类型应检查写入器索引
- ARROW-7022 - [Python] __arrow_array__ 不适用于 Table.from_pandas 中的 ExtensionTypes
- ARROW-7023 - [Python] pa.array 不对 pd.Index 使用 “from_pandas” 语义
- ARROW-7024 - [CI][R] 更新 Conda 构建的 R 依赖项
- ARROW-7027 - [Python] 如果传递无效对象,pa.table(..) 返回而不是引发错误
- ARROW-7033 - [C++] 在 OSX 10.14.6 上构建时,jemalloc 的 ./configure 步骤出错
- ARROW-7045 - [R] Parquet 往返中未保留因子类型
- ARROW-7050 - [R] 修复 R 绑定中的编译器警告
- ARROW-7056 - [Python] 没有 S3 的测试错误
- ARROW-7059 - [Python] 在 0.15.x 版本中读取具有许多列的 parquet 文件比 0.14.x 版本慢得多
- ARROW-7074 - [C++] ASSERT_OK_AND_ASSIGN 在失败时崩溃
- ARROW-7077 - [C++] 不支持的 Dict->T 强制转换崩溃而不是返回错误
- ARROW-7087 - [Python] 当我们写入分区数据集时,表元数据会消失
- ARROW-7097 - [Rust][CI] 由于 rust nightly 格式化导致构建失败
- ARROW-7100 - [C++] 在使用 openjdk-11 的 ubuntu 19.04 上找不到 libjvm.so
- ARROW-7105 - [CI][Crossbow] 夜间 homebrew-cpp 作业失败
- ARROW-7106 - [Java] 修复 flight 性能测试无限期挂起的问题
- ARROW-7117 - [C++][CI] 修复 Windows 2019 中挂起的 C++ 测试
- ARROW-7128 - [CI] Fedora cron 作业由于错误的 fedora 版本而失败
- ARROW-7133 - [CI] 允许 GH Actions 在所有分支上运行
- ARROW-7142 - [C++] 使用 GCC 5.4.0 时编译错误
- ARROW-7152 - [Java] 删除无用的类 DiffFunction
- ARROW-7157 - [R] 为 Object$new() 添加验证和有用的错误消息
- ARROW-7158 - [C++][Visual Studio] 非英语版本 Visual Studio 上的构建配置错误。
- ARROW-7163 - [Doc] 修复 double-and 和拼写错误
- ARROW-7164 - [CI] Dev cron github action 每 15 分钟失败一次
- ARROW-7167 - [CI][Python] 向 Github Actions 添加针对旧版本 pandas 的夜间测试
- ARROW-7168 - [Python] pa.array() 不遵守指定的字典类型
- ARROW-7170 - [C++] 捆绑的 ORC 链接失败
- ARROW-7180 - [CI] Java 构建未在 master 分支上触发
- ARROW-7181 - [Python][Nightly] Wheel 构建无法找到 ArrowPython
- ARROW-7183 - [CI][Crossbow] 重新跳过 r-sanitizer 夜间测试
- ARROW-7187 - [C++][Doc] 由于 @ 导致 master 上的 doxygen 损坏
- ARROW-7188 - [C++][Doc] master 上的 doxygen 损坏:缺少参数 implicit_casts
- ARROW-7194 - [Rust] CSV 写入器导致递归错误
- ARROW-7199 - [Java] BaseAllocator::getChildAllocators 中的 ConcurrentModificationException
- ARROW-7200 - [C++][Flight] 在两台主机上运行 Arrow Flight 基准测试不起作用
- ARROW-7209 - [Python] 现在 pandas 中已添加 __from_arrow__ 支持,导致使用 pandas master 的测试失败
- ARROW-7212 - “go test -bench=8192 -run=. ./math” 失败
- ARROW-7214 - [Python] 反序列化具有字典字段的 pyarrow 表会崩溃
- ARROW-7217 - ARROW-7217: [CI][Python] 在 Github Actions 中使用正确的 python 版本
- ARROW-7225 - [C++] `*std::move(Result
)\` 调用 T 复制构造函数 - ARROW-7249 - [CI] 由于新的 arrow-flight Rust crate,master 中的发布测试失败
- ARROW-7250 - [C++] 使用 clang 4.x 时,StringToFloatConverter::Impl 的未定义符号
- ARROW-7253 - [CI] 修复 master 中发布测试的失败
- ARROW-7254 - BaseVariableWidthVector#setSafe 似乎会导致值偏移不一致
- ARROW-7264 - [Java] RangeEqualsVisitor 类型检查不正确
- ARROW-7266 - [Python] 切片的 dictionary_encode() 给出错误的结果
- ARROW-7271 - [C++][Flight] 使用 SetTotalBytesLimit 的单参数版本
- ARROW-7281 - [C++] AdaptiveIntBuilder::length() 不考虑 pending_pos_。
- ARROW-7282 - [Python] IO 函数应在适当时引发 FileNotFoundError
- ARROW-7291 - [Dev] 修复 update-flatbuffers.sh 中的 FORMAT_DIR
- ARROW-7294 - [Python] converted_type_name_from_enum(): INT_64 的名称不正确
- ARROW-7295 - [R] 修复导致 R < 3.5 失败的错误测试
- ARROW-7298 - [C++] cpp/thirdparty/download-dependencies.sh 损坏
- ARROW-7314 - [Python] pyarrow 中的编译器警告
- ARROW-7318 - [C#] TimestampArray 序列化失败
- ARROW-7320 - [C++] 目标 arrow-type-benchmark 在 bullx Linux 上构建失败
- ARROW-7327 - [CI] 失败的 C GLib 和 R buildbot 构建器
- ARROW-7328 - [CI] GitHub Actions 应在 GitHub Actions 配置发生更改时触发
- ARROW-7341 - [CI] 修复夜间 Conda R 作业的故障
- ARROW-7343 - [Java] 客户端取消时 Flight DoGet 中的内存泄漏
- ARROW-7349 - [C++] 修复解析字符串十六进制值的错误
- ARROW-7353 - [C++] 在使用 clang 构建时禁用 -Wmissing-braces
- ARROW-7354 - [C++] TestHadoopFileSystem::ThreadSafety 因 sigabort 而失败
- ARROW-7355 - [CI] 对于 fuzzit 构建,环境变量定义了两次
- ARROW-7358 - [CI] [Dev] [C++] 在 conda-python-hdfs 上禁用 ccache
- ARROW-7359 - [C++][Gandiva] 不要为起始位置超过字符串长度的 locate 函数抛出错误,而是返回 0
- ARROW-7360 - [R] 无法将 dplyr filter() 与父作用域中定义的变量一起使用
- ARROW-7361 - [Rust] 构建目录未传递给 ci/scripts/rust_test.sh
- ARROW-7362 - [Python] ListArray.flatten() 应处理切片偏移量
- ARROW-7374 - [Dev] [C++] cuda-cpp docker 镜像编译 Arrow 失败
- ARROW-7381 - [C++][Packaging] 迭代器更改破坏了 manylinux1 wheel
- ARROW-7386 - [C#] 数组偏移量无法正常工作
- ARROW-7388 - [Python] 如果无法找到 libhdfs,则跳过 HDFS 测试
- ARROW-7389 - [Python][Packaging] 从 recipe 中删除 pyarrow.s3fs 导入检查
- ARROW-7393 - [Plasma] 修复 Java 构建中的 plasma 可执行文件名称
- ARROW-7395 - [C++] 使用常量的逻辑“或”是 Clang 警告
- ARROW-7397 - [C++] Json 空白长度检测错误
- ARROW-7404 - [C++][Gandiva] 修复 Arm64 上 utf8 字符长度错误
- ARROW-7406 - [Java] NonNullableStructVector#hashCode 应该将哈希器传递给子向量
- ARROW-7407 - [Python] 无法在 Python 3.8 上安装 pyarrow 0.15.1
- ARROW-7408 - [C++] 参考基准测试编译失败
- ARROW-7435 - 安全问题:ValidateOffsets() 不能阻止缓冲区过度读取
- ARROW-7436 - [Archery] 修复基准测试默认配置
- ARROW-7437 - [Java] ReadChannel#readFully 没有正确设置写入器索引
- ARROW-7442 - [Ruby] 将列类型指定为 time 会导致段错误
- ARROW-7447 - [Java] ComplexCopier 在某些情况下复制不正确
- ARROW-7450 - [CI][C++] test-ubuntu-18.04-cpp-static 在 arrow-io-hdfs-test 中链接错误失败
- ARROW-7458 - [GLib] Makefile 中错误的构建依赖
- ARROW-7471 - [Python] Cython flake8 失败
- ARROW-7472 - [Java] 修复 UnionListWriter 中的一些不正确的行为
- ARROW-7478 - [Rust] [DataFusion] 除非与聚合表达式配对,否则忽略 Group by 表达式
- ARROW-7492 - [CI][Crossbow] 夜间 homebrew-cpp 作业在 Python 安装时失败
- ARROW-7497 - [Python] 测试断言:pandas.util.testing 已弃用,请改用 pandas.testing
- ARROW-7500 - [C++][Dataset] 在 centos7 和 opensuse42 上 hive 分区中的 regex_error
- ARROW-7503 - [Rust] Rust 构建在 master 上失败
- ARROW-7506 - [Java] JMH 基准测试应该从 main 方法调用
- ARROW-7508 - [C#] DateTime32 读取中断
- ARROW-7510 - [C++] Array::null_count() 不支持线程
- ARROW-7516 - [C#] .NET 基准测试中断
- ARROW-7518 - [Python] 在构建 wheel,conda 包时使用 PYARROW_WITH_HDFS
- ARROW-7527 - [Python] pandas/feather 测试在 pandas master 上失败
- ARROW-7528 - [Python] pandas.datetime 类(导入 datetime.datetime)和 pandas.np 已弃用
- ARROW-7535 - [C++] 验证中的 ASAN 失败
- ARROW-7543 - [R] arrow::write_parquet() 代码示例不起作用
- ARROW-7551 - [FlightRPC][C++] 由于 Homebrew gRPC,macOS 上的 Flight 测试失败
- ARROW-7552 - [C++] TestSlowInputStream 不稳定
- ARROW-7554 - [C++] 未知的 CMake 命令“externalproject_add”。
- ARROW-7559 - [Rust] StringArray 和 BinaryArray 中可能不正确的索引检查断言
- ARROW-7561 - [Doc][Python] 修复 conda 环境命令
- ARROW-7582 - [Rust][Flight] 无法编译 arrow.flight.protocol.rs
- ARROW-7583 - [C++][Flight] Windows 上的 Auth 处理程序测试很脆弱
- ARROW-7591 - [Python] DictionaryArray.to_numpy 返回部件的字典而不是 numpy 数组
- ARROW-7592 - [C++] 修复损坏的 IPC 输入时的崩溃
- ARROW-7593 - [CI][Python] Python 数据集在 master 上失败/未在 CI 上运行
- ARROW-7595 - [R][CI] 由于 pacman 压缩更改,R appveyor 作业失败
- ARROW-7596 - [Python] 仅当 split_blocks=True 时才应用零拷贝 DataFrame 块优化
- ARROW-7599 - [Java] 修复由于 RangeEqualsVisitor 中的更改导致的构建中断
- ARROW-7603 - [CI][Crossbow] 夜间 centos 8 作业失败
- ARROW-7611 - [Packaging][Python] wheel 的工件模式错误
- ARROW-7612 - [Packaging][Python] Windows 上 Conda 的工件路径错误
- ARROW-7614 - [Python] test_parquet.py::test_set_data_page_size 中的性能缓慢
- ARROW-7618 - [C++] 修复损坏的 IPC 输入时的崩溃或未定义行为
- ARROW-7620 - [Rust] 由于 flatbuffer 编译错误,Windows 构建失败
- ARROW-7621 - [Doc] Doc 构建失败
- ARROW-7634 - [Python] 数据集测试在 Windows 上解析文件路径失败
- ARROW-7638 - [Python] 使用无效文件/分区检查 dataset.Source 时发生段错误
- ARROW-7639 - [R] 当值不是字符串时,无法将 Dictionary Array 转换为 R
- ARROW-7640 - [C++][Dataset] 如果构建不包含对编解码器的支持,则读取压缩的 Parquet 文件时发生段错误
- ARROW-7647 - [C++] JSON 读取器无法读取值很少的数组
- ARROW-7650 - [C++] 数据集测试未在 Windows 上构建
- ARROW-7651 - [CI][Crossbow] 夜间 macOS wheel 构建失败
- ARROW-7652 - [Python][Dataset] 在 ScannerBuilder.filter 中插入隐式转换
- ARROW-7661 - [Python] 当末尾没有换行符时,非最佳 CSV 分块
- ARROW-7689 - [C++] macOS 上零星的 Flight 测试崩溃
- ARROW-7690 - [R] 无法将 parquet 写入 OutputStream
- ARROW-7693 - [CI] 修复 test-conda-python-3.7-spark-master 夜间错误
- ARROW-7709 - [Python] 从 Table 列转换为 Pandas 时,Timestamp 的名称丢失
- ARROW-7714 - [Release] 缺少变量扩展
- ARROW-7718 - [Release] 修复二进制发布脚本中的自动重试
- ARROW-7723 - [Python] 带有时区的 StructArray 时间戳类型 to_pandas 转换错误