Apache Arrow 0.16.0 (2020 年 2 月 7 日)
这是一个主要版本,涵盖了超过 3 个月的开发工作。
下载
贡献者
此版本包含来自 99 位不同贡献者的 709 次提交。
$ git shortlog -sn apache-arrow-0.15.1..apache-arrow-0.16.0
84 Antoine Pitrou
80 Sutou Kouhei
50 Neal Richardson
47 Krisztián Szűcs
44 Joris Van den Bossche
41 Wes McKinney
32 François Saint-Jacques
30 liyafan82
27 tianchen
26 Benjamin Kietzman
19 Andy Grove
16 Kazuaki Ishizaki
14 Kenta Murata
13 Neville Dipale
12 Projjal Chanda
9 gawain.bolton
8 David Li
6 Prudhvi Porandla
6 Renjie Liu
6 Yibo Cai
6 Yosuke Shiro
5 Bryan Cutler
5 Fokko Driesprong
5 Or Ozeri
5 Sebastien Binet
5 Uwe L. Korn
5 Zhuo Peng
4 Gurwinder Singh
4 Kyle McCarthy
4 Micah Kornfield
3 Anthony Abate
3 Paddy Horan
3 Rok
3 macx
3 takashi hashida
2 Adam Lippai
2 Danyang Zhuo
2 Gal Lushi
2 Jonathan A. Sternberg
2 Martin Grund
2 Pindikura Ravindra
2 Rohit Gupta
2 Romain Francois
2 Stéphane Campinas
2 Yuqi Gu
2 czxrrr
2 tianchen92
1 Adam Krebs
1 Alexis Mignon
1 Artem
1 Artem Alekseev
1 Bob Skowron
1 Brian Gold
1 Brian Hulette
1 Brian Wignall
1 Bruce Mitchener
1 Christopher Hutchinson
1 Davis Silverman
1 Dmitry Kalinkin
1 Donatien Criaud
1 Eric Erhardt
1 Fabian Höring
1 François Garillot
1 Gawain Bolton
1 Ha Thi Tham
1 Hengruo Zhang
1 Hiroaki Yutani
1 Hongze Zhang
1 Jim Apple
1 John Muehlhausen
1 John Norris
1 Kazuma Furuhashi
1 Keith Hughitt
1 Kornelijus Survila
1 Li, Jiajia
1 Maarten Ballintijn
1 Maarten Breddels
1 Matteo Figus
1 Matthew Franglen
1 Nick Poorman
1 Noel Hustler
1 Onur Satici
1 Pasha Stetsenko
1 Peter Hoffmann
1 Philipp Moritz
1 Rick Cobb
1 Rong Rong
1 Takashi Hashida
1 Taylor Baldwin
1 Wakahisa
1 Xavier Lacroze
1 Zherui Cao
1 francois-blanchard
1 gnguy
1 karldw
1 lmeyerov
1 luozijun
1 ptaylor
1 root
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-0.15.1..apache-arrow-0.16.0
133 Krisztián Szűcs
100 Sutou Kouhei
91 Wes McKinney
85 Antoine Pitrou
70 Neal Richardson
60 Micah Kornfield
34 Benjamin Kietzman
32 François Saint-Jacques
23 Andy Grove
13 Neville Dipale
12 Praveen
8 David Li
6 Paddy Horan
6 Yosuke Shiro
5 Bryan Cutler
5 Eric Erhardt
4 Kenta Murata
4 Pindikura Ravindra
4 Sebastien Binet
4 Sidd
3 Philipp Moritz
2 Joris Van den Bossche
2 Uwe L. Korn
1 Brian Hulette
1 Chao Sun
1 GitHub
更新日志
新特性和改进
- ARROW-1175 - [Java] 实现/测试字典编码的子字段
- ARROW-1456 - [Python] 在 Travis CI 中运行 s3fs 单元测试
- ARROW-1562 - [C++] 数值 kernel 加法 (+) 实现
- ARROW-1638 - [Java] null 类型 IPC 往返测试
- ARROW-1900 - [C++] 添加用于确定整数数组值范围(最大值和最小值)的 kernel 函数
- ARROW-2428 - [Python] 添加 API 将 Arrow 类型(包括扩展类型)映射到 pandas ExtensionArray 实例,用于 to_pandas 转换
- ARROW-2602 - [打包] 自动化构建开发用的 docker 容器
- ARROW-2863 - [Python] 为 RecordBatch*Writer/Reader 类添加上下文管理器 API
- ARROW-3408 - [C++] 为 CSV 读取器添加选项,以对单个列或所有字符串/二进制列进行字典编码
- ARROW-3444 - [Python] Table.nbytes 属性
- ARROW-3789 - [Python] 允许在 Table.to_pandas 中调用对象时“自毁”,以改进内存使用
- ARROW-3808 - [R] 实现 [.arrow::Array
- ARROW-3813 - [R] Dictionary Arrays 的低级构建
- ARROW-412 - [格式] IPC 元数据中缓冲区填充的处理
- ARROW-4208 - [CI/Python] 为 S3 添加自动化测试
- ARROW-4219 - [Rust] [Parquet] 实现 ArrowReader
- ARROW-4223 - [Python] 支持 scipy.sparse 集成
- ARROW-4224 - [Python] 支持与 pydata/sparse 库集成
- ARROW-4225 - [格式][C++] 添加 CSC 稀疏矩阵支持
- ARROW-4722 - [C++] 实现 Bitmap 类以模块化处理位图
- ARROW-4748 - [Rust] [DataFusion] 可以优化 GROUP BY 性能
- ARROW-4930 - [Python] 移除 Python 构建中对 LIBDIR 的假设
- ARROW-5181 - [Rust] 创建 Arrow 文件读取器
- ARROW-5182 - [Rust] 创建 Arrow 文件写入器
- ARROW-5277 - [C#] MemoryAllocator.Allocate(length: 0) 不应返回 null
- ARROW-5333 - [C++] 将构建选项摘要适应窄控制台
- ARROW-5366 - [Rust] 实现 Duration 和 Interval Arrays
- ARROW-5454 - [C++] 实现 ChunkedArray 上的 Take 操作,用于 DataFrame 使用
- ARROW-5508 - [C++] 创建可重用的 Iterator
接口 - ARROW-5523 - [Python] [打包] 下载依赖项时始终使用 HTTPS
- ARROW-5801 - [CI] Docker 化(添加到 docker-compose)所有 Travis CI Linux 任务
- ARROW-5802 - [CI] Docker 化 “lint” Travis CI 作业
- ARROW-5809 - [Rust] Docker 化(添加到 docker-compose)Rust Travis CI 构建
- ARROW-5831 - [发布] 迁移并改进二进制版本验证脚本
- ARROW-5855 - [Python] 添加 Duration 类型支持
- ARROW-5859 - [Python] 支持将 ExtensionType 转换为 numpy/pandas
- ARROW-5971 - [网站] 介绍 Arrow Flight 的博客文章
- ARROW-6003 - [C++] 改进 CSV 读取器的输入验证和错误消息
- ARROW-6074 - [FlightRPC] 实现中间件
- ARROW-6091 - [Rust] [DataFusion] 实现 limit 的并行执行
- ARROW-6112 - [Java] 更新 API 以支持 64 位地址空间
- ARROW-6184 - [Java] 提供基于哈希表的字典编码器
- ARROW-6251 - [开发者] 将 PR 合并工具添加到 apache/arrow-site
- ARROW-6274 - [Rust] [DataFusion] 添加将结果写入 CSV 的支持
- ARROW-6277 - [C++][Parquet] 支持将其他 Parquet 原始类型读/写到 DictionaryArray
- ARROW-6283 - [Rust] [DataFusion] 实现将查询结果写入分区 CSV 的操作符
- ARROW-6285 - [GLib] 添加 LargeBinary 和 LargeString 类型支持
- ARROW-6286 - [GLib] 添加 LargeList 类型支持
- ARROW-6321 - [Python] 转换为 pandas 时创建 ExtensionBlock 的能力
- ARROW-6340 - [R] 实现对 Dataset 类的低级绑定
- ARROW-6341 - [Python] 实现对 Dataset 的低级绑定
- ARROW-6352 - [Java] 添加 DenseUnionVector 的实现。
- ARROW-6367 - [C++][Gandiva] 实现字符串反转
- ARROW-6378 - [C++][Dataset] 实现 TreeDataSource
- ARROW-6394 - [Java] 支持 delta vector 和 partial sum vector 之间的转换
- ARROW-6396 - [C++] 为 Logical kernels 添加 ResolveNullOptions
- ARROW-6405 - [Python] 添加 std::move 包装器,用于 Cython
- ARROW-6452 - [Java] 覆盖 ValueVector 的 toString() 方法
- ARROW-6463 - [C++][Python] 将 arrow::fs::Selector 重命名为 FileSelector
- ARROW-6466 - [开发者] 将 integration/integration_test.py 重构为 proper Python 包
- ARROW-6468 - [C++] 移除未使用的哈希例程
- ARROW-6473 - [格式] 澄清字典编码的边缘情况
- ARROW-6503 - [C++] 向 SparseTensorConverter 添加内存池对象参数
- ARROW-6508 - [C++] 添加带验证的 Tensor 和 SparseTensor 工厂函数
- ARROW-6515 - [C++] 清理 type_traits.h 定义
- ARROW-6578 - [C++] 将 int64 列转换为字符串列
- ARROW-6592 - [Java] 添加支持跳过 Avro 转换器中列/字段解码的功能
- ARROW-6594 - [Java] 支持 Avro 中的逻辑类型编码
- ARROW-6598 - [Java] 对 ApproxEqualsVisitor 的代码进行排序
- ARROW-6608 - [C++] 将 ARROW_HDFS 默认为 OFF
- ARROW-6610 - [C++] 添加 ARROW_FILESYSTEM=ON/OFF CMake 配置标志
- ARROW-6619 - [Ruby] 添加支持通过 Arrow::Schema#build_expression 构建 Gandiva::Expression
- ARROW-6624 - [C++] 添加 SparseTensor.ToTensor() 方法
- ARROW-6625 - [Python] 允许 concat_tables 用 null 或默认值填充缺失的列
- ARROW-6631 - [C++] 默认不构建任何压缩库依赖项
- ARROW-6633 - [C++] 默认构建不需要 double-conversion
- ARROW-6634 - [C++] 构建不需要 flatbuffers 或 flatbuffers_ep
- ARROW-6635 - [C++] 默认构建不需要 glog
- ARROW-6636 - [C++] 默认不构建 C++ 命令行工具
- ARROW-6637 - [C++] 零依赖的默认核心构建
- ARROW-6646 - [Go] 修改 NullType IPC 实现,不在 RecordBatch 消息中附加缓冲区
- ARROW-6650 - [Rust] [集成] 创建方法以根据集成 JSON 测试 Arrow 文件
- ARROW-6656 - [Rust] [DataFusion] 实现 MIN 和 MAX 聚合表达式
- ARROW-6657 - [Rust] [DataFusion] 实现 COUNT 聚合表达式
- ARROW-6658 - [Rust] [DataFusion] 实现 AVG 聚合表达式
- ARROW-6659 - [Rust] [DataFusion] 重构 HashAggregateExec 以支持自定义合并
- ARROW-6662 - [Java] 实现 VectorSchemaRoot 的 equals/approxEquals API
- ARROW-6671 - [C++] 稀疏 tensor 命名
- ARROW-6672 - [Java] 提取字典构建器的通用接口
- ARROW-6685 - [C++/Python] S3 FileStat 对象的 base_path 和类型取决于尾随斜杠
- ARROW-6686 - [CI] 拉取和推送 docker 镜像以加速夜间构建
- ARROW-6688 - [打包] 在 conda 包中包含 s3 支持
- ARROW-6690 - [Rust] [DataFusion] 没有 GROUP BY 的 HashAggregate 应该使用 SIMD
- ARROW-6692 - [Rust] [DataFusion] 更新示例以使用物理查询计划
- ARROW-6694 - [Rust] [DataFusion] 更新集成测试以使用物理计划
- ARROW-6695 - [Rust] [DataFusion] 移除逻辑计划的执行
- ARROW-6696 - [Rust] [DataFusion] 在物理查询计划中实现简单的数学运算
- ARROW-6700 - [Rust] [DataFusion] 使用新的 parquet arrow 读取器
- ARROW-6707 - [Java] 通过使用可空信息改进 JDBC 适配器的性能
- ARROW-6710 - [Java] 添加 JDBC 适配器测试,覆盖包含 null 值的情况
- ARROW-6711 - [C++] 合并 Filter 和 Expression 类
- ARROW-6721 - [JAVA] Avro 适配器基准测试在 JMH 中只运行一次
- ARROW-6722 - [Java] 提供统一的方式获取 vector 名称
- ARROW-6729 - [C++] StlStringBuffer 构造函数不是零拷贝的
- ARROW-6730 - [CI] 为“C++ with clang 7” docker 镜像使用 GitHub Actions
- ARROW-6732 - [Java] 实现非递归快速排序以避免堆栈溢出
- ARROW-6741 - [发布] 更新 changelog.py 以使用带 APACHE_ 前缀的 JIRA_USERNAME 和 JIRA_PASSWORD 环境变量
- ARROW-6742 - [C++] 移除 arrow/io/hdfs_internal.cc 中对 boost::filesystem::path 的使用
- ARROW-6743 - [C++] 完全移除对 boost::filesystem 的使用(hdfs_internal 除外)
- ARROW-6744 - [Rust] 在 array 模块中导出 JsonEqual trait
- ARROW-6754 - [C++] 合并 arrow/allocator.h 和 arrow/stl.h,或重命名 allocator.h
- ARROW-6758 - [发布] 在版本验证脚本中安装临时的 node/npm/npx
- ARROW-6764 - [C++] 添加预读迭代器
- ARROW-6767 - [JS] 在 scan/scanReverse 中延迟绑定批次
- ARROW-6768 - [C++][Dataset] 实现 dataset::Scan 到 Table 的辅助函数
- ARROW-6769 - [C++][Dataset] 端到端数据集集成测试用例
- ARROW-6770 - [CI][Travis] 静默下载 Minio
- ARROW-6777 - [GLib][CI] 取消固定 gobject-introspection gem
- ARROW-6778 - [C++] 在 Cast kernel 中支持 DurationType
- ARROW-6782 - [C++] 构建不依赖任何 Boost 头文件的最小核心 Arrow 库
- ARROW-6784 - [C++][R] 将 filter 和 take 代码从 Rcpp 移至 C++ 库
- ARROW-6787 - [CI] 停用“C++ with clang 7 and system packages” Travis CI 作业
- ARROW-6788 - [CI] 将 Travis CI lint 作业迁移到 GitHub Actions
- ARROW-6789 - [Python] 自动将 `FlightServerBase.do_action` 返回的 bytes/buffer 类值装箱到 Result 值中
- ARROW-6790 - [发布] 在版本验证中自动禁用集成测试用例
- ARROW-6793 - [R] Linux 上的 Arrow C++ 二进制打包
- ARROW-6797 - [发布] 在网站发布后脚本中使用单独克隆的 arrow-site 仓库
- ARROW-6802 - [打包][deb][RPM] 更新 qemu-user-static 包 URL
- ARROW-6803 - [Rust] [DataFusion] 使用新的物理查询计划时,聚合查询变慢
- ARROW-6804 - [CI] [Rust] 将 Travis Rust 作业迁移到 Github Actions
- ARROW-6807 - [Java][FlightRPC] 暴露 gRPC 服务
- ARROW-6810 - [网站] 为 R 包 0.15 版本添加文档
- ARROW-6811 - [R] 0.15 版本后的各种清理
- ARROW-6814 - [C++] 解决发布构建时出现的编译器警告
- ARROW-6822 - [网站] merge_pr.py 已发布
- ARROW-6824 - [Plasma] 支持小对象的批量创建和密封请求
- ARROW-6825 - [C++] 重构 CSV 读取器 IO,围绕预读迭代器
- ARROW-6831 - [R] 更新 R macOS/Windows 构建以适应 cmake 压缩默认值的变化
- ARROW-6832 - [R] 实现 Codec::IsAvailable
- ARROW-6833 - [R][CI] 添加 crossbow 作业以进行完整的 R autobrew macOS 构建
- ARROW-6836 - [格式] 在 File.fbs 中的 Footer 表中添加 custom_metadata:[KeyValue] 字段
- ARROW-6843 - [网站] 禁止在 pull request 上部署
- ARROW-6847 - [C++] 为 Iterator<> 添加 range_expression 接口
- ARROW-6850 - [Java] Jdbc converter 支持 Null 类型
- ARROW-6852 - [C++] memory-benchmark 在 Arm64 上构建失败
- ARROW-6853 - [Java] 支持 vector 和 dictionary encoder 使用不同的 hasher 计算 hashCode
- ARROW-6855 - [C++][Python][Flight] 实现 Flight 中间件
- ARROW-6862 - [开发者] 检查 pull request 标题
- ARROW-6863 - [Java] 提供并行搜索器
- ARROW-6865 - [Java] 提高 ArrowBuf 与 byte array 比较的性能
- ARROW-6866 - [Java] 提高计算 struct vector 哈希码的性能
- ARROW-6881 - [Rust] 移除“array_ops”,转而使用“compute”子模块
- ARROW-6884 - [Python][Flight] 使服务器端 RPC 异常更友好?
- ARROW-6887 - [Java] 创建关于使用 ValueVectors 的散文文档
- ARROW-6888 - [Java] 支持 vector value 比较器的复制操作
- ARROW-6889 - [Java] ComplexCopier 支持 FixedSizeList 类型并修复 RangeEqualsVisitor 的堆栈溢出
- ARROW-6891 - [Rust] [Parquet] 为 ArrowReader 添加 Utf8 支持
- ARROW-6902 - [C++] 为 Compare kernels 添加 String*/Binary* 支持
- ARROW-6904 - [Python] 实现 MapArray 和 MapType
- ARROW-6907 - [C++][Plasma] 允许 Plasma store 批量通知客户端
- ARROW-6911 - [Java] 提供复合比较器
- ARROW-6912 - [Java] 为 avro converter consumers 提取通用基类
- ARROW-6916 - [开发者] 在夜间 Crossbow 报告中按字母顺序排列任务名称
- ARROW-6918 - [R] 加快 docker-compose 设置速度
- ARROW-6919 - [Python] 在 Cython 中暴露更多 builder
- ARROW-6920 - [Python] 为 python3.8 创建 manylinux wheels
- ARROW-6926 - [Python] 支持 Python 对象的 __sizeof__ 协议
- ARROW-6927 - [C++] 添加 gRPC 版本检查
- ARROW-6928 - [Rust] 添加 FixedSizeList 类型
- ARROW-6930 - [Java] 创建仅用于测试目的填充 vector 值 的工具类
- ARROW-6932 - [Java] 已知扩展类型上的日志不正确
- ARROW-6933 - [Java] 支持线性字典编码器
- ARROW-6936 - [Python] 改进输入类型错误时的错误消息
- ARROW-6942 - [开发者] 通过 GitHub Actions 在 pull request 检查中添加 Parquet 支持
- ARROW-6943 - [网站] 将 Apache Arrow Flight 介绍翻译成日文
- ARROW-6944 - [Rust] 添加 StringType
- ARROW-6949 - [Java] 修复可提升写以处理 nullvectors
- ARROW-6951 - [C++][Dataset] 确保列投影传递给 ParquetDataFragment
- ARROW-6952 - [C++][Dataset] 确保表达式过滤器传递给 ParquetDataFragment
- ARROW-6954 - [Python] [CI] 将 Python 3.8 添加到 CI 矩阵
- ARROW-6960 - [R] 在 Windows 构建中添加更多压缩编解码器支持
- ARROW-6961 - [C++][Gandiva] 在 Gandiva 中添加 lower_utf8 函数
- ARROW-6963 - [打包][Wheel][OSX] 使用 crossbow 命令部署 travis 构建生成的 artifact
- ARROW-6964 - [C++][Dataset] 为 Scanner::ToTable 暴露嵌套并行选项
- ARROW-6965 - [C++][Dataset] 可选地将分区键暴露为物化列
- ARROW-6967 - [C++] 为 IN, IS_VALID 添加过滤器表达式
- ARROW-6969 - [C++][Dataset] ParquetScanTask 立即加载文件
- ARROW-6970 - [打包][RPM] 添加对 CentOS 8 的支持
- ARROW-6973 - [C++][ThreadPool] 在 Submit 中使用 perfect forwarding
- ARROW-6975 - [C++] 将 make_unique 放到自己的头文件中
- ARROW-6980 - [R] RecordBatch/Table 的 dplyr 后端
- ARROW-6984 - [C++] 更新 LZ4 到 1.9.2 以应对 CVE-2019-17543
- ARROW-6986 - [R] 添加基本的 Expression 类
- ARROW-6987 - [CI] Travis OSX 安装 sdk headers 失败
- ARROW-6991 - [打包][deb] 添加对 Ubuntu 19.10 的支持
- ARROW-6994 - [C++] 研究在 background_thread 选项不可用时 macOS 上 jemalloc 内存页回收配置
- ARROW-6997 - [打包] 添加对 RHEL 的支持
- ARROW-7000 - [C++][Gandiva] 处理字符串 lower, upper 函数的空输入
- ARROW-7003 - [格式] [Rust] 在构建脚本中生成 flatbuffers 文件
- ARROW-7004 - [Plasma] 使对象能够在 LRU 缓存中提升
- ARROW-7006 - [Rust] 升级 flatbuffers 版本以避免漏洞
- ARROW-7007 - [C++] 为 LocalFs 启用 mmap 选项
- ARROW-7014 - [开发者] 编写脚本,用于在本地 conda 或 virtualenv 环境中验证 Linux wheels
- ARROW-7015 - [开发者] 编写脚本,用于在本地 conda 或 virtualenv 环境中验证 macOS wheels
- ARROW-7016 - [开发者][Python] 编写脚本,用于在本地 conda 环境中验证 Windows wheels
- ARROW-7019 - [Java] 提高加载 validity buffers 的性能
- ARROW-7026 - [Java] 移除 MessageSerializer/vector/writer/reader 中的断言
- ARROW-7031 - [Python] 在 python 中暴露 ListArray 的偏移量
- ARROW-7032 - [发布] 在版本验证脚本中运行 python 单元测试
- ARROW-7034 - [CI][Crossbow] 跳过已知的夜间失败
- ARROW-7035 - [R] write_parquet 文档中的默认参数不清晰
- ARROW-7036 - [C++] 升级 ORC 版本以避免编译错误
- ARROW-7037 - [C++ ] protobuf >= 3.9 和 clang 组合时的编译错误
- ARROW-7039 - [Python] Typecheck 期望 pandas 已安装
- ARROW-7047 - [C++][Dataset] 过滤表达式不应要求精确的类型匹配
- ARROW-7052 - [C++] 当 ARROW_SHARED=OFF 时 Datasets 示例构建失败
- ARROW-7054 - [文档] 添加选项,通过环境变量覆盖显示的文档版本
- ARROW-7057 - [C++] 添加解析 URI 查询字符串的 API
- ARROW-7058 - [C++] FileSystemDataSourceDiscovery 应相对于其选择器的 base_dir 应用分区方案
- ARROW-7060 - [R] 0.15.1 版本后的清理
- ARROW-7061 - [C++][Dataset] 使用 ParquetFileFormat 的 FileSystemDiscovery 应忽略非 Parquet 文件
- ARROW-7062 - [C++] Parquet 文件解析错误消息应包含文件名
- ARROW-7064 - [R] 实现 null 类型
- ARROW-7066 - [Python] 支持从 __arrow_array__ 返回 ChunkedArray ?
- ARROW-7067 - [CI] 在 Travis-CI 上禁用代码覆盖率
- ARROW-7069 - [C++][Dataset] 将 ConstantPartitionScheme 替换为 PrefixDictionaryPartitionScheme
- ARROW-7070 - [打包][deb] 更新 1.0.0 版本的包名
- ARROW-7072 - [Java] 支持高效地连接 validity bits
- ARROW-7082 - [打包][deb] 添加 apache-arrow-archive-keyring
- ARROW-7092 - [R] 添加 dplyr 和 datasets 的 vignette
- ARROW-7093 - [R] 支持为更多数据类型创建 ScalarExpressions
- ARROW-7094 - [C++] FileSystemDataSource 应为 fs::Filesystem 使用拥有指针
- ARROW-7095 - [R] 更好地处理 dplyr 方法中不支持的 filter 和 mutate 表达式
- ARROW-7096 - [C++] 添加用于 concatenation-with-promotion 和 schema unification 的 options struct
- ARROW-7098 - [Java] 提高比较两个内存块的性能
- ARROW-7099 - [C++] 在 csv parser 测试中消除函数调用的歧义
- ARROW-7101 - [CI] 重构 docker-compose 设置并将其与 GitHub Actions 一起使用
- ARROW-7103 - [R] 各种小的清理工作
- ARROW-7107 - [C++][MinGW] 在 AppVeyor 上启用 Flight
- ARROW-7110 - [GLib] 为 GArrowTable, GArrowChunkedArray 和 GArrowRecordBatch 添加 filter 支持
- ARROW-7111 - [GLib] 为 GArrowTable, GArrowChunkedArray 和 GArrowRecordBatch 添加 take 支持
- ARROW-7113 - [Rust] Buffer 应该接受由其他人拥有的内存
- ARROW-7116 - [CI] 使用 apache 组织提供的 docker 仓库
- ARROW-7146 - [R][CI] R docker-compose 设置的各种修复和加速
- ARROW-7147 - [C++][Dataset] 重构 dataset API 以使用 Result
- ARROW-7148 - [C++][Dataset] API 清理
- ARROW-7149 - [C++] 移除 filesystem API 的实验状态
- ARROW-7159 - [CI] 将 HDFS 测试作为 cron 任务运行
- ARROW-7160 - [C++] 更新 string_view backport
- ARROW-7161 - [C++] 将 filesystem 层从 Status 迁移到 Result
- ARROW-7162 - [C++] 清理 cmake_modules/SetupCxxFlags.cmake 中的警告
- ARROW-7166 - [Java] 移除 Jdbc 适配器的冗余代码
- ARROW-7169 - [C++] 引入 uriparser 库
- ARROW-7171 - [Ruby] 为 Arrow::Table#filter 传递 Array
用于 Arrow::Table#filter - ARROW-7172 - [C++][Dataset] 改进 Expression::ToString 的格式
- ARROW-7176 - [C++] 修复 arrow::ipc 编译器警告
- ARROW-7178 - [C++] 引入前向兼容的 std::optional
- ARROW-7185 - [R][Dataset] 为 IN, IS_VALID 表达式添加绑定
- ARROW-7186 - [R] 在 dplyr 代码中添加内联注释以记录
- ARROW-7192 - [Rust] 实现 Flight crate
- ARROW-7193 - [Rust] 创建 Arrow 流式读取器
- ARROW-7195 - [Ruby] 改进 #filter, #take 和 #is_in
- ARROW-7196 - [Ruby] 移除不必要的 BinaryArrayBuilder#append_values
- ARROW-7197 - [Ruby] 抑制 Ruby 2.7 中的关键词参数相关警告
- ARROW-7204 - [C++][Dataset] In 表达式不应要求精确类型匹配
- ARROW-7206 - [Java] 调用 Preconditions#checkArgument 时避免字符串连接
- ARROW-7207 - [Rust] 更新生成的 Flatbuffer 文件
- ARROW-7210 - [C++] Scalar cast 应支持基于时间的类型
- ARROW-7211 - [Rust] [Parquet] 支持写入字节缓冲区
- ARROW-7216 - [Java] 提高设置/清除单个位的性能
- ARROW-7219 - [CI][Python] 为 python 3.6 在 conda-python docker 镜像中安装 pickle5
- ARROW-7227 - [Python] 为 ConcatenateWithPromotion() 提供包装器
- ARROW-7228 - [Python] 在 Python 中暴露 RecordBatch.FromStructArray。
- ARROW-7235 - [C++] 为 arrow/io 的 API 添加 Result
用于 arrow/io 的 API - ARROW-7236 - [C++] 为 arrow/csv 的 API 添加 Result
用于 arrow/csv 的 API - ARROW-7240 - [C++] 为 arrow/util 的 API 添加 Result
用于 arrow/util 的 API - ARROW-7246 - [CI][Python] wheel 因 SSL_ST_INIT 错误无法构建
- ARROW-7247 - [CI][Python] wheel 因 wget 和 OpenSSL 错误无法构建
- ARROW-7248 - [Rust] 从 Flatbuffers 自动重新生成 IPC 消息
- ARROW-7255 - [CI] 在 pull request 上运行源代码发布测试
- ARROW-7256 - [C++] 移除 ARROW_MEMORY_POOL_DEFAULT 选项
- ARROW-7257 - [CI] Homebrew formula 因 openssl formula 名称更新而失败
- ARROW-7258 - [CI] Fuzzit 作业因不存在的目录而失败
- ARROW-7259 - [Java] 支持 subfield encoder 使用不同的 hasher
- ARROW-7260 - [CI] Ubuntu 14.04 测试因用户定义文字而失败
- ARROW-7261 - [Python] Python 支持固定大小列表类型
- ARROW-7262 - [C++][Gandiva] 在 Gandiva 中实现 replace 函数
- ARROW-7263 - [C++][Gandiva] 实现 locate 和 position 函数
- ARROW-7268 - [Rust] 从 IPC 消息传播 custom_metadata 字段
- ARROW-7269 - [C++] 修复 arrow::parquet 编译器警告
- ARROW-7270 - [Go] 保留 CSV 读取行为,改进内存使用
- ARROW-7274 - [C++] 添加 Result
用于 Decimal 类的 API - ARROW-7275 - [Ruby] 添加对 Arrow::ListDataType.new(data_type) 的支持
- ARROW-7276 - [Ruby] 添加对从 [[…]] 构建 Arrow::ListArray 的支持
- ARROW-7277 - [文档] 添加关于 vector 生命周期 的讨论
- ARROW-7279 - [C++] 将 UnionArray::type_ids 重命名为 UnionArray::type_codes
- ARROW-7284 - [Java] 确保 Java 实现符合澄清的字典规范
- ARROW-7289 - [C#] ListType 构造函数的参数是冗余的
- ARROW-7290 - [C#] 实现 ListArray Builder
- ARROW-7292 - [C++] [CI] [开发] 添加 ASAN / UBSAN CI 运行
- ARROW-7293 - [开发] [C++] 在 docker-compose 构建卷中持久化 ccache
- ARROW-7296 - [Python] 添加 ORC API 文档
- ARROW-7299 - [GLib] 使用 Result 代替 Status
- ARROW-7303 - [C++] 重构基准测试以使用新的 Result API
- ARROW-7306 - [C++] 添加返回 Result 的 FileSystemFromUri 版本
- ARROW-7307 - [CI][GLib] 文档未生成
- ARROW-7309 - [Python] 支持 HDFS federation viewfs://
- ARROW-7310 - [Python] 暴露 pyarrow.fs 的 HDFS 实现
- ARROW-7311 - [Python] 从 URI 返回文件系统和路径
- ARROW-7312 - [Rust] ArrowError 应该实现 std::error:Error
- ARROW-7317 - [C++] 将 Iterator API 迁移到 Result
- ARROW-7321 - [CI][GLib] 构建因 GLib 警告失败
- ARROW-7322 - [CI][Python] 为 manylinux 镜像回退到 arrowdev dockerhub 组织
- ARROW-7323 - [CI][Rust] 夜间 CI 因不同工具链失败
- ARROW-7324 - [Rust] 为 Timestamp 添加 Timezone
- ARROW-7325 - [Rust] [Parquet] 更新到 parquet-format 2.6 和 thrift 0.12
- ARROW-7329 - [Java] AllocationManager: 允许管理非 Netty 分配的不同类型内存
- ARROW-7333 - [CI][Rust] 删除重复的夜间作业
- ARROW-7334 - [CI][Python] macOS 使用 Python 2
- ARROW-7340 - [CI] 清理已失效的 appveyor 构建设置
- ARROW-7344 - [打包][Python] 构建 manylinux2014 wheel
- ARROW-7346 - [CI] 在构建中明确使用 ccache
- ARROW-7347 - [C++] 更新捆绑的 Boost 到 1.71.0
- ARROW-7348 - [Rust] 添加返回 null 位图缓冲区引用的 API。
- ARROW-7351 - [开发者] 合并 Parquet 补丁时仅建议 cpp-* fix 版本
- ARROW-7357 - [Go] 从 pkg/errors 迁移到 x/xerrors
- ARROW-7366 - [C++][Dataset] 在 DataSourceDiscovery 中使用 PartitionSchemeDiscovery
- ARROW-7367 - [Python] 在 ParquetDatasetPiece 中使用 np.full 代替 np.array.repeat
- ARROW-7368 - [Ruby] 使用 :arrow_file 和 :arrow_streaming 作为格式名称
- ARROW-7369 - [GLib] 添加 garrow_table_combine_chunks
- ARROW-7370 - [C++] 旧版本 Protobuf 的 AUTO 检测失败
- ARROW-7377 - [C++][Dataset] 简化 parquet 列投影
- ARROW-7378 - [C++][Gandiva] IR 优化中的循环向量化损坏
- ARROW-7379 - [C++] 引入 SchemaBuilder 伴侣类和 Field::IsCompatibleWith
- ARROW-7380 - [C++][Dataset] 实现 DatasetFactory
- ARROW-7382 - [C++][Dataset] 重构 FsDsDiscovery 构造函数
- ARROW-7387 - [C#] 支持 ListType 序列化
- ARROW-7392 - [打包] 为 python 3.8 添加 conda 打包任务
- ARROW-7398 - [打包][Python] Conda 在 macOS 上构建失败
- ARROW-7399 - [C++][Gandiva] Gandiva 不选择运行时 CPU 特性
- ARROW-7402 - [C++] 添加更多关于 CUDA 错误的信息
- ARROW-7403 - [C++][JSON] 在 Arm64 Neon 上启用 Rapidjson
- ARROW-7410 - [Python] [文档] 文档化文件系统 API
- ARROW-7411 - [C++][Flight] Arrow Flight 基准测试输出不正确
- ARROW-7413 - [Python][Dataset] 添加 PartitionSchemeDiscovery 的测试
- ARROW-7414 - [R][Dataset] 实现 PartitionSchemeDiscovery
- ARROW-7415 - [C++][Dataset] 为由 ipc 文件组成的源实现 IpcFormat
- ARROW-7416 - [R][夜间] 修复 R 3.6.2 上 macos-r-autobrew 构建失败的问题
- ARROW-7417 - [C++] 为 CUDA 10.1 添加一个 docker-compose 条目
- ARROW-7418 - [C++] 无法在 Ubuntu 16.04 上使用 g++ 5.4.0 构建
- ARROW-7420 - [C++] 将张量相关的 API 迁移到返回 Result 的版本
- ARROW-7429 - [Java] 增强 Java 代码风格检查(移除连续空格)
- ARROW-7430 - [Python] 为 dataset 绑定添加更多 docstrings
- ARROW-7431 - [Python] 将 dataset API 添加到参考文档
- ARROW-7432 - [Python] 添加更高级别的 datasets 函数
- ARROW-7439 - [C++][Dataset] 移除 dataset 指针别名
- ARROW-7449 - [GLib] 使 GObject Introspection 可选
- ARROW-7452 - [GLib] 使 GArrowTimeDataType 抽象
- ARROW-7453 - [Ruby] 添加对 Arrow::NullArray#[] 的支持
- ARROW-7454 - [Ruby] 添加对保存/加载 TSV 的支持
- ARROW-7455 - [Ruby] 对所有 GArrowDataType 输入使用 Arrow::DataType.resolve
- ARROW-7456 - [C++] 添加对 YYYY-MM-DDThh 和 YYYY-MM-DDThh:mm 时间戳格式的支持
- ARROW-7457 - [文档] 修复拼写错误
- ARROW-7459 - [Python] 文档 lint 检查失败
- ARROW-7460 - [Rust] 使用自动向量化改进一些 kernel
- ARROW-7461 - [Java] 修复拼写和文字错误
- ARROW-7463 - [文档] 修复断开的链接和拼写错误
- ARROW-7464 - [C++] 使用 std::call_once 优化 CpuInfo 单例
- ARROW-7465 - [C++] 添加 Arm64 的 Arrow 内存基准测试
- ARROW-7468 - [Python] 修复拼写错误
- ARROW-7469 - [C++] 改进与除法相关的位运算
- ARROW-7470 - [JS] 修复拼写错误
- ARROW-7474 - [Ruby] 更快地保存 CSV 文件
- ARROW-7475 - [Rust] 创建 Arrow Stream writer
- ARROW-7477 - [FlightRPC][Java] Flight gRPC 服务缺少反射信息
- ARROW-7479 - [Rust][Ruby][R] 修复拼写错误
- ARROW-7481 - [C#] 修复拼写错误
- ARROW-7482 - [C++] 修复拼写错误
- ARROW-7484 - [C++][Gandiva] 修复拼写错误
- ARROW-7485 - [C++][Plasma] 修复拼写错误
- ARROW-7487 - [开发者] 修复拼写错误
- ARROW-7488 - [GLib] 修复拼写错误和断开的链接
- ARROW-7489 - [CI] 修复拼写错误
- ARROW-7490 - [Java] Avro 转换器应将属性和 props 转换为 FieldType 元数据
- ARROW-7493 - [Python] 在 pyarrow.compute 中暴露 sum kernel 并支持 ChunkedArray 输入
- ARROW-7498 - [C++][Dataset] 重命名 DataFragment/DataSource/PartitionScheme
- ARROW-7502 - [集成] 移除不再需要的 Spark 集成补丁
- ARROW-7513 - [JS] Arrow 教程:常见数据类型
- ARROW-7514 - [C#] 将 GetValueOffset 标记为 Obsolete
- ARROW-7519 - [Python] 构建支持 dataset 的 wheels, conda 包
- ARROW-7521 - [Rust] 移除 FixedSizeList datatype 上的 tuple
- ARROW-7523 - [开发者] 放松 clang-tidy 检查
- ARROW-7526 - [C++][Compute]: 优化小整数排序
- ARROW-7532 - [CI] 在 Homebrew 修复上游问题后取消跳过 brew 测试
- ARROW-7537 - [CI][R] 夜间 macOS autobrew 作业失败时应更详细地输出信息
- ARROW-7538 - 澄清 AllocationManager 中的实际大小和期望大小
- ARROW-7540 - [C++] 许可证文件未安装
- ARROW-7541 - [GLib] 安装许可证文件
- ARROW-7542 - [CI][C++] nproc 在 macOS 上不可用
- ARROW-7549 - [Java] 重组 Flight 模块以保持顶层整洁/有条理
- ARROW-7550 - [R][CI] 在 CI 中运行 donttest 示例
- ARROW-7557 - [C++][Compute] 在随机测试中验证排序稳定性
- ARROW-7558 - [打包][deb][RPM] 对 artifact 使用主机所有者和组
- ARROW-7560 - [Rust] 减少 Rc/Refcell 的使用
- ARROW-7565 - [网站] 添加下载 URL 重定向支持
- ARROW-7566 - [CI] 在 AppVeyor 上使用更新的 Miniconda
- ARROW-7567 - [Java] 将 Checkstyle 从 6.19 升级到 8.18
- ARROW-7568 - [Java] 将 Apache Avro 从 1.9.0 升级到 1.9.1
- ARROW-7569 - [Python] 添加将 Arrow 类型映射到 pandas ExtensionDtypes 的 API,用于 to_pandas 转换
- ARROW-7570 - [Java] 修复 LGTM 报告的高严重性问题
- ARROW-7571 - [Java] 更正 README 中最低 Java 版本
- ARROW-7572 - [Java] 强制使用 README 中提到的 Maven 3.3+
- ARROW-7573 - [Rust] 减少装箱和清理
- ARROW-7575 - [R] Linux 二进制打包后续
- ARROW-7576 - [C++][开发] 改进 fuzzing 设置
- ARROW-7577 - [C++][CI] 在 CI 中检查 fuzzer 设置
- ARROW-7578 - [R] 添加对包含 IPC 文件和多个来源的 dataset 的支持
- ARROW-7581 - [R] 0.16 版本的文档/润色
- ARROW-7590 - [C++] thirdparty/ 中托管的文件被忽略
- ARROW-7597 - [C++] CMake 配置控制台摘要的改进
- ARROW-7600 - [C++][Parquet] 添加一个基本的禁用单元测试以练习嵌套功能
- ARROW-7601 - [文档] [C++] 更新 fuzzing 文档
- ARROW-7602 - [Archery] 添加更多构建选项
- ARROW-7613 - [Rust] 移除冗余的 `::` 前缀
- ARROW-7622 - [格式] 将 Tensor 和 SparseTensor 字段标记为必需
- ARROW-7623 - [C++] 更新生成的 flatbuffers 文件
- ARROW-7626 - [Parquet][GLib] 添加对版本宏的支持
- ARROW-7627 - [C++][Gandiva] 优化字符串截断函数
- ARROW-7629 - [C++][CI] 将 fuzz 回归文件添加到 arrow-testing
- ARROW-7630 - [C++][CI] 在 CI 中检查 fuzz 崩溃回归
- ARROW-7632 - [C++] [CI] 改进 fuzzing 种子语料库
- ARROW-7635 - [C++] 为每个组件添加 pkg-config 支持
- ARROW-7636 - [Python] 清理 pyarrow.dataset.partitioning() API
- ARROW-7644 - 添加 vcpkg 安装说明
- ARROW-7645 - [打包][deb][RPM] crossbow 构建的 arm64 版本损坏
- ARROW-7648 - [C++] 在 Windows 上清理本地路径
- ARROW-7658 - [R] 支持 dplyr 在日期/时间上进行过滤
- ARROW-7659 - [Rust] 减少 Rc 的使用
- ARROW-7660 - [C++][Gandiva] 优化用于单字节字符的 castVarchar(string, int) 函数
- ARROW-7665 - [R] linuxLibs.R 应并行构建
- ARROW-7666 - [打包][deb] 始终使用 NInja 减少构建时间
- ARROW-7667 - [打包][deb] 夜间作业中缺少 ubuntu-eoan
- ARROW-7668 - [打包][RPM] 如果可能,使用 NInja 减少构建时间
- ARROW-7670 - [Python][Dataset] 改进 filter 表达式的人机工程学
- ARROW-7671 - [Python][Dataset] 为 DatasetFactory 添加绑定
- ARROW-7674 - 为 merge_arrow_pr.py 中的 captcha 挑战添加有用的消息
- ARROW-7682 - [打包][APT][Yum] 添加对 arm64 APT/Yum 仓库的支持
- ARROW-7683 - [打包] 设置下一个版本为 0.16.0
- ARROW-7686 - [打包][deb][RPM] 包含更多 arrow-*.pc
- ARROW-7687 - [C++] README 中 C++ 开发者文档链接损坏
- ARROW-7692 - [Rust] 一些模式匹配难以阅读
- ARROW-7694 - [打包][deb][RPM] 无法构建用于 RC 的仓库包
- ARROW-7695 - [发布] 更新 Java 版本到 0.16-SNAPSHOT
- ARROW-7696 - [发布] 发布分支上的单元测试失败
- ARROW-7697 - [发布] 添加通过 00-prepare.sh 更新 Linux 包的测试
- ARROW-7710 - [发布][C#] .NET 下载 URL 被重定向
- ARROW-7711 - [C#] Date32 测试依赖于系统时区
- ARROW-7715 - [发布][APT] 忽略一些 arm64 验证
- ARROW-7716 - [打包][APT] 为 Ubuntu 19.10 使用“main”组件
- ARROW-7719 - [Python][Dataset] 表等价性检查偶尔失败
- ARROW-772 - [C++] 实现 take kernel 函数
- ARROW-7724 - [发布][Yum] 忽略一些 arm64 验证
- ARROW-7743 - [Rust] [Parquet] 支持读取微秒时间戳
- ARROW-7768 - [Rust] 在 reader.rs 中为 Cursor<Vec> 实现 Length 和 TryClone trait
在 reader.rs 中 - ARROW-843 - [C++] 实现 Schema 统一,合并不相等但等价的 Schema
- ARROW-976 - [C++][Python] 提供 API 用于定义和读取具有更多临时(ad hoc)分区方案的 Parquet 数据集
错误修复
- ARROW-3783 - [R] float 类型收集不正确
- ARROW-3962 - [Go] 读取 CSV 文件时支持 null 值。
- ARROW-5575 - [C++] arrowConfig.cmake 包含未安装的目标
- ARROW-5655 - [Python] Table.from_pydict/from_arrays 未正确使用指定 schema 中的类型
- ARROW-5680 - [Rust] datafusion group-by 测试依赖于结果集顺序
- ARROW-6157 - [Python][C++] 带有无效数据的 UnionArray 通过验证 / 导致段错误
- ARROW-6195 - [C++] 如果未安装 Python,CMake 在捆绑 thrift 时因文件未找到错误而失败
- ARROW-6429 - [CI][Crossbow] 夜间 spark 集成作业失败
- ARROW-6445 - [CI][Crossbow] 夜间 Gandiva jar trusty 作业失败
- ARROW-6567 - [Rust] [DataFusion] SQL 聚合查询执行假设分组表达式先于聚合表达式
- ARROW-6581 - [C++] 修复 fuzzit 作业提交
- ARROW-6704 - [C++] 从时间戳到更高分辨率的转换未检查越界时间戳
- ARROW-6708 - [C++] “找不到 -lboost_filesystem_static”
- ARROW-6728 - [C#] 支持读取和写入 Date32 和 Date64 数组
- ARROW-6736 - [Rust] [DataFusion] 聚合表达式被重复评估
- ARROW-6740 - [Python] 无法在 Windows 上删除已关闭的 MemoryMappedFile
- ARROW-6745 - [Rust] 修复多种拼写错误
- ARROW-6749 - [Python] 将非纳秒时间戳数组转换为 numpy 得到错误的值
- ARROW-6750 - [Python] 默认情况下静默 S3 错误日志
- ARROW-6761 - [Rust] Travis CI 构建不遵守 rust-toolchain
- ARROW-6762 - [C++] JSON 读取器在换行符处发生段错误
- ARROW-6785 - [JS] 移除多余的子节点赋值
- ARROW-6786 - [C++] arrow-dataset-file-parquet-test 运行缓慢
- ARROW-6795 - [C#] 在 C# 中读取大型 Arrow 文件导致异常
- ARROW-6801 - [Rust] Arrow 源码发布 tarball 缺少基准测试
- ARROW-6806 - [C++] 反序列化包含 null/空列表的 ListArray 时发生段错误
- ARROW-6808 - [Ruby] 确保需要合适的 MSYS2 包
- ARROW-6809 - [RUBY] 由于 glib2 3.3.7 编译失败,Gem 未能安装在 macOS 上
- ARROW-6812 - [Java] 从许可证头中移除 Dremio Corp.
- ARROW-6813 - [Ruby] 在 Arrow 0.15 中,使用 headers=true 调用 Arrow::Table.load 导致异常
- ARROW-6820 - [C++] [文档] [格式] Map 规范和实现不一致
- ARROW-6834 - [C++] 将 gtest 固定到 1.8.1 以诊断失败的 Appveyor / MSVC 构建
- ARROW-6835 - [Archery][CMake] 恢复 ARROW_LINT_ONLY
- ARROW-6842 - [网站] Jekyll 构建网站时出错
- ARROW-6844 - [C++][Parquet][Python] 0.15.0 版本读取列表列损坏
列读取功能在 0.15.0 版本中损坏 - ARROW-6857 - [Python][C++] 对空 chunked_array 进行 dictionary_encode 时发生段错误(边缘情况)
- ARROW-6859 - [CI][夜间] 禁用 CircleCI 任务的 docker 层缓存
- ARROW-6860 - [Python] 仅将 libarrow_flight.so 链接到 pyarrow._flight
- ARROW-6861 - [Python] arrow-0.15.0 读取 arrow-0.14.1 输出的 Parquet 字典列时失败:读取列失败:IOError: Arrow 错误:Invalid: Resize cannot downsize
- ARROW-6864 - [C++] bz2 / zstd 测试未启用
- ARROW-6867 - [FlightRPC][Java] Flight 服务器在关闭时可能导致 JVM 卡死
- ARROW-6868 - [Go] 切割 Struct 数组时未切割子字段
- ARROW-6869 - [C++] builder_dict.h 中的字典“delta”构建逻辑产生无效数组
- ARROW-6873 - [Python] 过时的 CColumn 引用破坏了 Cython cimport pyarrow
- ARROW-6874 - [Python] 将 Table.to_pandas() 转换为 object dtype 时发生内存泄漏
- ARROW-6876 - [Python] 0.15.0 版本读取包含多列的 parquet 文件变得缓慢
- ARROW-6877 - [C++] 未从正确环境中找到 Boost
- ARROW-6878 - [Python] pa.array() 在 python3 下未能正确处理带有字节键的字典列表
- ARROW-6882 - [Python] 无法从 dictionary_encoding 结果创建 chunked_array
- ARROW-6885 - [Python] 移除多余的已跳过 timedelta 测试
- ARROW-6886 - [C++] arrow::io 头文件 nvcc 编译器警告
- ARROW-6895 - [C++][Parquet] parquet::arrow::ColumnReader: ByteArrayDictionaryRecordReader 在调用 `NextBatch()` 时重复返回的值
- ARROW-6898 - [Java] 修复 ArrowWriter 和几个测试类中潜在的内存泄漏
- ARROW-6899 - [Python] to_pandas() 未在 list<dictionary<values=string, indices=int32>> 上实现
- ARROW-6901 - [Rust][Parquet] SerializedFileWriter 将 total_num_rows 写入为零
- ARROW-6903 - [Python] ARROW-6860 更改后 Wheels 损坏
- ARROW-6905 - [打包][OSX] macOS 上的夜间构建因 brew 编译超时失败
- ARROW-6910 - [Python] pyarrow.parquet.read_table(...) 占用大量内存,直到程序退出才释放
- ARROW-6913 - [R] compute.cc 中潜在的 bug
- ARROW-6914 - [CI] docker-clang-format 夜间作业失败
- ARROW-6922 - [Python] Pandas master 构建失败 (MultiIndex.levels 更改)
- ARROW-6925 - [C++] 在 MacOS 10.13.6 上使用 brew gcc 7 和 8 构建 Arrow 失败
- ARROW-6929 - [C++] ValidateArray 与 ListArray IPC 规范不同步
- ARROW-6937 - [打包][Python] 修复 conda linux 和 OSX wheel 夜间构建
- ARROW-6938 - [Python] Windows wheel 依赖于未捆绑的 zstd.dll 和 libbz2.dll
- ARROW-6948 - [Rust] [Parquet] 修复 Arrow reader 中对 bool 数组的支持。
- ARROW-6950 - [C++][Dataset] 添加使用 dataset 读取 parquet 文件的示例/基准测试
- ARROW-6957 - [CI][Crossbow] 夜间 R sanitizers 构建安装依赖时失败
- ARROW-6962 - [C++] [CI] 停止使用 -Weverything 编译
- ARROW-6966 - [Go] 32bit memset 为 null
- ARROW-6977 - [C++] 仅在支持 jemalloc background_thread 特性时启用
- ARROW-6983 - [C++] 线程化任务组有时会崩溃
- ARROW-6989 - [Python][C++] 对精度超出范围的值进行十进制类型推断时触发断言
- ARROW-6992 - [C++]: Undefined Behavior sanitizer 构建选项在使用 GCC 时失败
- ARROW-6999 - [Python] 将 Table.from_pandas 的 schema 传递给自身时出现 KeyError: ‘__index_level_0__’
- ARROW-7013 - [C++] arrow-dataset pkgconfig 不完整
- ARROW-7020 - [Java] 修复计算 vector 哈希码时的 bug
- ARROW-7021 - [Java] UnionFixedSizeListWriter decimal 类型应检查写入器索引
- ARROW-7022 - [Python] __arrow_array__ 不适用于 Table.from_pandas 中的 ExtensionTypes
- ARROW-7023 - [Python] pa.array 不对 pd.Index 使用“from_pandas”语义
- ARROW-7024 - [CI][R] 更新 Conda 构建所需的 R 依赖
- ARROW-7027 - [Python] pa.table(..) 在传递无效对象时返回而不是引发错误
- ARROW-7033 - [C++] 在 OSX 10.14.6 上构建时,jemalloc 的 ./configure 步骤出错
- ARROW-7045 - [R] Factor 类型在 Parquet 往返过程中未保留
- ARROW-7050 - [R] 修复 R 绑定中的编译器警告
- ARROW-7056 - [Python] 在没有 S3 的情况下测试错误
- ARROW-7059 - [Python] 在 0.15.x 版本中,读取包含多列的 parquet 文件比 0.14.x 版本慢很多
- ARROW-7074 - [C++] ASSERT_OK_AND_ASSIGN 在失败时崩溃
- ARROW-7077 - [C++] 不支持的 Dict->T cast 会崩溃而不是返回错误
- ARROW-7087 - [Python] 写入 partitioned dataset 时 Table 元数据消失
- ARROW-7097 - [Rust][CI] 构建因 rust nightly 格式化失败
- ARROW-7100 - [C++] 在带有 openjdk-11 的 ubuntu 19.04 上找不到 libjvm.so
- ARROW-7105 - [CI][Crossbow] 夜间 homebrew-cpp 作业失败
- ARROW-7106 - [Java] 修复 flight 性能测试无限期挂起的问题
- ARROW-7117 - [C++] [CI] 修复 Windows 2019 中挂起的 C++ 测试
- ARROW-7128 - [CI] Fedora cron 作业因 Fedora 版本错误而失败
- ARROW-7133 - [CI] 允许 GH Actions 在所有分支上运行
- ARROW-7142 - [C++] 使用 GCC 5.4.0 编译出错
- ARROW-7152 - [Java] 删除无用的类 DiffFunction
- ARROW-7157 - [R] 为 Object$new() 添加验证和有用的错误消息
- ARROW-7158 - [C++][Visual Studio] 非英文版 Visual Studio 上的构建配置错误。
- ARROW-7163 - [文档] 修复双重 and 拼写错误
- ARROW-7164 - [CI] Dev cron github action 每隔 15 分钟失败一次
- ARROW-7167 - [CI][Python] 添加针对旧版本 pandas 的夜间测试到 Github Actions
- ARROW-7168 - [Python] pa.array() 不遵守指定的 dictionary 类型
- ARROW-7170 - [C++] 捆绑的 ORC 链接失败
- ARROW-7180 - [CI] Java 构建未在 master 分支上触发
- ARROW-7181 - [Python][夜间] Wheel 构建找不到 ArrowPython
- ARROW-7183 - [CI][Crossbow] 重新跳过 r-sanitizer 夜间测试
- ARROW-7187 - [C++][文档] master 分支上的 doxygen 因 @ 而损坏
- ARROW-7188 - [C++][文档] master 分支上的 doxygen 损坏:缺少参数 implicit_casts
- ARROW-7194 - [Rust] CSV Writer 导致递归错误
- ARROW-7199 - [Java] BaseAllocator::getChildAllocators 中出现 ConcurrentModificationException
- ARROW-7200 - [C++][Flight] 在两台主机上运行 Arrow Flight 基准测试不起作用
- ARROW-7209 - [Python] 使用 pandas master 分支进行的测试现在失败了,因为 __from_arrow__ 支持已合并到 pandas 中
- ARROW-7212 - “go test -bench=8192 -run=. ./math” 失败
- ARROW-7214 - [Python] 反序列化带有字典字段的 pyarrow 表时崩溃
- ARROW-7217 - ARROW-7217: [CI][Python] 在 Github Actions 中使用正确的 Python 版本
- ARROW-7225 - [C++] `*std::move(Result
)\` 调用 T 的拷贝构造函数 - ARROW-7249 - [CI] 发布测试在 master 分支中失败,因为新的 arrow-flight Rust crate
- ARROW-7250 - [C++] StringToFloatConverter::Impl 的未定义符号,使用 clang 4.x 编译时出现
- ARROW-7253 - [CI] 修复由发布测试引起的 master 分支失败
- ARROW-7254 - BaseVariableWidthVector#setSafe 似乎导致值偏移量不一致
- ARROW-7264 - [Java] RangeEqualsVisitor 类型检查不正确
- ARROW-7266 - [Python] 对一个切片进行 dictionary_encode() 操作结果不正确
- ARROW-7271 - [C++][Flight] 使用 SetTotalBytesLimit 的单参数版本
- ARROW-7281 - [C++] AdaptiveIntBuilder::length() 未考虑 pending_pos_。
- ARROW-7282 - [Python] IO 函数应在适当时候抛出 FileNotFoundError
- ARROW-7291 - [Dev] 修复 update-flatbuffers.sh 中的 FORMAT_DIR
- ARROW-7294 - [Python] converted_type_name_from_enum(): INT_64 的名称不正确
- ARROW-7295 - [R] 修复导致在 R < 3.5 版本上失败的错误测试
- ARROW-7298 - [C++] cpp/thirdparty/download-dependencies.sh 损坏
- ARROW-7314 - [Python] pyarrow 中的编译器警告
- ARROW-7318 - [C#] TimestampArray 序列化失败
- ARROW-7320 - [C++] 目标 arrow-type-benchmark 在 bullx Linux 上构建失败
- ARROW-7327 - [CI] C GLib 和 R buildbot 构建器失败
- ARROW-7328 - [CI] GitHub Actions 应在 GitHub Actions 配置更改时触发
- ARROW-7341 - [CI] 修复每晚 Conda R 作业的故障
- ARROW-7343 - [Java] 当客户端取消时,Flight DoGet 中出现内存泄漏
- ARROW-7349 - [C++] 修复解析字符串十六进制值时的错误
- ARROW-7353 - [C++] 使用 clang 构建时禁用 -Wmissing-braces
- ARROW-7354 - [C++] TestHadoopFileSystem::ThreadSafety 失败并伴随 sigabort
- ARROW-7355 - [CI] 对于 fuzzit 构建,环境变量被定义了两次
- ARROW-7358 - [CI] [Dev] [C++] 在 conda-python-hdfs 上禁用了 ccache
- ARROW-7359 - [C++][Gandiva] 对于起始位置超出字符串长度的 locate 函数,不抛出错误,而是返回 0
- ARROW-7360 - [R] 无法使用 dplyr filter() 处理在父作用域中定义的变量
- ARROW-7361 - [Rust] 构建目录未传递给 ci/scripts/rust_test.sh
- ARROW-7362 - [Python] ListArray.flatten() 应考虑切片偏移量
- ARROW-7374 - [Dev] [C++] cuda-cpp docker 镜像编译 Arrow 失败
- ARROW-7381 - [C++][Packaging] 迭代器更改导致 manylinux1 wheels 损坏
- ARROW-7386 - [C#] 数组偏移量工作不正常
- ARROW-7388 - [Python] 如果无法找到 libhdfs,则跳过 HDFS 测试
- ARROW-7389 - [Python][Packaging] 从构建脚本中移除 pyarrow.s3fs 导入检查
- ARROW-7393 - [Plasma] 修复 Java 构建中的 plasma 可执行文件名称
- ARROW-7395 - [C++] 常量之间的逻辑 “or” 是一个 Clang 警告
- ARROW-7397 - [C++] Json 空白字符长度检测错误
- ARROW-7404 - [C++][Gandiva] 修复 Arm64 上的 utf8 字符长度错误
- ARROW-7406 - [Java] NonNullableStructVector#hashCode 应将 hasher 传递给子向量
- ARROW-7407 - [Python] 无法在 Python 3.8 上安装 pyarrow 0.15.1
- ARROW-7408 - [C++] 引用基准测试编译失败
- ARROW-7435 - 安全问题:ValidateOffsets() 无法防止缓冲区越界读取
- ARROW-7436 - [Archery] 修复基准测试默认配置
- ARROW-7437 - [Java] ReadChannel#readFully 未正确设置写入器索引
- ARROW-7442 - [Ruby] 将列类型指定为 time 导致段错误
- ARROW-7447 - [Java] ComplexCopier 在某些情况下拷贝不正确
- ARROW-7450 - [CI][C++] test-ubuntu-18.04-cpp-static 失败,在 arrow-io-hdfs-test 中出现链接错误
- ARROW-7458 - [GLib] 在 Makefile 中的构建依赖不正确
- ARROW-7471 - [Python] Cython flake8 检查失败
- ARROW-7472 - [Java] 修复 UnionListWriter 中的一些不正确行为
- ARROW-7478 - [Rust] [DataFusion] Group by 表达式被忽略,除非与聚合表达式配对
- ARROW-7492 - [CI][Crossbow] 每晚 homebrew-cpp 作业在 Python 安装步骤中失败
- ARROW-7497 - [Python] 测试断言:pandas.util.testing 已弃用,请改用 pandas.testing
- ARROW-7500 - [C++][Dataset] 在 centos7 和 opensuse42 上,在 hive 分区中出现 regex_error
- ARROW-7503 - [Rust] Rust 构建在 master 分支上失败
- ARROW-7506 - [Java] 应从 main 方法调用 JMH 基准测试
- ARROW-7508 - [C#] DateTime32 读取功能损坏
- ARROW-7510 - [C++] Array::null_count() 不支持多线程
- ARROW-7516 - [C#] .NET 基准测试损坏
- ARROW-7518 - [Python] 在构建 wheels 和 conda 包时使用 PYARROW_WITH_HDFS
- ARROW-7527 - [Python] pandas/feather 测试在 pandas master 分支上失败
- ARROW-7528 - [Python] pandas.datetime 类 (datetime.datetime 的导入) 和 pandas.np 已弃用
- ARROW-7535 - [C++] 验证中的 ASAN 失败
- ARROW-7543 - [R] arrow::write_parquet() 代码示例无法工作
- ARROW-7551 - [FlightRPC][C++] 在 macOS 上的 Flight 测试失败,因为 Homebrew gRPC
- ARROW-7552 - [C++] TestSlowInputStream 不稳定
- ARROW-7554 - [C++] 未知的 CMake 命令 “externalproject_add”。
- ARROW-7559 - [Rust] 在 StringArray 和 BinaryArray 中,可能的索引检查断言错误
- ARROW-7561 - [Doc][Python] 修复 conda 环境命令
- ARROW-7582 - [Rust][Flight] 无法编译 arrow.flight.protocol.rs
- ARROW-7583 - [C++][Flight] Auth handler 测试在 Windows 上不稳定
- ARROW-7591 - [Python] DictionaryArray.to_numpy 返回部分字典而不是 numpy 数组
- ARROW-7592 - [C++] 修复损坏的 IPC 输入导致的崩溃
- ARROW-7593 - [CI][Python] Python 数据集在 master 分支上失败 / 未在 CI 上运行
- ARROW-7595 - [R][CI] R appveyor 作业失败,因为 pacman 压缩更改
- ARROW-7596 - [Python] 仅在 split_blocks=True 时应用零拷贝 DataFrame 块优化
- ARROW-7599 - [Java] 修复因 RangeEqualsVisitor 更改导致的构建中断
- ARROW-7603 - [CI][Crossbow] 每晚 centos 8 作业失败
- ARROW-7611 - [Packaging][Python] wheel 的 Artifacts 模式错误
- ARROW-7612 - [Packaging][Python] Windows 上 Conda 的 Artifacts 路径错误
- ARROW-7614 - [Python] 在 test_parquet.py::test_set_data_page_size 中性能缓慢
- ARROW-7618 - [C++] 修复在损坏的 IPC 输入上的崩溃或未定义行为
- ARROW-7620 - [Rust] Windows 构建失败,因为 flatbuffer 编译错误
- ARROW-7621 - [Doc] 文档构建失败
- ARROW-7634 - [Python] 数据集测试在 Windows 上失败,无法解析文件路径
- ARROW-7638 - [Python] 当检查带有无效文件/分区的 dataset.Source 时发生段错误
- ARROW-7639 - [R] 当值不是字符串时,无法将 Dictionary Array 转换为 R
- ARROW-7640 - [C++][Dataset] 当读取压缩的 Parquet 文件时发生段错误,如果构建未包含对 codec 的支持
- ARROW-7647 - [C++] JSON 读取器无法读取值较少的数组
- ARROW-7650 - [C++] 数据集测试未在 Windows 上构建
- ARROW-7651 - [CI][Crossbow] 每晚 macOS wheel 构建失败
- ARROW-7652 - [Python][Dataset] 在 ScannerBuilder.filter 中插入隐式转换
- ARROW-7661 - [Python] 末尾没有换行符时,CSV 分块非最优
- ARROW-7689 - [C++] 在 macOS 上 Flight 测试偶发崩溃
- ARROW-7690 - [R] 无法写入 parquet 到 OutputStream
- ARROW-7693 - [CI] 修复 test-conda-python-3.7-spark-master 每晚作业错误
- ARROW-7709 - [Python] 从 Table 列转换为 Pandas 时丢失了 Timestamps 的名称
- ARROW-7714 - [Release] 变量展开缺失
- ARROW-7718 - [Release] 修复二进制发布脚本中的自动重试
- ARROW-7723 - [Python] 带有时区的 StructArray timestamp 类型转换为 to_pandas 时出错