Apache Arrow 0.16.0 (2020年2月7日)
这是一个涵盖超过3个月开发的大版本发布。
下载
贡献者
此版本包含来自99位不同贡献者的709次提交。
$ git shortlog -sn apache-arrow-0.15.1..apache-arrow-0.16.0
84 Antoine Pitrou
80 Sutou Kouhei
50 Neal Richardson
47 Krisztián Szűcs
44 Joris Van den Bossche
41 Wes McKinney
32 François Saint-Jacques
30 liyafan82
27 tianchen
26 Benjamin Kietzman
19 Andy Grove
16 Kazuaki Ishizaki
14 Kenta Murata
13 Neville Dipale
12 Projjal Chanda
9 gawain.bolton
8 David Li
6 Prudhvi Porandla
6 Renjie Liu
6 Yibo Cai
6 Yosuke Shiro
5 Bryan Cutler
5 Fokko Driesprong
5 Or Ozeri
5 Sebastien Binet
5 Uwe L. Korn
5 Zhuo Peng
4 Gurwinder Singh
4 Kyle McCarthy
4 Micah Kornfield
3 Anthony Abate
3 Paddy Horan
3 Rok
3 macx
3 takashi hashida
2 Adam Lippai
2 Danyang Zhuo
2 Gal Lushi
2 Jonathan A. Sternberg
2 Martin Grund
2 Pindikura Ravindra
2 Rohit Gupta
2 Romain Francois
2 Stéphane Campinas
2 Yuqi Gu
2 czxrrr
2 tianchen92
1 Adam Krebs
1 Alexis Mignon
1 Artem
1 Artem Alekseev
1 Bob Skowron
1 Brian Gold
1 Brian Hulette
1 Brian Wignall
1 Bruce Mitchener
1 Christopher Hutchinson
1 Davis Silverman
1 Dmitry Kalinkin
1 Donatien Criaud
1 Eric Erhardt
1 Fabian Höring
1 François Garillot
1 Gawain Bolton
1 Ha Thi Tham
1 Hengruo Zhang
1 Hiroaki Yutani
1 Hongze Zhang
1 Jim Apple
1 John Muehlhausen
1 John Norris
1 Kazuma Furuhashi
1 Keith Hughitt
1 Kornelijus Survila
1 Li, Jiajia
1 Maarten Ballintijn
1 Maarten Breddels
1 Matteo Figus
1 Matthew Franglen
1 Nick Poorman
1 Noel Hustler
1 Onur Satici
1 Pasha Stetsenko
1 Peter Hoffmann
1 Philipp Moritz
1 Rick Cobb
1 Rong Rong
1 Takashi Hashida
1 Taylor Baldwin
1 Wakahisa
1 Xavier Lacroze
1 Zherui Cao
1 francois-blanchard
1 gnguy
1 karldw
1 lmeyerov
1 luozijun
1 ptaylor
1 root
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-0.15.1..apache-arrow-0.16.0
133 Krisztián Szűcs
100 Sutou Kouhei
91 Wes McKinney
85 Antoine Pitrou
70 Neal Richardson
60 Micah Kornfield
34 Benjamin Kietzman
32 François Saint-Jacques
23 Andy Grove
13 Neville Dipale
12 Praveen
8 David Li
6 Paddy Horan
6 Yosuke Shiro
5 Bryan Cutler
5 Eric Erhardt
4 Kenta Murata
4 Pindikura Ravindra
4 Sebastien Binet
4 Sidd
3 Philipp Moritz
2 Joris Van den Bossche
2 Uwe L. Korn
1 Brian Hulette
1 Chao Sun
1 GitHub
更新日志
新功能和改进
- ARROW-1175 - [Java] 实现/测试字典编码的子字段
- ARROW-1456 - [Python] 在 Travis CI 中运行 s3fs 单元测试
- ARROW-1562 - [C++] add (+) 的数值内核实现
- ARROW-1638 - [Java] 针对空类型的 IPC 往返测试
- ARROW-1900 - [C++] 添加用于确定整数数组值范围(最大值和最小值)的内核函数
- ARROW-2428 - [Python] 添加 API 以将 Arrow 类型(包括扩展类型)映射到 pandas ExtensionArray 实例,用于 to_pandas 转换
- ARROW-2602 - [打包] 自动化开发 Docker 容器的构建
- ARROW-2863 - [Python] 为 RecordBatch*Writer/Reader 类添加上下文管理器 API
- ARROW-3408 - [C++] 为 CSV 读取器添加选项,以对单个列或所有字符串/二进制列进行字典编码
- ARROW-3444 - [Python] Table.nbytes 属性
- ARROW-3789 - [Python] 使 Table.to_pandas 中的调用对象能够“自毁”以改善内存使用
- ARROW-3808 - [R] 实现 [.arrow::Array
- ARROW-3813 - [R] 更低级别的字典数组构造
- ARROW-412 - [格式] IPC元数据中缓冲区填充的处理
- ARROW-4208 - [CI/Python] 为 S3 提供自动化测试
- ARROW-4219 - [Rust] [Parquet] 实现 ArrowReader
- ARROW-4223 - [Python] 支持 scipy.sparse 集成
- ARROW-4224 - [Python] 支持与 pydata/sparse 库集成
- ARROW-4225 - [格式][C++] 添加 CSC 稀疏矩阵支持
- ARROW-4722 - [C++] 实现 Bitmap 类以模块化处理位图
- ARROW-4748 - [Rust] [DataFusion] GROUP BY 性能可以优化
- ARROW-4930 - [Python] 在 Python 构建中移除 LIBDIR 假设
- ARROW-5181 - [Rust] 创建 Arrow 文件读取器
- ARROW-5182 - [Rust] 创建 Arrow 文件写入器
- ARROW-5277 - [C#] MemoryAllocator.Allocate(length: 0) 不应返回 null
- ARROW-5333 - [C++] 使构建选项摘要适应更窄的控制台
- ARROW-5366 - [Rust] 实现 Duration 和 Interval 数组
- ARROW-5454 - [C++] 在 ChunkedArray 上实现 Take 以供 DataFrame 使用
-
ARROW-5508 - [C++] 创建可重用的迭代器
接口 - ARROW-5523 - [Python] [打包] 在下载依赖项时统一使用 HTTPS
- ARROW-5801 - [CI] Docker化(添加到 docker-compose)所有 Travis CI Linux 任务
- ARROW-5802 - [CI] Docker化“lint” Travis CI 作业
- ARROW-5809 - [Rust] Docker化(添加到 docker-compose)Rust Travis CI 构建
- ARROW-5831 - [发布] 迁移并改进二进制发布验证脚本
- ARROW-5855 - [Python] 添加对 Duration 类型的支持
- ARROW-5859 - [Python] 在转换为 numpy/pandas 时支持 ExtentionType
- ARROW-5971 - [网站] 介绍 Arrow Flight 的博客文章
- ARROW-6003 - [C++] CSV 读取器中更好的输入验证和错误消息
- ARROW-6074 - [FlightRPC] 实现中间件
- ARROW-6091 - [Rust] [DataFusion] 为 limit 实现并行执行
- ARROW-6112 - [Java] 更新 API 以支持 64 位地址空间
- ARROW-6184 - [Java] 提供基于哈希表的字典编码器
- ARROW-6251 - [开发者] 向 apache/arrow-site 添加 PR 合并工具
- ARROW-6274 - [Rust] [DataFusion] 添加将结果写入 CSV 的支持
- ARROW-6277 - [C++][Parquet] 支持将其他 Parquet 基本类型读写到 DictionaryArray
- ARROW-6283 - [Rust] [DataFusion] 实现将查询结果写入分区 CSV 的操作符
- ARROW-6285 - [GLib] 添加对 LargeBinary 和 LargeString 类型的支持
- ARROW-6286 - [GLib] 添加对 LargeList 类型的支持
- ARROW-6321 - [Python] 能够在转换为 pandas 时创建 ExtensionBlock
- ARROW-6340 - [R] 实现对 Dataset 类的低级绑定
- ARROW-6341 - [Python] 实现 Dataset 的低级绑定
- ARROW-6352 - [Java] 添加 DenseUnionVector 的实现。
- ARROW-6367 - [C++][Gandiva] 实现字符串反转
- ARROW-6378 - [C++][Dataset] 实现 TreeDataSource
- ARROW-6394 - [Java] 支持增量向量和部分和向量之间的转换
- ARROW-6396 - [C++] 向逻辑内核添加 ResolveNullOptions
- ARROW-6405 - [Python] 为 Cython 添加 std::move 包装器
- ARROW-6452 - [Java] 重写 ValueVector 的 toString() 方法
- ARROW-6463 - [C++][Python] 将 arrow::fs::Selector 重命名为 FileSelector
- ARROW-6466 - [开发者] 将 integration/integration_test.py 重构为合适的 Python 包
- ARROW-6468 - [C++] 删除未使用的哈希例程
- ARROW-6473 - [格式] 澄清字典编码的边缘情况
- ARROW-6503 - [C++] 向 SparseTensorConverter 添加内存池对象参数
- ARROW-6508 - [C++] 添加带验证的 Tensor 和 SparseTensor 工厂函数
- ARROW-6515 - [C++] 清理 type_traits.h 定义
- ARROW-6578 - [C++] 将 int64 转换为字符串列
- ARROW-6592 - [Java] 在 Avro 转换器中添加跳过列/字段解码的支持
- ARROW-6594 - [Java] 支持来自 Avro 的逻辑类型编码
- ARROW-6598 - [Java] 对 ApproxEqualsVisitor 的代码进行排序
- ARROW-6608 - [C++] 将 ARROW_HDFS 的默认值设为 OFF
- ARROW-6610 - [C++] 添加 ARROW_FILESYSTEM=ON/OFF CMake 配置标志
- ARROW-6619 - [Ruby] 添加通过 Arrow::Schema#build_expression 构建 Gandiva::Expression 的支持
- ARROW-6624 - [C++] 添加 SparseTensor.ToTensor() 方法
- ARROW-6625 - [Python] 允许 concat_tables 对缺失的列进行空值或默认值填充
- ARROW-6631 - [C++] 默认情况下不依赖任何压缩库进行构建
- ARROW-6633 - [C++] 默认构建不要求 double-conversion
- ARROW-6634 - [C++] 构建不要求 flatbuffers 或 flatbuffers_ep
- ARROW-6635 - [C++] 默认构建不要求 glog
- ARROW-6636 - [C++] 默认不构建 C++ 命令行工具
- ARROW-6637 - [C++] 零依赖的默认核心构建
- ARROW-6646 - [Go] 修改 NullType IPC 实现,使其在 RecordBatch 消息中不附加任何缓冲区
- ARROW-6650 - [Rust] [集成] 创建方法以根据 Integration JSON 测试 Arrow 文件
- ARROW-6656 - [Rust] [DataFusion] 实现 MIN 和 MAX 聚合表达式
- ARROW-6657 - [Rust] [DataFusion] 实现 COUNT 聚合表达式
- ARROW-6658 - [Rust] [DataFusion] 实现 AVG 聚合表达式
- ARROW-6659 - [Rust] [DataFusion] 重构 HashAggregateExec 以支持自定义合并
- ARROW-6662 - [Java] 为 VectorSchemaRoot 实现 equals/approxEquals API
- ARROW-6671 - [C++] 稀疏张量命名
- ARROW-6672 - [Java] 为字典构建器提取一个通用接口
- ARROW-6685 - [C++/Python] S3 FileStat 对象的 base_path 和类型依赖于尾部斜杠
- ARROW-6686 - [CI] 拉取和推送 docker 镜像以加速夜间构建
- ARROW-6688 - [打包] 在 conda 包中包含 s3 支持
- ARROW-6690 - [Rust] [DataFusion] 不带 GROUP BY 的 HashAggregate 应使用 SIMD
- ARROW-6692 - [Rust] [DataFusion] 更新示例以使用物理查询计划
- ARROW-6694 - [Rust] [DataFusion] 更新集成测试以使用物理计划
- ARROW-6695 - [Rust] [DataFusion] 移除逻辑计划的执行
- ARROW-6696 - [Rust] [DataFusion] 在物理查询计划中实现简单的数学运算
- ARROW-6700 - [Rust] [DataFusion] 使用新的 parquet arrow 读取器
- ARROW-6707 - [Java] 通过使用可空信息提高 JDBC 适配器的性能
- ARROW-6710 - [Java] 添加 JDBC 适配器测试以覆盖包含一些空值的情况
- ARROW-6711 - [C++] 整合 Filter 和 Expression 类
- ARROW-6721 - [JAVA] Avro 适配器基准测试在 JMH 中只运行一次
- ARROW-6722 - [Java] 提供一种统一的方式来获取向量名称
- ARROW-6729 - [C++] StlStringBuffer 构造函数不是零拷贝的
- ARROW-6730 - [CI] 为“C++ with clang 7” docker 镜像使用 GitHub Actions
- ARROW-6732 - [Java] 以非递归方式实现快速排序以避免堆栈溢出
- ARROW-6741 - [发布] 更新 changelog.py 以使用带 APACHE_ 前缀的 JIRA_USERNAME 和 JIRA_PASSWORD 环境变量
- ARROW-6742 - [C++] 从 arrow/io/hdfs_internal.cc 中移除对 boost::filesystem::path 的使用
- ARROW-6743 - [C++] 完全移除对 boost::filesystem 的使用(除了 hdfs_internal)
- ARROW-6744 - [Rust] 在 array 模块中导出 JsonEqual trait
- ARROW-6754 - [C++] 合并 arrow/allocator.h 和 arrow/stl.h,或重命名 allocator.h
- ARROW-6758 - [发布] 在发布验证脚本中安装临时的 node/npm/npx
- ARROW-6764 - [C++] 添加预读迭代器
- ARROW-6767 - [JS] 在 scan/scanReverse 中延迟绑定批次
- ARROW-6768 - [C++][Dataset] 实现 dataset::Scan to Table 辅助函数
- ARROW-6769 - [C++][Dataset] 端到端数据集集成测试用例
- ARROW-6770 - [CI][Travis] 静默下载 Minio
- ARROW-6777 - [GLib][CI] 取消固定 gobject-introspection gem
- ARROW-6778 - [C++] 在 Cast 内核中支持 DurationType
- ARROW-6782 - [C++] 构建最小核心 Arrow 库,不带任何 Boost 头文件
- ARROW-6784 - [C++][R] 将 filter 和 take 代码从 Rcpp 移至 C++ 库
- ARROW-6787 - [CI] 弃用 "C++ with clang 7 and system packages" Travis CI 作业
- ARROW-6788 - [CI] 将 Travis CI lint 作业迁移到 GitHub Actions
- ARROW-6789 - [Python] 自动将 `FlightServerBase.do_action` 返回的字节/类缓冲区值封装在 Result 值中
- ARROW-6790 - [发布] 在发布验证中自动禁用集成测试用例
- ARROW-6793 - [R] 用于 Linux 的 Arrow C++ 二进制打包
- ARROW-6797 - [发布] 在网站发布后脚本中使用单独克隆的 arrow-site 仓库
- ARROW-6802 - [打包][deb][RPM] 更新 qemu-user-static 包 URL
- ARROW-6803 - [Rust] [DataFusion] 使用新的物理查询计划后,聚合查询变慢
- ARROW-6804 - [CI] [Rust] 将 Travis Rust 作业迁移到 Github Actions
- ARROW-6807 - [Java][FlightRPC] 暴露 gRPC 服务
- ARROW-6810 - [网站] 添加 R 包 0.15 版本的文档
- ARROW-6811 - [R] 0.15 版本发布后的各种清理工作
- ARROW-6814 - [C++] 解决发布版本构建中出现的编译器警告
- ARROW-6822 - [网站] merge_pr.py 已发布
- ARROW-6824 - [Plasma] 支持小对象的批量创建和密封请求
- ARROW-6825 - [C++] 围绕预读迭代器重构 CSV 读取器 IO
- ARROW-6831 - [R] 更新 R macOS/Windows 构建以适应 cmake 压缩默认值的变化
- ARROW-6832 - [R] 实现 Codec::IsAvailable
- ARROW-6833 - [R][CI] 为完整的 R autobrew macOS 构建添加 crossbow 作业
- ARROW-6836 - [格式] 在 File.fbs 的 Footer 表中添加一个 custom_metadata:[KeyValue] 字段
- ARROW-6843 - [网站] 禁用拉取请求时的部署
- ARROW-6847 - [C++] 向 Iterator<> 添加一个 range_expression 接口
- ARROW-6850 - [Java] Jdbc 转换器支持 Null 类型
- ARROW-6852 - [C++] memory-benchmark 在 Arm64 上构建失败
- ARROW-6853 - [Java] 支持向量和字典编码器使用不同的哈希器计算哈希码
- ARROW-6855 - [C++][Python][Flight] 实现 Flight 中间件
- ARROW-6862 - [开发者] 检查拉取请求标题
- ARROW-6863 - [Java] 提供并行搜索器
- ARROW-6865 - [Java] 提高 ArrowBuf 与字节数组比较的性能
- ARROW-6866 - [Java] 提高计算结构体向量哈希码的性能
- ARROW-6881 - [Rust] 移除 "array_ops",改用 "compute" 子模块
- ARROW-6884 - [Python][Flight] 使服务器端 RPC 异常更友好?
- ARROW-6887 - [Java] 创建关于使用 ValueVectors 的说明文档
- ARROW-6888 - [Java] 支持向量值比较器的复制操作
- ARROW-6889 - [Java] ComplexCopier 启用 FixedSizeList 类型并修复 RangeEualsVisitor 堆栈溢出
- ARROW-6891 - [Rust] [Parquet] 向 ArrowReader 添加 Utf8 支持
- ARROW-6902 - [C++] 为 Compare 内核添加 String*/Binary* 支持
- ARROW-6904 - [Python] 实现 MapArray 和 MapType
- ARROW-6907 - [C++][Plasma] 允许 Plasma 存储向客户端批量发送通知
- ARROW-6911 - [Java] 提供复合比较器
- ARROW-6912 - [Java] 为 avro 转换器消费者提取一个通用的基类
- ARROW-6916 - [开发者] 在 Crossbow 夜间报告中按字母顺序排列任务名称
- ARROW-6918 - [R] 使 docker-compose 设置更快
- ARROW-6919 - [Python] 在 Cython 中暴露更多构建器
- ARROW-6920 - [Python] 为 python3.8 创建 manylinux wheel
- ARROW-6926 - [Python] 支持 Python 对象的 __sizeof__ 协议
- ARROW-6927 - [C++] 添加 gRPC 版本检查
- ARROW-6928 - [Rust] 添加 FixedSizeList 类型
- ARROW-6930 - [Java] 创建用于填充测试向量值的工具类
- ARROW-6932 - [Java] 已知扩展类型日志不正确
- ARROW-6933 - [Java] 支持线性字典编码器
- ARROW-6936 - [Python] 改进当给出错误类型对象时的错误消息
- ARROW-6942 - [开发者] 在 GitHub Actions 的拉取请求检查中添加对 Parquet 的支持
- ARROW-6943 - [网站] 将 Apache Arrow Flight 介绍翻译成日文
- ARROW-6944 - [Rust] 添加 StringType
- ARROW-6949 - [Java] 修复可提升写入以处理 nullvectors
- ARROW-6951 - [C++][Dataset] 确保列投影传递给 ParquetDataFragment
- ARROW-6952 - [C++][Dataset] 确保表达式过滤器传递给 ParquetDataFragment
- ARROW-6954 - [Python] [CI] 将 Python 3.8 添加到 CI 矩阵
- ARROW-6960 - [R] 在 Windows 构建中添加对更多压缩编解码器的支持
- ARROW-6961 - [C++][Gandiva] 在 Gandiva 中添加 lower_utf8 函数
- ARROW-6963 - [打包][Wheel][OSX] 使用 crossbow 的命令从 travis 构建中部署工件
- ARROW-6964 - [C++][Dataset] 为 Scanner::ToTable 暴露一个嵌套并行选项
- ARROW-6965 - [C++][Dataset] 可选地将分区键作为物化列暴露
- ARROW-6967 - [C++] 为 IN, IS_VALID 添加过滤器表达式
- ARROW-6969 - [C++][Dataset] ParquetScanTask 提前加载文件
- ARROW-6970 - [打包][RPM] 添加对 CentOS 8 的支持
- ARROW-6973 - [C++][ThreadPool] 在 Submit 中使用完美转发
- ARROW-6975 - [C++] 将 make_unique 放在其自己的头文件中
- ARROW-6980 - [R] RecordBatch/Table 的 dplyr 后端
- ARROW-6984 - [C++] 更新 LZ4 到 1.9.2 以应对 CVE-2019-17543
- ARROW-6986 - [R] 添加基本的 Expression 类
- ARROW-6987 - [CI] Travis OSX 无法安装 sdk 头文件
- ARROW-6991 - [打包][deb] 添加对 Ubuntu 19.10 的支持
- ARROW-6994 - [C++] 研究当 background_thread 选项不可用时,在 macOS 上配置 jemalloc 内存页回收
- ARROW-6997 - [打包] 添加对 RHEL 的支持
- ARROW-7000 - [C++][Gandiva] 处理字符串 lower, upper 函数中的空输入
- ARROW-7003 - [格式] [Rust] 在构建脚本中生成 flatbuffers 文件
- ARROW-7004 - [Plasma] 使得可以在 LRU 缓存中提升对象
- ARROW-7006 - [Rust] 提升 flatbuffers 版本以避免漏洞
- ARROW-7007 - [C++] 为 LocalFs 启用 mmap 选项
- ARROW-7014 - [开发者] 编写脚本以在本地环境中使用 conda 或 virtualenv 验证 Linux wheel
- ARROW-7015 - [开发者] 编写脚本以在本地环境中使用 conda 或 virtualenv 验证 macOS wheel
- ARROW-7016 - [开发者][Python] 编写脚本以在本地环境中使用 conda 验证 Windows wheel
- ARROW-7019 - [Java] 提高加载有效性缓冲区的性能
- ARROW-7026 - [Java] 移除 MessageSerializer/vector/writer/reader 中的断言
- ARROW-7031 - [Python] 在 python 中暴露 ListArray 的偏移量
- ARROW-7032 - [发布] 在发布验证脚本中运行 python 单元测试
- ARROW-7034 - [CI][Crossbow] 跳过已知的夜间构建失败
- ARROW-7035 - [R] write_parquet 文档中的默认参数不清楚
- ARROW-7036 - [C++] 升级 ORC 版本以避免编译错误
- ARROW-7037 - [C++ ] protobuf >= 3.9 和 clang 组合下的编译错误
- ARROW-7039 - [Python] 类型检查期望已安装 pandas
- ARROW-7047 - [C++][Dataset] 过滤器表达式不应要求精确类型匹配
- ARROW-7052 - [C++] 使用 ARROW_SHARED=OFF 构建 Datasets 示例失败
- ARROW-7054 - [文档] 添加选项以使用环境变量覆盖显示的文档版本
- ARROW-7057 - [C++] 添加解析 URI 查询字符串的 API
- ARROW-7058 - [C++] FileSystemDataSourceDiscovery 应相对于其选择器的 base_dir 应用分区方案
- ARROW-7060 - [R] 0.15.1 发布后的清理工作
- ARROW-7061 - [C++][Dataset] FileSystemDiscovery 与 ParquetFileFormat 应忽略非 Parquet 文件
- ARROW-7062 - [C++] Parquet 文件解析错误消息应包含文件名
- ARROW-7064 - [R] 实现 null 类型
- ARROW-7066 - [Python] __arrow_array__ 是否支持返回 ChunkedArray?
- ARROW-7067 - [CI] 在 Travis-CI 上禁用代码覆盖率
- ARROW-7069 - [C++][Dataset] 将 ConstantPartitionScheme 替换为 PrefixDictionaryPartitionScheme
- ARROW-7070 - [打包][deb] 更新 1.0.0 的包名
- ARROW-7072 - [Java] 支持高效地连接有效性位
- ARROW-7082 - [打包][deb] 添加 apache-arrow-archive-keyring
- ARROW-7092 - [R] 为 dplyr 和 datasets 添加 vignette
- ARROW-7093 - [R] 支持为更多数据类型创建 ScalarExpressions
- ARROW-7094 - [C++] FileSystemDataSource 应为 fs::Filesystem 使用拥有指针
- ARROW-7095 - [R] 更好地处理 dplyr 方法中不支持的过滤器和变异表达式
- ARROW-7096 - [C++] 为带提升的连接和模式统一添加选项结构体
- ARROW-7098 - [Java] 提高比较两个内存块的性能
- ARROW-7099 - [C++] 消除 csv 解析器测试中函数调用的歧义
- ARROW-7101 - [CI] 重构 docker-compose 设置并将其与 GitHub Actions 一起使用
- ARROW-7103 - [R] 各种小的清理工作
- ARROW-7107 - [C++][MinGW] 在 AppVeyor 上启用 Flight
- ARROW-7110 - [GLib] 为 GArrowTable、GArrowChunkedArray 和 GArrowRecordBatch 添加过滤器支持
- ARROW-7111 - [GLib] 为 GArrowTable、GArrowChunkedArray 和 GArrowRecordBatch 添加 take 支持
- ARROW-7113 - [Rust] Buffer 应接受由其他方拥有的内存
- ARROW-7116 - [CI] 使用 apache 组织提供的 docker 仓库
- ARROW-7146 - [R][CI] 对 R docker-compose 设置的各种修复和加速
-
ARROW-7147 - [C++][Dataset] 重构数据集的 API 以使用 Result
- ARROW-7148 - [C++][Dataset] API 清理
- ARROW-7149 - [C++] 移除文件系统 API 的实验性状态
- ARROW-7159 - [CI] 将 HDFS 测试作为 cron 任务运行
- ARROW-7160 - [C++] 更新 string_view 向后移植
- ARROW-7161 - [C++] 将文件系统层从 Status 迁移到 Result
- ARROW-7162 - [C++] 清理 cmake_modules/SetupCxxFlags.cmake 中的警告
- ARROW-7166 - [Java] 移除 Jdbc 适配器的冗余代码
- ARROW-7169 - [C++] 引入 uriparser 库
-
ARROW-7171 - [Ruby] 传递 Array
用于 Arrow::Table#filter - ARROW-7172 - [C++][Dataset] 改进 Expression::ToString 的格式
- ARROW-7176 - [C++] 修复 arrow::ipc 编译器警告
- ARROW-7178 - [C++] 引入向前兼容的 std::optional
- ARROW-7185 - [R][Dataset] 添加对 IN, IS_VALID 表达式的绑定
- ARROW-7186 - [R] 添加内联注释以记录 dplyr 代码
- ARROW-7192 - [Rust] 实现 Flight crate
- ARROW-7193 - [Rust] 创建 Arrow 流读取器
- ARROW-7195 - [Ruby] 改进 #filter、#take 和 #is_in
- ARROW-7196 - [Ruby] 移除不必要的 BinaryArrayBuilder#append_values
- ARROW-7197 - [Ruby] 抑制 Ruby 2.7 中与关键字参数相关的警告
- ARROW-7204 - [C++][Dataset] in 表达式不应要求精确类型匹配
- ARROW-7206 - [Java] 调用 Preconditions#checkArgument 时避免字符串连接
- ARROW-7207 - [Rust] 更新生成的 Flatbuffer 文件
- ARROW-7210 - [C++] 标量转换应支持基于时间的类型
- ARROW-7211 - [Rust] [Parquet] 支持写入字节缓冲区
- ARROW-7216 - [Java] 提高设置/清除单个位的性能
- ARROW-7219 - [CI][Python] 在 python 3.6 版本的 conda-python docker 镜像中安装 pickle5
- ARROW-7227 - [Python] 提供 ConcatenateWithPromotion() 的包装器
- ARROW-7228 - [Python] 在 Python 中暴露 RecordBatch.FromStructArray
-
ARROW-7235 - [C++] 将 Result 添加到
arrow/io 的 API 中 -
ARROW-7236 - [C++] 将 Result 添加到
arrow/csv 的 API 中 -
ARROW-7240 - [C++] 将 Result 添加到
arrow/util 的 API 中 - ARROW-7246 - [CI][Python] wheel 因 SSL_ST_INIT 错误无法构建
- ARROW-7247 - [CI][Python] wheel 因 wget 和 OpenSSL 错误无法构建
- ARROW-7248 - [Rust] 从 Flatbuffers 自动重新生成 IPC 消息
- ARROW-7255 - [CI] 在拉取请求上运行源码发布测试
- ARROW-7256 - [C++] 移除 ARROW_MEMORY_POOL_DEFAULT 选项
- ARROW-7257 - [CI] Homebrew 公式因 openssl 公式名称更新而失败
- ARROW-7258 - [CI] Fuzzit 作业因目录不存在而失败
- ARROW-7259 - [Java] 支持子字段编码器使用不同的哈希器
- ARROW-7260 - [CI] Ubuntu 14.04 测试因用户定义字面量而失败
- ARROW-7261 - [Python] Python 支持固定大小列表类型
- ARROW-7262 - [C++][Gandiva] 在 Gandiva 中实现 replace 函数
- ARROW-7263 - [C++][Gandiva] 实现 locate 和 position 函数
- ARROW-7268 - [Rust] 从 IPC 消息中传播 `custom_metadata` 字段
- ARROW-7269 - [C++] 修复 arrow::parquet 编译器警告
- ARROW-7270 - [Go] 保留 CSV 读取行为,改善内存使用
-
ARROW-7274 - [C++] 将 Result 添加到
Decimal 类的 API 中 - ARROW-7275 - [Ruby] 添加对 Arrow::ListDataType.new(data_type) 的支持
- ARROW-7276 - [Ruby] 添加从 [[...]] 构建 Arrow::ListArray 的支持
- ARROW-7277 - [文档] 添加关于向量生命周期的讨论
- ARROW-7279 - [C++] 将 UnionArray::type_ids 重命名为 UnionArray::type_codes
- ARROW-7284 - [Java] 确保 java 实现符合澄清后的字典规范
- ARROW-7289 - [C#] ListType 构造函数参数是多余的
- ARROW-7290 - [C#] 实现 ListArray Builder
- ARROW-7292 - [C++] [CI] [Dev] 添加 ASAN / UBSAN CI 运行
- ARROW-7293 - [Dev] [C++] 在 docker-compose 构建卷中持久化 ccache
- ARROW-7296 - [Python] 添加 ORC api 文档
- ARROW-7299 - [GLib] 使用 Result 代替 Status
- ARROW-7303 - [C++] 重构基准测试以使用新的 Result API
- ARROW-7306 - [C++] 添加返回 Result 的 FileSystemFromUri 版本
- ARROW-7307 - [CI][GLib] 文档未生成
- ARROW-7309 - [Python] 支持 HDFS 联邦 viewfs://
- ARROW-7310 - [Python] 为 pyarrow.fs 暴露 HDFS 实现
- ARROW-7311 - [Python] 从 URI 返回文件系统和路径
- ARROW-7312 - [Rust] ArrowError 应实现 std::error:Error
-
ARROW-7317 - [C++] 将 Iterator API 迁移到 Result
- ARROW-7321 - [CI][GLib] 因 GLib 警告构建失败
- ARROW-7322 - [CI][Python] 对于 manylinux 镜像,回退到 arrowdev dockerhub 组织
- ARROW-7323 - [CI][Rust] 夜间 CI 因工具链不同而失败
- ARROW-7324 - [Rust] 向 Timestamp 添加时区
- ARROW-7325 - [Rust] [Parquet] 更新到 parquet-format 2.6 和 thrift 0.12
- ARROW-7329 - [Java] AllocationManager: 允许管理除 Netty 分配的内存之外的不同类型内存
- ARROW-7333 - [CI][Rust] 移除重复的夜间作业
- ARROW-7334 - [CI][Python] macOS 使用 Python 2
- ARROW-7340 - [CI] 清理已失效的 appveyor 构建设置
- ARROW-7344 - [打包][Python] 构建 manylinux2014 wheel
- ARROW-7346 - [CI] 在各个构建中明确使用 ccache
- ARROW-7347 - [C++] 更新捆绑的 Boost 至 1.71.0
- ARROW-7348 - [Rust] 添加 API 以返回空值位图缓冲区的引用。
- ARROW-7351 - [开发者] 在合并 Parquet 补丁时仅建议 cpp-* 修复版本
- ARROW-7357 - [Go] 从 pkg/errors 迁移到 x/xerrors
- ARROW-7366 - [C++][Dataset] 在 DataSourceDiscovery 中使用 PartitionSchemeDiscovery
- ARROW-7367 - [Python] 在 ParquetDatasetPiece 中使用 np.full 代替 np.array.repeat
- ARROW-7368 - [Ruby] 使用 :arrow_file 和 :arrow_streaming作为格式名称
- ARROW-7369 - [GLib] 添加 garrow_table_combine_chunks
- ARROW-7370 - [C++] 旧版 Protobuf 的自动检测失败
- ARROW-7377 - [C++][Dataset] 简化 parquet 列投影
- ARROW-7378 - [C++][Gandiva] IR 优化中循环矢量化被破坏
- ARROW-7379 - [C++] 引入 SchemaBuilder 伴生类和 Field::IsCompatibleWith
- ARROW-7380 - [C++][Dataset] 实现 DatasetFactory
- ARROW-7382 - [C++][Dataset] 重构 FsDsDiscovery 构造函数
- ARROW-7387 - [C#] 支持 ListType 序列化
- ARROW-7392 - [打包] 为 python 3.8 添加 conda 打包任务
- ARROW-7398 - [打包][Python] Conda 在 macOS 上构建失败
- ARROW-7399 - [C++][Gandiva] Gandiva 未选择运行时 cpu 特性
- ARROW-7402 - [C++] 添加更多关于 CUDA 错误的信息
- ARROW-7403 - [C++][JSON] 在 Arm64 Neon 上启用 Rapidjson
- ARROW-7410 - [Python] [文档] 文档化文件系统 API
- ARROW-7411 - [C++][Flight] 不正确的 Arrow Flight 基准测试输出
- ARROW-7413 - [Python][Dataset] 为 PartitionSchemeDiscovery 添加测试
- ARROW-7414 - [R][Dataset] 实现 PartitionSchemeDiscovery
- ARROW-7415 - [C++][Dataset] 为由 ipc 文件组成的源实现 IpcFormat
- ARROW-7416 - [R][夜间] 修复 macos-r-autobrew 在 R 3.6.2 上的构建
- ARROW-7417 - [C++] 为 CUDA 10.1 添加一个 docker-compose 条目
- ARROW-7418 - [C++] 在 Ubuntu 16.04 上使用 g++ 5.4.0 无法构建
- ARROW-7420 - [C++] 将与张量相关的 API 迁移到返回 Result 的版本
- ARROW-7429 - [Java] 增强 Java 代码的风格检查(移除连续空格)
- ARROW-7430 - [Python] 向数据集绑定添加更多文档字符串
- ARROW-7431 - [Python] 将数据集 API 添加到参考文档中
- ARROW-7432 - [Python] 添加更高级别的数据集函数
- ARROW-7439 - [C++][Dataset] 移除数据集指针别名
- ARROW-7449 - [GLib] 使 GObject Introspection 成为可选
- ARROW-7452 - [GLib] 使 GArrowTimeDataType 成为抽象类
- ARROW-7453 - [Ruby] 添加对 Arrow::NullArray#[] 的支持
- ARROW-7454 - [Ruby] 添加对保存/加载 TSV 的支持
- ARROW-7455 - [Ruby] 对所有 GArrowDataType 输入使用 Arrow::DataType.resolve
- ARROW-7456 - [C++] 添加对 YYYY-MM-DDThh 和 YYYY-MM-DDThh:mm 时间戳格式的支持
- ARROW-7457 - [文档] 修复拼写错误
- ARROW-7459 - [Python] 文档检查失败
- ARROW-7460 - [Rust] 通过自动矢量化改进一些内核
- ARROW-7461 - [Java] 修复拼写和语法错误
- ARROW-7463 - [文档] 修复一个损坏的链接和拼写错误
- ARROW-7464 - [C++] 使用 std::call_once 优化 CpuInfo 单例
- ARROW-7465 - [C++] 为 Arm64 添加 Arrow 内存基准测试
- ARROW-7468 - [Python] 修复拼写错误
- ARROW-7469 - [C++] 改进与除法相关的位操作
- ARROW-7470 - [JS] 修复拼写错误
- ARROW-7474 - [Ruby] 更快地保存 CSV 文件
- ARROW-7475 - [Rust] 创建 Arrow 流写入器
- ARROW-7477 - [FlightRPC][Java] Flight gRPC 服务缺少反射信息
- ARROW-7479 - [Rust][Ruby][R] 修复拼写错误
- ARROW-7481 - [C#] 修复拼写错误
- ARROW-7482 - [C++] 修复拼写错误
- ARROW-7484 - [C++][Gandiva] 修复拼写错误
- ARROW-7485 - [C++][Plasma] 修复拼写错误
- ARROW-7487 - [开发者] 修复拼写错误
- ARROW-7488 - [GLib] 修复拼写错误和损坏的链接
- ARROW-7489 - [CI] 修复拼写错误
- ARROW-7490 - [Java] Avro 转换器应将属性和 props 转换为 FieldType 元数据
- ARROW-7493 - [Python] 在 pyarrow.compute 中暴露 sum 内核并支持 ChunkedArray 输入
- ARROW-7498 - [C++][Dataset] 重命名 DataFragment/DataSource/PartitionScheme
- ARROW-7502 - [集成] 移除不再需要的 Spark 集成补丁
- ARROW-7513 - [JS] Arrow 教程:常见数据类型
- ARROW-7514 - [C#] 将 GetValueOffset 标记为过时
- ARROW-7519 - [Python] 构建支持数据集的 wheel 和 conda 包
- ARROW-7521 - [Rust] 移除 FixedSizeList 数据类型上的元组
- ARROW-7523 - [开发者] 放宽 clang-tidy 检查
- ARROW-7526 - [C++][Compute]:优化小整数排序
- ARROW-7532 - [CI] 在 Homebrew 上游修复后取消跳过 brew 测试
- ARROW-7537 - [CI][R] 夜间 macOS autobrew 作业如果失败应提供更详细的信息
- ARROW-7538 - 阐明 AllocationManager 中的实际大小和期望大小
- ARROW-7540 - [C++] 许可证文件未安装
- ARROW-7541 - [GLib] 安装许可证文件
- ARROW-7542 - [CI][C++] nproc 在 macOS 上不可用
- ARROW-7549 - [Java] 重组 Flight 模块以保持顶层清洁/有组织
- ARROW-7550 - [R][CI] 在 CI 中运行 donttest 示例
- ARROW-7557 - [C++][Compute] 在随机测试中验证排序稳定性
- ARROW-7558 - [打包][deb][RPM] 对工件使用主机所有者和组
- ARROW-7560 - [Rust] 减少 Rc/Refcell 的使用
- ARROW-7565 - [网站] 添加对下载 URL 重定向的支持
- ARROW-7566 - [CI] 在 AppVeyor 上使用更新的 Miniconda
- ARROW-7567 - [Java] 将 Checkstyle 从 6.19 升级到 8.18
- ARROW-7568 - [Java] 将 Apache Avro 从 1.9.0 升级到 1.9.1
- ARROW-7569 - [Python] 添加 API 以将 Arrow 类型映射到 pandas ExtensionDtypes,用于 to_pandas 转换
- ARROW-7570 - [Java] 修复 LGTM 报告的高严重性问题
- ARROW-7571 - [Java] 纠正 README 中的最低 Java 版本
- ARROW-7572 - [Java] 强制使用 README 中提到的 Maven 3.3+
- ARROW-7573 - [Rust] 减少装箱并进行清理
- ARROW-7575 - [R] Linux 二进制打包跟进
- ARROW-7576 - [C++][Dev] 改进模糊测试设置
- ARROW-7577 - [C++][CI] 在 CI 中检查模糊测试器设置
- ARROW-7578 - [R] 添加对带有 IPC 文件和多个源的数据集的支持
- ARROW-7581 - [R] 0.16 版本的文档/润色
- ARROW-7590 - [C++] thirdparty/ 中的托管文件被忽略
- ARROW-7597 - [C++] 改进 CMake 配置控制台摘要
- ARROW-7600 - [C++][Parquet] 添加一个基本的禁用单元测试以演练嵌套功能
- ARROW-7601 - [文档] [C++] 更新模糊测试文档
- ARROW-7602 - [Archery] 添加更多构建选项
- ARROW-7613 - [Rust] 移除冗余的 `::` 前缀
- ARROW-7622 - [格式] 将 Tensor 和 SparseTensor 字段标记为必需
- ARROW-7623 - [C++] 更新生成的 flatbuffers 文件
- ARROW-7626 - [Parquet][GLib] 添加对版本宏的支持
- ARROW-7627 - [C++][Gandiva] 优化字符串截断函数
- ARROW-7629 - [C++][CI] 将模糊回归文件添加到 arrow-testing
- ARROW-7630 - [C++][CI] 在 CI 中检查模糊测试崩溃回归
- ARROW-7632 - [C++] [CI] 改进模糊测试种子语料库
- ARROW-7635 - [C++] 为每个组件添加 pkg-config 支持
- ARROW-7636 - [Python] 清理 pyarrow.dataset.partitioning() API
- ARROW-7644 - 添加 vcpkg 安装说明
- ARROW-7645 - [Packaging][deb][RPM] 通过 crossbow 构建的 arm64 版本已损坏
- ARROW-7648 - [C++] 清理 Windows 上的本地路径
- ARROW-7658 - [R] 支持对日期/时间进行 dplyr 过滤
- ARROW-7659 - [Rust] 减少 Rc 的使用
- ARROW-7660 - [C++][Gandiva] 优化单字节字符的 castVarchar(string, int) 函数
- ARROW-7665 - [R] linuxLibs.R 应该并行构建
- ARROW-7666 - [Packaging][deb] 始终使用 Ninja 以减少构建时间
- ARROW-7667 - [Packaging][deb] nightly 作业中缺少 ubuntu-eoan
- ARROW-7668 - [Packaging][RPM] 如果可能,使用 Ninja 以减少构建时间
- ARROW-7670 - [Python][Dataset] 为筛选表达式提供更好的人体工程学设计
- ARROW-7671 - [Python][Dataset] 为 DatasetFactory 添加绑定
- ARROW-7674 - 为 merge_arrow_pr.py 中的验证码挑战添加有用的提示信息
- ARROW-7682 - [Packaging][APT][Yum] 添加对 arm64 APT/Yum 软件仓库的支持
- ARROW-7683 - [Packaging] 将 0.16.0 设置为下一个版本
- ARROW-7686 - [Packaging][deb][RPM] 包含更多的 arrow-*.pc 文件
- ARROW-7687 - [C++] README 中的 C++ 开发者文档链接已损坏
- ARROW-7692 - [Rust] 一些模式匹配难以阅读
- ARROW-7694 - [Packaging][deb][RPM] 无法为 RC 构建软件仓库包
- ARROW-7695 - [Release] 将 java 版本更新到 0.16-SNAPSHOT
- ARROW-7696 - [Release] 发布分支上的单元测试失败
- ARROW-7697 - [Release] 为 00-prepare.sh 添加一个更新 Linux 软件包的测试
- ARROW-7710 - [Release][C#] .NET 下载 URL 被重定向
- ARROW-7711 - [C#] Date32 测试依赖于系统时区
- ARROW-7715 - [Release][APT] 忽略一些 arm64 验证
- ARROW-7716 - [Packaging][APT] 对 Ubuntu 19.10 使用 "main" 组件
- ARROW-7719 - [Python][Dataset] 表相等性检查偶尔失败
- ARROW-772 - [C++] 实现 take 内核函数
- ARROW-7724 - [Release][Yum] 忽略一些 arm64 验证
- ARROW-7743 - [Rust] [Parquet] 支持读取微秒级时间戳
-
ARROW-7768 - [Rust] 为 Cursor<Vec 实现 Length 和 TryClone 特征
> 在 reader.rs 中 - ARROW-843 - [C++] 实现 Schema 统一,合并不相等但等效的 schemas
- ARROW-976 - [C++][Python] 提供 API 用于定义和读取具有更灵活分区方案的 Parquet 数据集
Bug 修复
- ARROW-3783 - [R] 浮点类型的收集不正确
- ARROW-3962 - [Go] 读取 CSV 文件时支持空值
- ARROW-5575 - [C++] arrowConfig.cmake 包含了未安装的目标
- ARROW-5655 - [Python] Table.from_pydict/from_arrays 未正确使用指定 schema 中的类型
- ARROW-5680 - [Rust] datafusion group-by 测试依赖于结果集顺序
- ARROW-6157 - [Python][C++] 带有无效数据的 UnionArray 通过了验证/导致段错误
- ARROW-6195 - [C++] 如果未安装 python,CMake 在捆绑 thrift 时会因文件未找到而失败
- ARROW-6429 - [CI][Crossbow] 夜间 spark 集成作业失败
- ARROW-6445 - [CI][Crossbow] 夜间 Gandiva jar trusty 作业失败
- ARROW-6567 - [Rust] [DataFusion] SQL 聚合查询执行假定分组表达式在聚合表达式之前
- ARROW-6581 - [C++] 修复 fuzzit 作业提交
- ARROW-6704 - [C++] 从时间戳转换为更高分辨率时未检查超出范围的时间戳
- ARROW-6708 - [C++] “cannot find -lboost_filesystem_static” (找不到 -lboost_filesystem_static)
- ARROW-6728 - [C#] 支持读写 Date32 和 Date64 数组
- ARROW-6736 - [Rust] [DataFusion] 聚合表达式被重复求值
- ARROW-6740 - [Python] 在 Windows 上无法删除已关闭的 MemoryMappedFile
- ARROW-6745 - [Rust] 修复各种拼写错误
- ARROW-6749 - [Python] 将非纳秒时间戳数组转换为 numpy 会得到错误的值
- ARROW-6750 - [Python] 默认情况下静默 S3 错误日志
- ARROW-6761 - [Rust] Travis CI 构建不遵守 rust-toolchain
- ARROW-6762 - [C++] JSON 读取器在换行符处出现段错误
- ARROW-6785 - [JS] 移除多余的子级赋值
- ARROW-6786 - [C++] arrow-dataset-file-parquet-test 运行缓慢
- ARROW-6795 - [C#] 在 C# 中读取大型 Arrow 文件导致异常
- ARROW-6801 - [Rust] Arrow 源代码发布 tarball 缺少基准测试
- ARROW-6806 - [C++] 反序列化包含 null/空列表的 ListArray 时发生段错误
- ARROW-6808 - [Ruby] 确保需要合适的 MSYS2 包
- ARROW-6809 - [RUBY] 由于 glib2 3.3.7 编译失败,Gem 无法在 macOS 上安装
- ARROW-6812 - [Java] 从许可证标题中移除 Dremio Corp.
- ARROW-6813 - [Ruby] 在 Arrow 0.15 中,使用 headers=true 的 Arrow::Table.load 导致异常
- ARROW-6820 - [C++] [Doc] [Format] Map 规范与实现不一致
- ARROW-6834 - [C++] 将 gtest 固定到 1.8.1 以排查失败的 Appveyor / MSVC 构建
- ARROW-6835 - [Archery][CMake] 恢复 ARROW_LINT_ONLY
- ARROW-6842 - [Website] Jekyll 构建网站时出错
-
ARROW-6844 - [C++][Parquet][Python] 列表
列在 0.15.0 版本中读取损坏 - ARROW-6857 - [Python][C++] 在空 chunked_array 上进行 dictionary_encode 时出现段错误(边缘情况)
- ARROW-6859 - [CI][Nightly] 禁用 CircleCI 任务的 docker 层缓存
- ARROW-6860 - [Python] 仅将 libarrow_flight.so 链接到 pyarrow._flight
- ARROW-6861 - [Python] arrow-0.15.0 读取 arrow-0.14.1 输出的 Parquet 字典列:读取列失败:IOError: Arrow 错误:无效:Resize 无法缩小
- ARROW-6864 - [C++] bz2 / zstd 测试未启用
- ARROW-6867 - [FlightRPC][Java] Flight 服务器在关闭时可能导致 JVM 挂起
- ARROW-6868 - [Go] 切片 Struct 数组不会切片子字段
- ARROW-6869 - [C++] builder_dict.h 中的字典“增量”构建逻辑产生无效数组
- ARROW-6873 - [Python] 过时的 CColumn 引用破坏了 Cython cimport pyarrow
- ARROW-6874 - [Python] 在转换为 object dtype 时,Table.to_pandas() 存在内存泄漏
- ARROW-6876 - [Python] 在 0.15.0 版本中,读取具有多列的 parquet 文件变得缓慢
- ARROW-6877 - [C++] 未从正确的环境中找到 Boost
- ARROW-6878 - [Python] 在 python3 下,pa.array() 无法正确处理键为字节串的字典列表
- ARROW-6882 - [Python] 无法从 dictionary_encoding 结果创建 chunked_array
- ARROW-6885 - [Python] 移除多余的已跳过的 timedelta 测试
- ARROW-6886 - [C++] arrow::io 头文件的 nvcc 编译器警告
- ARROW-6895 - [C++][Parquet] parquet::arrow::ColumnReader: ByteArrayDictionaryRecordReader 在调用 `NextBatch()` 时重复返回值
- ARROW-6898 - [Java] 修复 ArrowWriter 和几个测试类中的潜在内存泄漏
- ARROW-6899 - [Python] 在 list<dictionary<values=string, indices=int32>> 上未实现 to_pandas()
- ARROW-6901 - [Rust][Parquet] SerializedFileWriter 将 total_num_rows 写入为零
- ARROW-6903 - [Python] ARROW-6860 更改后 Wheels 损坏
- ARROW-6905 - [Packaging][OSX] MacOS 上的夜间构建因 brew 编译超时而失败
- ARROW-6910 - [Python] pyarrow.parquet.read_table(...) 占用大量内存,直到程序退出才释放
- ARROW-6913 - [R] compute.cc 中可能存在的错误
- ARROW-6914 - [CI] docker-clang-format 夜间构建失败
- ARROW-6922 - [Python] Pandas 主分支构建失败(MultiIndex.levels 更改)
- ARROW-6925 - [C++] 在 MacOS 10.13.6 上使用 brew gcc 7 和 8 构建 Arrow 失败
- ARROW-6929 - [C++] ValidateArray 与 ListArray IPC 规范不同步
- ARROW-6937 - [Packaging][Python] 修复 conda linux 和 OSX wheel 的夜间构建
- ARROW-6938 - [Python] Windows wheel 依赖于 zstd.dll 和 libbz2.dll,但它们未被捆绑
- ARROW-6948 - [Rust] [Parquet] 修复 arrow reader 中对布尔数组的支持
- ARROW-6950 - [C++][Dataset] 添加使用 dataset 读取 parquet 文件的示例/基准测试
- ARROW-6957 - [CI][Crossbow] 带有 sanitizers 的夜间 R 构建在安装依赖项时失败
- ARROW-6962 - [C++] [CI] 停止使用 -Weverything 进行编译
- ARROW-6966 - [Go] 32 位 memset 为空
- ARROW-6977 - [C++] 仅在支持该功能时才启用 jemalloc background_thread
- ARROW-6983 - [C++] 线程化任务组有时会崩溃
- ARROW-6989 - [Python][C++] 当对超出范围精度的值进行 decimal 类型推断时触发断言
- ARROW-6992 - [C++]:Undefined Behavior sanitizer 构建选项在使用 GCC 时失败
- ARROW-6999 - [Python] 将 Table.from_pandas 自身的 schema 传给它时出现 KeyError: '__index_level_0__'
- ARROW-7013 - [C++] arrow-dataset pkgconfig 不完整
- ARROW-7020 - [Java] 修复计算向量哈希码时的错误
- ARROW-7021 - [Java] UnionFixedSizeListWriter 的 decimal 类型应检查 writer 索引
- ARROW-7022 - [Python] __arrow_array__ 对 Table.from_pandas 中的 ExtensionTypes 无效
- ARROW-7023 - [Python] pa.array 对 pd.Index 不使用 "from_pandas" 语义
- ARROW-7024 - [CI][R] 更新 Conda 构建的 R 依赖项
- ARROW-7027 - [Python] 如果传递无效对象,pa.table(..) 会返回而不是引发错误
- ARROW-7033 - [C++] 在 OSX 10.14.6 上构建时,jemalloc 的 ./configure 步骤出错
- ARROW-7045 - [R] Factor 类型在 Parquet 往返过程中未被保留
- ARROW-7050 - [R] 修复 R 绑定中的编译器警告
- ARROW-7056 - [Python] 没有 S3 的情况下测试出错
- ARROW-7059 - [Python] 读取具有多列的 parquet 文件在 0.15.x 版本中比 0.14.x 版本慢得多
- ARROW-7074 - [C++] ASSERT_OK_AND_ASSIGN 在失败时会崩溃
- ARROW-7077 - [C++] 不支持的 Dict->T 转换会崩溃而不是返回错误
- ARROW-7087 - [Python] 当我们写入分区数据集时,表元数据会消失
- ARROW-7097 - [Rust][CI] 由于 rust nightly 格式化问题,构建失败
- ARROW-7100 - [C++] 在带有 openjdk-11 的 ubuntu 19.04 上找不到 libjvm.so
- ARROW-7105 - [CI][Crossbow] 夜间 homebrew-cpp 作业失败
- ARROW-7106 - [Java] 修复 flight 性能测试无限期挂起的问题
- ARROW-7117 - [C++][CI] 修复 Windows 2019 中挂起的 C++ 测试
- ARROW-7128 - [CI] Fedora cron 作业因错误的 fedora 版本而失败
- ARROW-7133 - [CI] 允许 GH Actions 在所有分支上运行
- ARROW-7142 - [C++] 使用 GCC 5.4.0 编译出错
- ARROW-7152 - [Java] 删除无用的类 DiffFunction
- ARROW-7157 - [R] 向 Object$new() 添加验证和有用的错误消息
- ARROW-7158 - [C++][Visual Studio]非英文版 Visual Studio 上的构建配置错误
- ARROW-7163 - [Doc] 修复 double-and 拼写错误
- ARROW-7164 - [CI] Dev cron github action 每 15 分钟失败一次
- ARROW-7167 - [CI][Python] 将旧版 pandas 的夜间测试添加到 Github Actions
- ARROW-7168 - [Python] pa.array() 不遵守指定的字典类型
- ARROW-7170 - [C++] 捆绑的 ORC 链接失败
- ARROW-7180 - [CI] Java 构建未在 master 分支上触发
- ARROW-7181 - [Python][Nightly] Wheel 构建找不到 ArrowPython
- ARROW-7183 - [CI][Crossbow] 重新跳过 r-sanitizer 夜间测试
- ARROW-7187 - [C++][Doc] 由于 @ 符号,doxygen 在 master 上损坏
- ARROW-7188 - [C++][Doc] doxygen 在 master 上损坏:缺少参数 implicit_casts
- ARROW-7194 - [Rust] CSV Writer 导致递归错误
- ARROW-7199 - [Java] BaseAllocator::getChildAllocators 中出现 ConcurrentModificationException
- ARROW-7200 - [C++][Flight] 在两台主机上运行 Arrow Flight 基准测试无效
- ARROW-7209 - [Python] 在 pandas 中引入 __from_arrow__ 支持后,使用 pandas master 的测试现在失败
- ARROW-7212 - "go test -bench=8192 -run=. ./math" 失败
- ARROW-7214 - [Python] 反序列化带有字典字段的 pyarrow 表时崩溃
- ARROW-7217 - ARROW-7217: [CI][Python] 在 Github Actions 中使用正确的 python 版本
-
ARROW-7225 - [C++] `*std::move(Result
)` 调用 T 的复制构造函数 - ARROW-7249 - [CI] 由于新的 arrow-flight Rust crate,发布测试在 master 上失败
- ARROW-7250 - [C++] 使用 clang 4.x 时 StringToFloatConverter::Impl 出现未定义符号
- ARROW-7253 - [CI] 修复 master 上发布测试的失败
- ARROW-7254 - BaseVariableWidthVector#setSafe 似乎使值偏移量不一致
- ARROW-7264 - [Java] RangeEqualsVisitor 类型检查不正确
- ARROW-7266 - [Python] 对切片进行 dictionary_encode() 得到错误结果
- ARROW-7271 - [C++][Flight] 使用 SetTotalBytesLimit 的单参数版本
- ARROW-7281 - [C++] AdaptiveIntBuilder::length() 未考虑 pending_pos_
- ARROW-7282 - [Python] IO 函数应在适当时引发 FileNotFoundError
- ARROW-7291 - [Dev] 修复 update-flatbuffers.sh 中的 FORMAT_DIR
- ARROW-7294 - [Python] converted_type_name_from_enum():INT_64 的名称不正确
- ARROW-7295 - [R] 修复导致在 R < 3.5 上失败的错误测试
- ARROW-7298 - [C++] cpp/thirdparty/download-dependencies.sh 已损坏
- ARROW-7314 - [Python] pyarrow 中的编译器警告
- ARROW-7318 - [C#] TimestampArray 序列化失败
- ARROW-7320 - [C++] 目标 arrow-type-benchmark 在 bullx Linux 上构建失败
- ARROW-7327 - [CI] C GLib 和 R buildbot 构建器失败
- ARROW-7328 - [CI] GitHub Actions 应在 GitHub Actions 配置更改时触发
- ARROW-7341 - [CI] 修复夜间 Conda R 作业
- ARROW-7343 - [Java] 客户端取消时 Flight DoGet 中出现内存泄漏
- ARROW-7349 - [C++] 修复解析字符串十六进制值的错误
- ARROW-7353 - [C++] 使用 clang 构建时禁用 -Wmissing-braces
- ARROW-7354 - [C++] TestHadoopFileSystem::ThreadSafety 因 sigabort 而失败
- ARROW-7355 - [CI] fuzzit 构建的环境变量被定义了两次
- ARROW-7358 - [CI] [Dev] [C++] ccache 在 conda-python-hdfs 上被禁用
- ARROW-7359 - [C++][Gandiva] 对于起始位置超过字符串长度的 locate 函数,不应抛出错误,而应返回 0
- ARROW-7360 - [R] 无法使用在父作用域中定义的变量进行 dplyr filter()
- ARROW-7361 - [Rust] 构建目录未传递给 ci/scripts/rust_test.sh
- ARROW-7362 - [Python] ListArray.flatten() 应处理切片偏移量
- ARROW-7374 - [Dev] [C++] cuda-cpp docker 镜像编译 Arrow 失败
- ARROW-7381 - [C++][Packaging] 迭代器更改破坏了 manylinux1 wheels
- ARROW-7386 - [C#] 数组偏移量工作不正常
- ARROW-7388 - [Python] 如果找不到 libhdfs,则跳过 HDFS 测试
- ARROW-7389 - [Python][Packaging] 从 recipe 中移除 pyarrow.s3fs 导入检查
- ARROW-7393 - [Plasma] 修复 Java 构建中的 plasma 可执行文件名
- ARROW-7395 - [C++] 使用常量的逻辑“或”是 Clang 警告
- ARROW-7397 - [C++] Json 空白长度检测错误
- ARROW-7404 - [C++][Gandiva] 修复 Arm64 上的 utf8 字符长度错误
- ARROW-7406 - [Java] NonNullableStructVector#hashCode 应将 hasher 传递给子向量
- ARROW-7407 - [Python] 在 Python 3.8 上安装 pyarrow 0.15.1 失败
- ARROW-7408 - [C++] 引用基准测试编译失败
- ARROW-7435 - 安全问题:ValidateOffsets() 无法防止缓冲区超读
- ARROW-7436 - [Archery] 修复基准测试默认配置
- ARROW-7437 - [Java] ReadChannel#readFully 未正确设置 writer 索引
- ARROW-7442 - [Ruby] 将列类型指定为 time 会导致段错误
- ARROW-7447 - [Java] ComplexCopier 在某些情况下复制不正确
- ARROW-7450 - [CI][C++] test-ubuntu-18.04-cpp-static 在 arrow-io-hdfs-test 中因链接错误而失败
- ARROW-7458 - [GLib] Makefile 中不正确的构建依赖
- ARROW-7471 - [Python] Cython flake8 失败
- ARROW-7472 - [Java] 修复 UnionListWriter 中的一些不正确行为
- ARROW-7478 - [Rust] [DataFusion] Group by 表达式被忽略,除非与聚合表达式配对
- ARROW-7492 - [CI][Crossbow] 夜间 homebrew-cpp 作业在 Python 安装时失败
- ARROW-7497 - [Python] 测试断言:pandas.util.testing 已弃用,请改用 pandas.testing
- ARROW-7500 - [C++][Dataset] 在 centos7 和 opensuse42 上 hive 分区时出现 regex_error
- ARROW-7503 - [Rust] Rust 构建在 master 上失败
- ARROW-7506 - [Java] JMH 基准测试应从 main 方法调用
- ARROW-7508 - [C#] DateTime32 读取已损坏
- ARROW-7510 - [C++] Array::null_count() 不是线程兼容的
- ARROW-7516 - [C#] .NET 基准测试已损坏
- ARROW-7518 - [Python] 构建 wheels 和 conda 包时使用 PYARROW_WITH_HDFS
- ARROW-7527 - [Python] pandas/feather 测试在 pandas master 上失败
- ARROW-7528 - [Python] pandas.datetime 类(datetime.datetime 的导入)和 pandas.np 已弃用
- ARROW-7535 - [C++] 验证中的 ASAN 失败
- ARROW-7543 - [R] arrow::write_parquet() 代码示例无法工作
- ARROW-7551 - [FlightRPC][C++] 由于 Homebrew gRPC,macOS 上的 Flight 测试失败
- ARROW-7552 - [C++] TestSlowInputStream 不稳定
- ARROW-7554 - [C++] 未知的 CMake 命令 "externalproject_add"
- ARROW-7559 - [Rust] StringArray 和 BinaryArray 中可能不正确的索引检查断言
- ARROW-7561 - [Doc][Python] 修复 conda 环境命令
- ARROW-7582 - [Rust][Flight] 无法编译 arrow.flight.protocol.rs
- ARROW-7583 - [C++][Flight] Windows 上的 Auth handler 测试不稳定
- ARROW-7591 - [Python] DictionaryArray.to_numpy 返回部分的字典而不是 numpy 数组
- ARROW-7592 - [C++] 修复损坏的 IPC 输入导致的崩溃
- ARROW-7593 - [CI][Python] Python datasets 在 master 上失败/未在 CI 上运行
- ARROW-7595 - [R][CI] R appveyor 作业由于 pacman 压缩更改而失败
- ARROW-7596 - [Python] 仅在 split_blocks=True 时应用零拷贝 DataFrame 块优化
- ARROW-7599 - [Java] 修复因 RangeEqualsVisitor 更改导致的构建中断
- ARROW-7603 - [CI][Crossbow] 夜间 centos 8 作业失败
- ARROW-7611 - [Packaging][Python] wheel 的构件模式错误
- ARROW-7612 - [Packaging][Python] Windows 上 Conda 的构件路径错误
- ARROW-7614 - [Python] test_parquet.py::test_set_data_page_size 性能缓慢
- ARROW-7618 - [C++] 修复损坏的 IPC 输入导致的崩溃或未定义行为
- ARROW-7620 - [Rust] 由于 flatbuffer 编译错误,Windows 构建失败
- ARROW-7621 - [Doc] 文档构建失败
- ARROW-7634 - [Python] Dataset 测试在 Windows 上解析文件路径时失败
- ARROW-7638 - [Python] 检查带有无效文件/分区的 dataset.Source 时发生段错误
- ARROW-7639 - [R] 当值不是字符串时,无法将 Dictionary Array 转换为 R
- ARROW-7640 - [C++][Dataset] 如果构建未包含对编解码器的支持,则在读取压缩的 Parquet 文件时发生段错误
- ARROW-7647 - [C++] JSON reader 无法读取值很少的数组
- ARROW-7650 - [C++] Dataset 测试未在 Windows 上构建
- ARROW-7651 - [CI][Crossbow] 夜间 macOS wheel 构建失败
- ARROW-7652 - [Python][Dataset] 在 ScannerBuilder.filter 中插入隐式转换
- ARROW-7661 - [Python] 末尾没有换行符时,CSV 分块非最优
- ARROW-7689 - [C++] macOS 上零星的 Flight 测试崩溃
- ARROW-7690 - [R] 无法将 parquet 写入 OutputStream
- ARROW-7693 - [CI] 修复 test-conda-python-3.7-spark-master 夜间错误
- ARROW-7709 - [Python] 从表列转换为 Pandas 时,时间戳的名称会丢失
- ARROW-7714 - [Release] 缺少变量展开
- ARROW-7718 - [Release] 修复二进制发布脚本中的自动重试
- ARROW-7723 - [Python] StructArray 带时区的时间戳类型 to_pandas 转换错误