Apache Arrow 2.0.0 (2020 年 10 月 19 日)
这是一个主要版本,涵盖了 3 个多月的开发。
下载
贡献者
此版本包含来自 81 位不同贡献者的 511 次提交。
$ git shortlog -sn apache-arrow-1.0.0..apache-arrow-2.0.0
68 Jorge C. Leitao
48 Antoine Pitrou
40 Krisztián Szűcs
34 alamb
33 Neal Richardson
30 Andy Grove
25 Benjamin Kietzman
25 Joris Van den Bossche
19 Sutou Kouhei
13 Uwe L. Korn
12 Micah Kornfield
10 Frank Du
10 Jörn Horstmann
9 Neville Dipale
9 Romain Francois
9 arw2019
8 Yibo Cai
8 liyafan82
7 Sagnik Chakraborty
6 David Li
5 Kazuaki Ishizaki
5 Mahmut Bulut
4 Mingyu Zhong
4 fredgan
3 Bryan Cutler
3 wqc200
2 Daniel Russo
2 Diana Clarke
2 James Duong
2 Kenta Murata
2 Patrick Woody
2 Projjal Chanda
2 naman1996
2 ptaylor
2 tianchen
1 Adam Szmigin
1 Ali McMaster
1 Andrew Stevenson
1 Ben Kimock
1 Brian Dunlay
1 Christoph Schulze
1 Derek Marsh
1 Dominik Moritz
1 Eric Erhardt
1 Ezra
1 Fernando José Herrera Elizalde
1 FredGan
1 Hongze Zhang
1 Jim Klucar
1 Josiah
1 Kyle Strand
1 Laurent Goujon
1 Lawrence Chan
1 Mark Rushakoff
1 Matt Corley
1 Matthew Topol
1 Matthias
1 Morgan Cassels
1 Ofek
1 Patrick Pai
1 Paul
1 PoojaChandak
1 Prashanth Govindarajan
1 Pratik raj
1 Revital Sur
1 Ruan Pearce-Authers
1 Ryan Murray
1 Simon Bertron
1 Steve Suh
1 Tanguy Fautre
1 Tobias Mayer
1 Troels Nielsen
1 Vivian Kong
1 Wes McKinney
1 Xavier Lange
1 Yordan Pavlov
1 kanga333
1 karldw
1 mubai
1 offthewall123
1 zanmato1984
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -csn apache-arrow-1.0.0..apache-arrow-2.0.0
127 Andy Grove
92 Antoine Pitrou
56 Krisztián Szűcs
51 Neal Richardson
44 Sutou Kouhei
18 Joris Van den Bossche
18 Micah Kornfield
17 Benjamin Kietzman
17 Wes McKinney
16 Neville Dipale
12 Jorge C. Leitao
10 Praveen
7 Paddy Horan
4 David Li
4 Eric Erhardt
4 Sebastien Binet
4 Uwe L. Korn
4 liyafan82
3 GitHub
1 Bryan Cutler
1 Chao Sun
1 tianchen
更新日志
Apache Arrow 2.0.0 (2020-10-19)
Bug 修复
- ARROW-2367 - [Python] ListArray 处理大于 kMaximumCapacity 的大小有问题
- ARROW-4189 - [CI] [Rust] 修复损坏的 cargo 覆盖率
- ARROW-4917 - [C++] orc_ep 在 cpp-alpine docker 中失败
- ARROW-5578 - [C++][Flight] Flight 在 Alpine Linux 上无法直接构建
- ARROW-7226 - [JSON][Python] Json 加载器在文档示例中失败。
- ARROW-7384 - [网站] 修复 Google 报告的搜索索引警告
- ARROW-7517 - [C++] Builder 在初始化期间不遵守提供的字典类型
- ARROW-7663 - [Python] 在某些情况下,from_pandas 会给出 TypeError 而不是 ArrowTypeError
- ARROW-7903 - [Rust] [DataFusion] 升级 DataFusion 的 SQLParser 依赖项
- ARROW-7957 - [Python] ParquetDataset 不能将 HadoopFileSystem 作为文件系统
- ARROW-8265 - [Rust] [DataFusion] Table API collect() 不应需要上下文
- ARROW-8394 - [JS] 使用 es2015-esm 包时,arrow d.ts 文件的 Typescript 编译器错误
- ARROW-8735 - [Rust] [Parquet] Parquet crate 在 Arm 架构上编译失败
- ARROW-8749 - [C++] IpcFormatWriter 写入具有错误 ID 的字典批次
- ARROW-8773 - [Python] pyarrow schema.empty_table() 不会保留字段的空值属性
- ARROW-9028 - [R] 应该能够转换空表
- ARROW-9096 - [Python] 带有整数值的对象 dtype 列标签的 Pandas 来回转换:数据类型“integer”无法识别
- ARROW-9177 - [C++][Parquet] 跨实现的 LZ4 Parquet 压缩兼容性的跟踪问题
- ARROW-9414 - [C++] apt 包包含 S3 接口的标头,但没有支持
- ARROW-9462 - [Go] 第一个 Record arrjson 写入器后的缩进丢失
- ARROW-9463 - [Go] 写入器在 TestReadWrite 中被双重关闭
- ARROW-9490 - [Python] 特定 numpy 标量的 pyarrow 数组创建失败
- ARROW-9495 - [C++] 相等断言无法正确处理 Inf / -Inf
- ARROW-9520 - [Rust] [DataFusion] 无法为聚合表达式设置别名
- ARROW-9528 - [Python] 从 datetime 转换为 pyarrow 时,保留 tzinfo 信息
- ARROW-9532 - [Python] 在 macOS 上为 MacPorts 构建 pyarrow
- ARROW-9535 - [Python] 从 conda 配方中删除符号链接修复
- ARROW-9536 - PlasmaOutOfMemoryException.java 中缺少参数
- ARROW-9541 - [C++] 构建静态库时,CMakeLists 需要 UTF8PROC_STATIC
- ARROW-9544 - [R] write_parquet 的版本参数不起作用
- ARROW-9546 - [Python] 清理 Pandas 元数据转换测试
- ARROW-9548 - [Go] tmp 目录中的测试输出文件未正确删除
- ARROW-9549 - [Rust] Parquet 不再构建
- ARROW-9554 - [Java] FixedWidthInPlaceVectorSorter 有时会产生错误的结果
- ARROW-9556 - [Python][C++] 带有空值的 UnionArray 中出现段错误
- ARROW-9560 - [打包] 由于缺少 conda-forge.yml,conda 配方失败
- ARROW-9569 - [CI][R] 修复 msys2 密钥更改的 rtools35 构建
- ARROW-9570 - [Doc] 清理 sphinx 侧边栏
- ARROW-9573 - [Python] 当分区列以“_”开头时,Parquet 无法加载
- ARROW-9574 - [R] CRAN 1.0.0 发布的清理
- ARROW-9575 - [R] CRAN 上的 gcc-UBSAN 失败
- ARROW-9577 - [Python][C++] pyarrow 1.0.0 中 Debian 上的 posix_madvise 错误
- ARROW-9583 - [Rust] 偏移量在算术和布尔计算内核中处理不当
- ARROW-9588 - [C++] clang/win:ParquetInvalidOrCorruptedFileException 的复制构造函数未正确触发
- ARROW-9589 - [C++/R] arrow_exports.h 包含声明为 class 的结构体
- ARROW-9592 - [CI] 在调用 brew bundle 之前更新 homebrew
- ARROW-9596 - [CI][Crossbow] 再次修复 homebrew-cpp
- ARROW-9597 - [C++] compute::FunctionRegistry 中的 AddAlias 应该同步
- ARROW-9598 - [C++][Parquet] 间隔定义级别未正确分配。
- ARROW-9599 - [CI] Appveyor 工具链构建失败,因为 CMake 检测到不同的 C 和 C++ 编译器
- ARROW-9600 - [Rust] 当用作 crate 依赖项时,arrow-flight 在每次调用 cargo build 时都会重新构建
- ARROW-9600 - [Rust] 当用作 crate 依赖项时,arrow-flight 在每次调用 cargo build 时都会重新构建
- ARROW-9602 - [R] 改进 Linux 构建中的 cmake 检测
- ARROW-9603 - [C++][Parquet] Write Arrow 依赖于嵌套类型的未指定行为
- ARROW-9606 - [C++][Dataset] in 表达式不适用于 >1 个分区级别
- ARROW-9609 - [C++] CSV 数据集不物化虚拟列
- ARROW-9621 - [Python] test_move_file() 在 fsspec 0.8.0 中失败
- ARROW-9622 - [Java] 如果 structvector 具有带有空值的子 UnionVector,则 ComplexCopier 失败
- ARROW-9628 - [Rust] Clippy PR 测试在 Rust / AMD64 MacOS 上间歇性失败
- ARROW-9629 - [Python] 由于缺少 freezegun 模块,Kartothek 集成测试失败
- ARROW-9631 - [Rust] Arrow crate 不应依赖于 flight
- ARROW-9631 - [Rust] Arrow crate 不应依赖于 flight
- ARROW-9642 - [C++] 让 MakeBuilder 引用 DictionaryType 的 index_type 来决定索引的起始位宽
- ARROW-9643 - [C++] haswell cpu 上的非法指令
- ARROW-9644 - [C++][Dataset] 不要检查基本路径中的 ignore_prefixes
- ARROW-9652 - [Rust][DataFusion] 尝试从 CSV 中选择 * 时出现 panic(在 'index out of bounds: the len is 0 but the index is 0' 时 panic)
- ARROW-9653 - [Rust][DataFusion] 多列 Group by:无效参数错误
- ARROW-9659 - [C++] RecordBatchStreamReader 在 CUDA 设备缓冲区上抛出异常
- ARROW-9660 - [C++] IPC - maps 中的字典
- ARROW-9666 - [Python][wheel][Windows] ARROW-9412 导致的库丢失故障
- ARROW-9670 - [C++][FlightRPC] 关闭正在进行的读取操作的 DoPut 会导致客户端锁定
- ARROW-9684 - [C++] 修复无效 IPC / Parquet 输入时的未定义行为 (OSS-Fuzz)
- ARROW-9692 - [Python] distutils 导入警告
- ARROW-9693 - [CI][Docs] 夜间文档构建失败
- ARROW-9696 - [Rust] [Datafusion] 嵌套的二元表达式损坏
- ARROW-9698 - [C++] 恢复 “Add -NDEBUG flag to arrow.pc”
- ARROW-9700 - [Python] create_library_symlinks 在 macOS 中不起作用
- ARROW-9712 - [Rust] [DataFusion] ParquetScanExec 在错误时会 panic
- ARROW-9714 - [Rust] [DataFusion] TypeCoercionRule 未为 Limit 或 Sort 实现
- ARROW-9716 - [Rust] [DataFusion] MergeExec 应该有并发限制
- ARROW-9726 - [Rust] [DataFusion] ParquetScanExec 过早启动线程
- ARROW-9727 - [C++] 修复无效 IPC 输入导致的崩溃 (OSS-Fuzz)
- ARROW-9729 - [Java] Error Prone 导致其他注解处理器在 Eclipse 中无法工作
- ARROW-9733 - [Rust][DataFusion] 聚合函数 COUNT/MIN/MAX 在 VARCHAR 列上不起作用
- ARROW-9734 - [Rust] [DataFusion] TableProvider.scan 过早执行分区
- ARROW-9741 - [Rust] [DataFusion] TPC-H 查询 1 结果集中的计数不正确
- ARROW-9743 - [R] 清理 open_dataset 中的路径
- ARROW-9744 - [Python] 无法在 aarch64 上安装
- ARROW-9764 - [CI][Java] 推送错误的 Docker 镜像
- ARROW-9768 - [Python] Pyarrow 允许将 datetime 对象不安全地转换为时间戳纳秒
- ARROW-9768 - [Python] Pyarrow 允许将 datetime 对象不安全地转换为时间戳纳秒
- ARROW-9778 - [Rust] [DataFusion] 逻辑模式和物理模式的 nullability 在 20 个端到端测试中的 8 个不匹配
- ARROW-9783 - [Rust] [DataFusion] 逻辑聚合表达式需要显式数据类型
- ARROW-9785 - [Python] pyarrow/tests/test_fs.py::test_s3_options 太慢
- ARROW-9789 - [C++] 不要并行安装 jemalloc
- ARROW-9790 - [Rust] [Parquet] 如果批处理恰好落在行组边界上,则 ParquetFileArrowReader 无法解码所有页面
- ARROW-9790 - [Rust] [Parquet] 如果批处理恰好落在行组边界上,则 ParquetFileArrowReader 无法解码所有页面
- ARROW-9793 - [Rust] [DataFusion] 测试在 master 分支中失败
- ARROW-9797 - [Rust] AMD64 Conda 集成测试在 Master 分支上失败
- ARROW-9799 - [Rust] [DataFusion] 物理二元表达式 get_type 方法的实现不正确
- ARROW-9800 - [Rust] [Parquet] 写入列时,“min” 和 “max” 写入到标准输出
- ARROW-9809 - [Rust] [DataFusion] 逻辑模式 = 物理模式 不成立
- ARROW-9814 - [Python] test_parquet.py::test_read_partitioned_directory_s3fs 中崩溃
- ARROW-9815 - [Rust] [DataFusion] 使用两个 udf 创建物理计划时死锁
- ARROW-9815 - [Rust] [DataFusion] 使用两个 udf 创建物理计划时死锁
- ARROW-9815 - [Rust] [DataFusion] 使用两个 udf 创建物理计划时死锁
- ARROW-9816 - [C++] 转义 config.h 中的引号
- ARROW-9827 - [Python] pandas.read_parquet 在 pyarrow 1.0.X 版本下无法读取宽 parquet 文件
- ARROW-9831 - [Rust] [DataFusion] 修复编译错误
- ARROW-9840 - [Python] Python fs 文档与代码不一致
- ARROW-9846 - [Rust] Master 分支构建中断
- ARROW-9851 - [C++] Valgrind 错误,由于无法识别的指令
- ARROW-9852 - [C++] 修复无效 IPC 输入导致的崩溃 (OSS-Fuzz)
- ARROW-9852 - [C++] 修复无效 IPC 输入导致的崩溃 (OSS-Fuzz)
- ARROW-9855 - [R] 修复错误的合并/Rcpp 冲突
- ARROW-9859 - [C++] S3 FileSystemFromUri 使用特殊字符在密钥中失败
- ARROW-9864 - [Python] pathlib.Path 在使用分区列写入数据集时不被支持
- ARROW-9874 - [C++] NewStreamWriter / NewFileWriter 不拥有输出流
- ARROW-9876 - [CI][C++] Travis ARM 作业超时
- ARROW-9877 - [C++][CI] homebrew-cpp 因 avx512 失败
- ARROW-9879 - [Python] ChunkedArray.__getitem__ 不适用于 numpy 标量
- ARROW-9882 - [C++/Python] 将 conda-forge-pinning 更新为 3,用于 OSX conda 包
- ARROW-9883 - [R] 修复 R < 3.6 的 linuxlibs.R 安装脚本
- ARROW-9888 - [Rust] [DataFusion] ExecutionContext 不能在线程之间共享
- ARROW-9889 - [Rust][DataFusion] Datafusion CLI:CREATE EXTERNAL TABLE 错误,提示 “不支持的逻辑计划变体”
- ARROW-9897 - [C++][Gandiva] 添加从模式中获取 to_date() 函数
- ARROW-9898 - [C++][Gandiva] 在某些环境中,castINT 中的错误处理失败
- ARROW-9906 - [Python] test_parquet.py::test_parquet_writer_filesystem_s3_uri 中崩溃 (从 S3FileSystem 关闭 NativeFile)
- ARROW-9913 - [C++] Decimal128::FromString 的输出依赖于彼此的存在
- ARROW-9920 - [Python] 当向 pyarrow.concat_arrays 传递分块数组时,会发生段错误
- ARROW-9922 - [Rust] 将 `try_from(Vec<Option<(&str, ArrayRef)>>)` 添加到 StructArray
- ARROW-9924 - [Python] 使用 Dataset 接口读取单个 Parquet 文件时性能下降
- ARROW-9931 - [C++] 修复无效 IPC 上的未定义行为 (OSS-Fuzz)
- ARROW-9932 - [R] Arrow 1.0.1 R 包在 linux 上的 R3.4 上安装失败
- ARROW-9936 - [Python] 修复 / 测试 pyarrow.parquet 中的相对文件路径
- ARROW-9937 - [Rust] [DataFusion] 平均值不正确
- ARROW-9943 - [C++] 读取 Parquet 文件时,Arrow 元数据不会递归应用
- ARROW-9946 - [R] 当 `sink` 是字符串时,ParquetFileWriter 会发生段错误
- ARROW-9953 - [R] 声明 bit64 的最低版本
- ARROW-9962 - [Python] 使用固定时区将带有索引列转换为 pandas 失败
- ARROW-9968 - [C++] UBSAN 链接失败,带有 __int8_t
- ARROW-9969 - [C++] RecordBatchBuilder 使用字典字段产生无效结果
- ARROW-9970 - [Go] sum 方法中的 checkptr 失败
- ARROW-9972 - [CI] 解决 Homebrew 上的 grpc-re2 冲突
- ARROW-9973 - [Java] JDBC DateConsumer 不允许在 epoch 之前的日期
- ARROW-9976 - [Python] 当使用大型数据帧执行 Table.from_pandas 时,出现 ArrowCapacityError
- ARROW-9990 - [Rust] [DataFusion] NOT 不可规划
- ARROW-9993 - [Python] Tzinfo - 字符串往返在 pytz.StaticTzInfo 对象上失败
- ARROW-9994 - [C++][Python] 自动分块包含类似二进制字段的嵌套数组会导致输出格式错误
- ARROW-9996 - [C++] 当为 null 值调用 DictionaryArray.GetScalar 时,字典未设置
- ARROW-10003 - [C++] 在同一文件系统中复制时,在 CopyFiles 中创建目录
- ARROW-10008 - [Python] 当在分类数据上使用谓词下推时,pyarrow.parquet.read_table 失败,use_legacy_dataset=False
- ARROW-10011 - [C++] 使 FindRE2.cmake 可重入
- ARROW-10012 - [C++] CopyFiles 测试中出现零星失败
- ARROW-10013 - [C++][CI] TestFlightClient.GenericOptions 中的 Flight 测试失败
- ARROW-10017 - [Java] LargeMemoryUtil.checkedCastToInt 具有错误的逻辑
- ARROW-10022 - [C++] [Compute] 在某些标量算术基准测试中发生核心转储
- ARROW-10027 - [Python] 当使用数据集过滤器表达式时,返回不正确的 null 列。
- ARROW-10034 - [Rust] Master 构建中断
- ARROW-10041 - [Rust] 可以使用 DataType::Utf8 创建 LargeStringArray
- ARROW-10047 - [CI] Conda 集成测试因 cmake 错误而失败
- ARROW-10048 - [Rust] 字符串的 min/max 聚合中出错
- ARROW-10049 - [C++/Python] 将 conda 配方与 conda-forge 同步
- ARROW-10060 - [Rust] [DataFusion] MergeExec 当前会丢弃有错误的分区
- ARROW-10062 - [Rust]:修复 DictArray 的 DoubleEndedIter 中 null 元素的问题
- ARROW-10073 - [Python] 测试 test_parquet_nested_storage 依赖于字典项的顺序
- ARROW-10081 - [C++/Python] 修复 drone.io conda 构建中的 bash 语法
- ARROW-10085 - [C++] S3 测试在 AppVeyor 上失败
- ARROW-10087 - [CI] 修复 nightly docs 作业
- ARROW-10098 - [R][Doc] 修复 copy_files 文档不匹配的问题
- ARROW-10104 - [Python] 将测试分离到其自己的 conda 包中
- ARROW-10114 - [R] 在使用深度嵌套结构时,to_dataframe_parallel 中出现段错误
- ARROW-10116 - [Python][Packaging] 修复 macOS wheels 构建中的 gRPC 链接错误
- ARROW-10119 - [C++] 修复 Parquet 在无效输入上的崩溃 (OSS-Fuzz)
- ARROW-10121 - [C++][Python] 可变字典在往返于 IPC 流时无法保存
- ARROW-10124 - [R] 写入函数不遵循 umask 设置
- ARROW-10125 - [R] Int64 向下转型检查未考虑所有块
- ARROW-10130 - [C++][Dataset] ParquetFileFragment::SplitByRowGroup 不会保留 “complete_metadata” 状态
- ARROW-10136 - [Rust][Arrow] 在为 StringArray 过滤后,Null 值被转换为 ""
- ARROW-10137 - [R] 修复如果 libarrow 不存在则会中断的 cpp 辅助函数
- ARROW-10147 - [Python] 如果索引名称不是默认的 JSON 可序列化对象,则构建 pandas 元数据会失败
- ARROW-10150 - [C++] 修复无效 Parquet 文件导致的崩溃 (OSS-Fuzz)
- ARROW-10169 - [Rust] 当漂亮打印数组时,空值应呈现为“”,而不是默认值
- ARROW-10174 - [Java] 读取字典编码的结构向量失败
- ARROW-10175 - [CI] 夜间 hdfs 集成测试作业失败
- ARROW-10176 - [CI] 夜间 valgrind 作业失败
- ARROW-10178 - [CI] 修复 spark master 集成测试构建设置
- ARROW-10179 - [Rust] 标签器未标记
- ARROW-10181 - [Rust] Arrow 测试在 Raspberry Pi (32 位) 上编译失败
- ARROW-10188 - [Rust] [DataFusion] 一些示例已损坏
- ARROW-10189 - [Doc] C 数据接口示例中,i32 的格式使用 `l`,而不是 `i`
- ARROW-10192 - [C++][Python] 将带有字典字段的嵌套结构数组转换为 pandas series 时出现段错误
- ARROW-10193 - [Python] 转换为固定大小二进制数组时出现段错误
- ARROW-10200 - [Java][CI] 修复 Java CI 在 s390x 上的失败
- ARROW-10204 - [RUST] [Datafusion] 启用 simd 功能时,aggregate_grouped_empty 测试失败
- ARROW-10214 - [Python] 打印带有二进制元数据的模式时出现 UnicodeDecodeError
- ARROW-10226 - [Rust] [Parquet] Parquet 阅读器在 Parquet 文件中的某些批次中读取错误的列
- ARROW-10230 - [JS][Doc] JavaScript 文档构建失败
- ARROW-10232 - FixedSizeListArray 读/写到 Parquet 文件时出现错误
- ARROW-10234 - [C++][Gandiva] 修复 Gandiva 中 float/decimal 的 round() 逻辑
- ARROW-10237 - [C++] 字典中的重复值导致 Parquet 文件损坏
- ARROW-10238 - [C#] List<Struct> 已损坏
- ARROW-10239 - [C++] aws-sdk-cpp 显然也需要 zlib
- ARROW-10244 - [Python][Docs] 添加关于使用 pyarrow.dataset.parquet_dataset 的文档
- ARROW-10248 - [C++][Dataset] Dataset 写入不写入模式元数据
- ARROW-10262 - [C++] Scalar 类中的某些 TypeClass 似乎不正确
- ARROW-10270 - [R] 修复 R-devel 上的 CSV timestamp_parsers 测试
- ARROW-10271 - [Rust] packed_simd 已损坏,并在一个新项目下继续进行
- ARROW-10279 - [Release][Python] 修复验证脚本以与新的 macos wheel 平台标签对齐
- ARROW-10280 - [Packaging][Python] 修复 macOS wheel 工件模式
- ARROW-10281 - [Python] 修复运行测试时的警告
- ARROW-10284 - [Python] Pyarrow 在导入时引发关于文件系统的弃用警告
- ARROW-10285 - [Python] pyarrow.orc 子模块正在使用已弃用的功能
- ARROW-10286 - [C++][Flight] 误导性的 CMake 错误
- ARROW-10288 - [C++] 在 i386 上编译失败
- ARROW-10290 - [C++] 在较旧的 CMake 版本中,List POP_BACK 不可用
- ARROW-10293 - [Rust] [DataFusion] 修复基准测试
- ARROW-10296 - [R] 保存为 integer64 的数据加载为 integer
新特性和改进
- ARROW-983 - [C++] 实现用于与套接字连接交互的 InputStream 和 OutputStream 类
- ARROW-1105 - [C++] SQLite 记录批读取器
- ARROW-1509 - [Python] 将序列化对象作为封装的 IPC 消息流写入
- ARROW-1669 - [C++] 考虑将 Abseil(Google C++11 标准库扩展)添加到工具链
- ARROW-1797 - [C++] 为数值数组实现二进制算术内核
- ARROW-2164 - [C++] 清理不必要的 decimal 模块引用
- ARROW-3080 - [Python] 统一 Arrow 到 Python 对象转换路径
- ARROW-3757 - [R] Flight RPC 客户端的 R 绑定
- ARROW-3872 - [R] 添加 feather 兼容性的临时测试
- ARROW-4046 - [Python/CI] 执行大内存测试
- ARROW-4248 - [C++][Plasma] 在 Windows/Visual Studio 上构建
- ARROW-4685 - [C++] 在 manylinux1 docker 镜像中将 Boost 更新到 1.69
- ARROW-4927 - [Rust] 更新顶层 README 以描述当前功能
- ARROW-4957 - [Rust] [DataFusion] 正确实现 get_supertype
- ARROW-4965 - [Python] 时间戳数组类型检测应使用 datetime.datetime 对象的时区名称
- ARROW-5034 - [C#] ArrowStreamWriter 应公开同步的 Write 方法
- ARROW-5123 - [Rust] 从结构定义派生 RecordWriter
- ARROW-6075 - [FlightRPC] 处理中间件中未捕获的异常
- ARROW-6281 - [Python] 为 pyarrow.array 中的嵌套类型生成分块数组
- ARROW-6282 - [Format] 支持有损压缩
- ARROW-6437 - [R] 将 AWS SDK 添加到 macOS 和 Windows 的系统依赖项
- ARROW-6535 - [C++] Status::WithMessage 应接受可变参数
- ARROW-6537 - [R] 将 column_types 传递给 CSV 读取器
- ARROW-6972 - [C#] 应支持 StructField 数组
- ARROW-6982 - [R] 添加 compare 和 boolean 内核的绑定
- ARROW-7136 - [Rust][CI] 在 dockerfile 中预安装 rust 依赖项
- ARROW-7218 - [Python] 从 boolean numpy 标量的转换不起作用
- ARROW-7302 - [C++] CSV:允许将列转换为特定的字典类型
- ARROW-7372 - [C++] 允许从简单的 JSON 创建字典数组
- ARROW-7871 - [Python] 公开更多计算内核
- ARROW-7960 - [C++][Parquet] 添加对将模式从 parquet 节点转换回 arrow 以查找丢失类型的支持
- ARROW-8001 - [R][Dataset] 用于数据集写入的绑定
- ARROW-8002 - [C++][Dataset] 数据集写入应允许您(重新)分区数据
- ARROW-8048 - [Python] 作为 ARROW-4120 的后续,每晚运行内存泄漏测试
- ARROW-8172 - [C++] 用于字典数组的 ArrayFromJSON
- ARROW-8205 - [Rust] [DataFusion] DataFusion 应在模式中强制执行唯一的字段名称
- ARROW-8253 - [Rust] [DataFusion] 改进注册 UDF 的人体工程学
- ARROW-8262 - [Rust] [DataFusion] 添加使用 LogicalPlanBuilder 的示例
- ARROW-8289 - [Rust] [Parquet] 实现最小的 Arrow Parquet 写入器,作为完整写入器的起点
- ARROW-8296 - [C++][Dataset] IpcFileFormat 应支持写入带有压缩缓冲区的文件
- ARROW-8355 - [Python] 减少 test_feather 中 pandas 依赖的测试用例数量
- ARROW-8359 - [C++/Python] 在 conda 食谱中启用 aarch64/ppc64le 构建
- ARROW-8383 - [Rust] 更容易随机访问 DictionaryArray 的键和值
- ARROW-8402 - [Java] 支持 Java 中的 ValidateFull 方法
- ARROW-8423 - [Rust] [Parquet] 在写入 parquet 时将 arrow 模式序列化到元数据中
- ARROW-8426 - [Rust] [Parquet] 添加对写入字典类型的支持
- ARROW-8493 - [C++] 为数组重建创建统一的模式解析代码。
- ARROW-8494 - [C++] 实现基本的逐数组重新组装逻辑
- ARROW-8581 - [C#] Date32/64Array.Builder 应接受 DateTime,而不是 DateTimeOffset
- ARROW-8601 - [Go][Flight] 实现 Flight Writer 接口
- ARROW-8601 - [Go][Flight] 实现 Flight Writer 接口
- ARROW-8618 - [C++] ASSIGN_OR_RAISE 应该移动它的参数
- ARROW-8678 - [C++][Parquet] 删除旧的 arrow 到级别转换。
- ARROW-8712 - [R] 在 read_csv 转换选项中公开 strptime 时间戳解析
- ARROW-8774 - [Rust] [DataFusion] 改进线程模型
- ARROW-8810 - [R] 添加有关 Parquet 格式的文档,附加到流格式
- ARROW-8824 - [Rust] [DataFusion] 实现新的 SQL 解析器
- ARROW-8828 - [Rust] 实现 SQL 标记器
- ARROW-8829 - [Rust] 实现 SQL 解析器
- ARROW-9010 - [Java] RecordBatch IPC 缓冲区压缩的框架和接口更改
- ARROW-9065 - [C++] 支持解析数据集分区文件夹中的 date32
- ARROW-9068 - [C++][Dataset] 简化分区接口
- ARROW-9078 - [C++] 写入具有嵌套存储类型的扩展类型的 Parquet 文件失败
- ARROW-9104 - [C++] Parquet 加密测试应将文件写入临时目录,而不是测试子模块的目录
- ARROW-9107 - [C++][Dataset] 基于时间的类型支持
- ARROW-9147 - [C++][Dataset] 支持在数据集扫描中进行 null -> 其他类型提升
- ARROW-9205 - [Documentation] 修复 Columnar.rst 中的错别字
- ARROW-9266 - [Python][Packaging] 在 macOS wheel 中启用 S3 支持
- ARROW-9271 - [R] 在往返中保留数据帧元数据
- ARROW-9286 - [C++] 将函数“别名”添加到 compute::FunctionRegistry
- ARROW-9328 - [C++][Gandiva] 为字符串添加 LTRIM、RTRIM、BTRIM 函数
- ARROW-9338 - [Rust] 添加在本地运行 clippy 的说明
- ARROW-9344 - [C++][Flight] 在 flight 基准测试中测量延迟分位数
- ARROW-9358 - [Integration] 重新考虑 generated_large_batch.json
- ARROW-9371 - [Java] 为两种分配器运行向量测试
- ARROW-9377 - [Java] 支持无符号字典索引
- ARROW-9387 - [R] 使用新的 C++ 表选择方法
- ARROW-9388 - [C++] 除法内核
- ARROW-9394 - [Python] 支持标量的 pickle 序列化
- ARROW-9398 - [C++] 在函数实例下注册 SIMD 求和变体,而不是在 SIMD 函数下
- ARROW-9402 - [C++] 为 __builtin_add_overflow 和类似函数添加可移植的包装器
- ARROW-9405 - [R] 切换到 cpp11
- ARROW-9412 - [C++] 将非捆绑依赖项添加到 arrow_static 的导出 INSTALL_INTERFACE_LIBS 中,并测试它是否有效
- ARROW-9429 - [Python] ChunkedArray.to_numpy
- ARROW-9454 - [GLib] 添加一些字典构建器的绑定
- ARROW-9465 - [Python] 改进计算函数的人体工程学
- ARROW-9469 - [Python] 使更多对象可弱引用
- ARROW-9487 - [开发者] 使用单元测试覆盖 archery 发布工具
- ARROW-9488 - [发布] 在更新网站时使用新的变更日志生成
- ARROW-9507 - [Rust] [DataFusion] PhysicalExpr 应该实现 Display trait
- ARROW-9508 - [发布][APT][Yum] 为 arm64 二进制文件启用验证
- ARROW-9516 - [Rust][DataFusion] 重构物理表达式,使其不关心它们的名称或索引
- ARROW-9517 - [C++][Python] 在初始化 S3FileSystem 时允许 session_token 参数
- ARROW-9518 - [Python] 弃用 pyarrow 序列化
- ARROW-9521 - [Rust] CsvReadOptions 应该允许指定文件扩展名
- ARROW-9523 - [Rust] 提高过滤器内核的性能
- ARROW-9534 - [Rust] [DataFusion] 实现为所有类型创建字面表达式的函数
- ARROW-9550 - [Rust] [DataFusion] 从哈希聚合运算符中删除 Rc<RefCell<_>>
- ARROW-9553 - [Rust] 发布脚本不会更新 parquet crate 的 arrow 依赖版本
- ARROW-9557 - [R] 在 R 中迭代 parquet 列很慢
- ARROW-9559 - [Rust] [DataFusion] 恢复 exprlist_to_fields 的私有化
- ARROW-9563 - [Dev][Release] 在为网站创建发布说明时使用 archery 的变更日志生成器
- ARROW-9568 - [CI] 在 GHA 上使用官方 msys 操作
- ARROW-9576 - [Python][Doc] 修复扩展类型代码示例中的错误
- ARROW-9580 - [JS] 文档有多余的 ()
- ARROW-9581 - [Dev][Release] 将下一个快照版本提升到 2.0.0
- ARROW-9582 - [Rust] 实现 Array::memory_size()
- ARROW-9585 - [Rust] 删除 DataFusion 自述文件中重复的待办事项行
- ARROW-9587 - [FlightRPC][Java] 清理 DoPut/FlightStream 内存处理
- ARROW-9593 - [Python] 为 DictionaryScalar 添加自定义 pickle 缩减器
- ARROW-9604 - [C++] 为聚合 min/max 计算内核添加基准测试
- ARROW-9605 - [C++] 优化聚合 min/max 计算内核的性能
- ARROW-9607 - [C++][Gandiva] 为整数添加 bitwise_and()、bitwise_or() 和 bitwise_not() 函数
- ARROW-9608 - [Rust] 从 parquet 的功能门控中删除 arrow flight
- ARROW-9615 - [Rust] 添加计算字符串数组长度的内核
- ARROW-9617 - [Rust] [DataFusion] 添加字符串数组的长度
- ARROW-9618 - [Rust] [DataFusion] 使编写优化器更容易
- ARROW-9619 - [Rust] [DataFusion] 添加谓词下推
- ARROW-9632 - [Rust] 为 ExecutionContextSchemaProvider 添加一个 “new” 方法
- ARROW-9638 - [C++][Compute] 实现 mode(最频繁的数字)内核
- ARROW-9639 - [Ruby] 添加依赖版本检查
- ARROW-9640 - [C++][Gandiva] 为整数和长整数实现 round()
- ARROW-9641 - [C++][Gandiva] 为浮点数和双精度浮点数实现 round()
- ARROW-9645 - [Python] 弃用旧的 pyarrow.filesystem 接口
- ARROW-9646 - [C++][Dataset] 添加对写入 parquet 数据集的支持
- ARROW-9650 - [Packaging][APT] 放弃对 Ubuntu 19.10 的支持
- ARROW-9654 - [Rust][DataFusion] 向 datafusion CLI 添加 EXPLAIN 命令
- ARROW-9656 - [Rust][DataFusion] 当为 CREATE EXTERNAL TABLE 提供不支持的类型时,错误消息略微令人困惑
- ARROW-9658 - [Python][Dataset] 数据集写入的绑定
- ARROW-9665 - [R] 数据集的 head/tail/take
- ARROW-9667 - [CI][Crossbow] 2 个夜间 R 构建中的段错误
- ARROW-9671 - [C++] BasicDecimal128 构造函数将最高位设置为负数的 uint64_t 整数解释为负数
- ARROW-9673 - [Rust] 为 DFParser::parse_sql 添加参数 “dialect”
- ARROW-9678 - [Rust] [DataFusion] 改进投影下推以删除未使用的列
- ARROW-9679 - [Rust] [DataFusion] HashAggregate 多次遍历 map 以构建最终批次
- ARROW-9681 - [Java] 大端平台上 Arrow 内存 - 核心失败
- ARROW-9683 - [Rust][DataFusion] 为 ExecutionPlan trait 实现 Debug
- ARROW-9691 - [Rust] [DataFusion] 使 sql_statement_to_plan 公开
- ARROW-9695 - [Rust][DataFusion] 改进 LogicalPlan 变体的文档
- ARROW-9699 - [C++][Compute] 提高小整数类型模式内核的性能
- ARROW-9701 - [Java][CI] 在 s390x 上添加测试作业
- ARROW-9702 - [C++] 将 bpacking simd 移动到运行时路径
- ARROW-9703 - [开发者][Archery] 用于创建维护分支的可重启 cherry-picking 过程
- ARROW-9706 - [Java] 大端平台上 TestLargeListVector 中的测试失败
- ARROW-9710 - [C++] 推广 Decimal ToString 以准备 Decimal256
- ARROW-9711 - [Rust] 添加基于 TPC-H 的基准测试
- ARROW-9713 - [Rust][DataFusion] 删除显式 panic
- ARROW-9715 - [R] 1.0.1 的变更日志/文档更新
- ARROW-9718 - [Python] 使 pyarrow.parquet 与新的文件系统接口一起工作
- ARROW-9721 - [Packaging][Python] 更新 wheel 依赖文件
- ARROW-9722 - [Rust]: 缩短字典数组反向查找的键生存期
- ARROW-9723 - [C++] 带有 NaN 的 “mode” 内核的预期行为?
- ARROW-9725 - [Rust] [DataFusion] LimitExec 和 SortExec 应该使用 MergeExec
- ARROW-9737 - [C++][Gandiva] 为整数添加 bitwise_xor()
- ARROW-9739 - [CI][Ruby] 不要安装 gem 文档
- ARROW-9742 - [Rust] 创建一个标准的 DataFrame API
- ARROW-9751 - [Rust] [DataFusion] 扩展 UDF 以接受每个参数的多个类型
- ARROW-9752 - [Rust] [DataFusion] 添加对聚合 UDF 的支持
- ARROW-9753 - [Rust] [DataFusion] 删除 ExecutionPlan trait 中 Mutex 的使用
- ARROW-9754 - [Rust] [DataFusion] 在 DataFusion traits 中实现 async
- ARROW-9757 - [Rust] [DataFusion] 使用 “pub use” 来公开干净的公共 API
- ARROW-9758 - [Rust] [DataFusion] 实现 DataFusion 的扩展 API
- ARROW-9759 - [Rust] [DataFusion] 实现 DataFrame::sort
- ARROW-9760 - [Rust] [DataFusion] 实现 DataFrame::explain
- ARROW-9761 - [C++] 将实验性的基于 pull 的迭代器结构添加到 C 接口实现中
- ARROW-9762 - [Rust] [DataFusion] ExecutionContext::sql 应该返回 DataFrame
- ARROW-9769 - [Python] 删除 test_move_file 中内存 fsspec 的跳过
- ARROW-9775 - [C++] 自动 S3 区域选择
- ARROW-9781 - [C++] 修复未初始化值的警告
- ARROW-9782 - [C++][Dataset] 使用 IpcFileFormat 写入 “.feather” 文件的能力
- ARROW-9784 - [Rust] [DataFusion] 改进运行 tpch 基准测试的说明
- ARROW-9786 - [R] 在发布前取消 cpp11
- ARROW-9788 - 处理 SQL、DataFrame API 和结构名称之间的命名不一致
- ARROW-9792 - [Rust] [DataFusion] 逻辑聚合函数不应返回 Result
- ARROW-9794 - [C++] 添加 cpu_info 的功能以区分 Intel 和 AMD x86
- ARROW-9795 - [C++][Gandiva] 在 Gandiva 中实现 castTIMESTAMP(int64)
- ARROW-9806 - [R] 更多计算内核绑定
- ARROW-9807 - [R] 1.0.1 后的新闻更新/版本提升
- ARROW-9808 - [Python] parquet.read_table 文档字符串错误的 use_legacy_dataset 说明
- ARROW-9811 - [C++] 未经检查的浮点数除以 0 应该成功
- ARROW-9813 - [C++] 禁用语义覆盖
- ARROW-9819 - [C++] 将 mimalloc 升级到 1.6.4
- ARROW-9821 - [Rust][DataFusion] 用户定义的 PlanNode / Operator API
- ARROW-9821 - [Rust][DataFusion] 用户定义的 PlanNode / Operator API
- ARROW-9823 - [CI][C++][MinGW] 启用 S3
- ARROW-9832 - [Rust] [DataFusion] 重构 PhysicalPlan 以删除 Partition
- ARROW-9833 - [Rust] [DataFusion] 重构 TableProvider.scan 以返回 ExecutionPlan
- ARROW-9834 - [Rust] [DataFusion] 删除 Partition trait
- ARROW-9835 - [Rust] [DataFusion] 删除 FunctionMeta
- ARROW-9836 - [Rust] [DataFusion] 改进 UDF 使用的 API
- ARROW-9837 - [Rust] 添加变量提供程序
- ARROW-9838 - [Rust] [DataFusion] DefaultPhysicalPlanner 应该插入显式 MergeExec 节点
- ARROW-9839 - [Rust] [DataFusion] 添加将 ExecutionPlan 向下转换为特定运算符的能力
- ARROW-9841 - [Rust] 更新已签入的 flatbuffer 文件
- ARROW-9844 - [Go][CI] 在s390x上为Go添加Travis CI作业
- ARROW-9845 - [Rust] [Parquet] serde_json仅在测试中使用,但不在dev-dependencies中
- ARROW-9848 - [Rust] 实现更改以确保flatbuffer对齐
- ARROW-9849 - [Rust] [DataFusion] 使UDF不再需要字段
- ARROW-9850 - [Go] 不应在循环中使用defer
- ARROW-9853 - [RUST] 为字典数组实现“take”内核
- ARROW-9854 - [R] 支持从/向S3读取/写入数据
- ARROW-9858 - [C++][Python][文档] 扩展FileSystem的用户指南
- ARROW-9863 - [C++] [PARQUET] 优化ApplicationVersion的元数据恢复
- ARROW-9867 - [C++][Dataset] FileSystemDataset应公开其文件系统
- ARROW-9868 - [C++] 提供在文件系统之间复制文件的实用程序
- ARROW-9869 - [R] 实现完整的S3FileSystem/S3Options构造函数
- ARROW-9870 - [R] 文件系统(S3)的友好界面
- ARROW-9871 - [C++] 为ARROW_USER_SIMD_LEVEL添加大写支持。
- ARROW-9873 - [C++][Compute] 改进有限值范围内的整数的mode内核
- ARROW-9875 - [Python] 让FileSystem.get_file_info接受单个路径
- ARROW-9884 - [R] 用于将数据集写入Parquet的绑定
- ARROW-9885 - [Rust] [DataFusion] 简化二进制类型类型强制转换的代码
- ARROW-9886 - [Rust] [DataFusion] 简化测试强制转换的代码
- ARROW-9887 - [Rust] [DataFusion] 添加对内置函数复杂返回类型的支持
- ARROW-9890 - [R] 在macOS构建中添加zstandard压缩编解码器
- ARROW-9891 - [Rust] [DataFusion] 使数学函数支持f32
- ARROW-9892 - [Rust] [DataFusion] 添加对concat的支持
- ARROW-9893 - [Python] 用于将数据集写入Parquet的绑定
- ARROW-9895 - [RUST] 改进排序内核
- ARROW-9899 - [Rust] [DataFusion] 从Box<Schema> –> SchemaRef (Arc<Schema>) 切换,以与Arrow的其余部分保持一致
- ARROW-9900 - [Rust][DataFusion] 在LogicalPlan中使用Arc<>而不是Box<>
- ARROW-9901 - [C++] 为嵌套读取添加手工制作的Parquet到Arrow重建测试
- ARROW-9902 - [Rust] [DataFusion] 添加对array()的支持
- ARROW-9904 - [C++] 手动展开CountSetBits的循环
- ARROW-9908 - [Rust] 在JSON读取器中支持时间数据类型
- ARROW-9910 - [Rust] [DataFusion] Variadic的类型强制转换错误
- ARROW-9914 - [Rust][DataFusion] 记录SQL -> Arrow类型映射
- ARROW-9916 - [RUST] 避免在多个位置克隆ArrayData
- ARROW-9917 - [Python][Compute] 添加mode内核的绑定
- ARROW-9919 - [Rust] [DataFusion] 数学函数
- ARROW-9921 - [Rust] 将`from(Vec<Option<&str>>)` 添加到[Large]StringArray
- ARROW-9925 - [GLib] 为GArrowListArray系列添加低级值读取器
- ARROW-9926 - [GLib] 为GArrowRecordBatchFileReader使用placement new
- ARROW-9928 - [C++] 稍微加快整数解析
- ARROW-9929 - [Developer] 自动调整cmake-format
- ARROW-9933 - [Developer] 为crossbow添加drone作为CI提供程序
- ARROW-9934 - [Rust] 张量中的形状和步幅检查
- ARROW-9941 - [Python] 扩展类型的更好字符串表示
- ARROW-9944 - [Rust] 实现TO_TIMESTAMP函数
- ARROW-9949 - [C++] 通用化Decimal128::FromString,以便在Decimal256中重用
- ARROW-9950 - [Rust] [DataFusion] 允许在没有注册表的情况下使用UDF
- ARROW-9952 - [Python] 使用pyarrow.dataset写入pq.write_to_dataset
- ARROW-9954 - [Rust] [DataFusion] 简化聚合规划的代码
- ARROW-9956 - [C++][Gandiva] 在Gandiva中实现二进制字符串函数
- ARROW-9957 - [Rust] 删除未维护的tempdir依赖项
- ARROW-9961 - [Rust][DataFusion] to_timestamp函数将没有时区偏移的时间戳解析为UTC而不是本地
- ARROW-9964 - [C++] CSV日期支持
- ARROW-9965 - [Java] 固定宽度向量的缓冲区容量计算速度较慢
- ARROW-9966 - [Rust] 加快聚合内核的速度
- ARROW-9967 - [Python] 添加compute模块文档
- ARROW-9971 - [Rust] 加快take的速度
- ARROW-9977 - [Rust] 为[Large]String添加min/max
- ARROW-9979 - [Rust] 修复arrow crate clippy lint
- ARROW-9980 - [Rust] 修复parquet crate clippy lint
- ARROW-9981 - [Rust] 允许使用IpcWriteOptions配置flight IPC
- ARROW-9983 - [C++][Dataset][Python] 为Datasets API使用比32K更大的默认批处理大小
- ARROW-9984 - [Rust] [DataFusion] 函数到字符串的DRY
- ARROW-9986 - [Rust][DataFusion] 当不存在时区时,TO_TIMESTAMP函数错误地要求小数秒
- ARROW-9987 - [Rust] [DataFusion] 改进`Expr`的文档。
- ARROW-9988 - [Rust] [DataFusion] 将std::ops添加到逻辑表达式
- ARROW-9992 - [C++][Python] 基于可重用的转换API重构python到arrow的转换
- ARROW-9998 - [Python] 支持pickle DictionaryScalar
- ARROW-9999 - [Python] 支持通过pa.array()直接构造字典数组
- ARROW-10000 - [C++][Python] 支持从键值对列表构造StructArray
- ARROW-10001 - [Rust] [DataFusion] 在README中添加开发人员指南
- ARROW-10010 - [Rust] 加快算术运算
- ARROW-10015 - [Rust] 为聚合内核sum实现SIMD
- ARROW-10016 - [Rust] [DataFusion] 实现IsNull和IsNotNull
- ARROW-10018 - [CI] 禁用Sphinx和API文档构建,因为它在master上需要6个小时
- ARROW-10019 - [Rust] 添加substring内核
- ARROW-10023 - [Gandiva][C++] 在gandiva中实现Split part函数
- ARROW-10024 - [C++][Parquet] 创建嵌套读取基准
- ARROW-10028 - [Rust] 简化宏def_numeric_from_vec
- ARROW-10030 - [Rust] 支持fromIter和toIter
- ARROW-10035 - [C++] 提升供应商代码的版本
- ARROW-10037 - [C++] 强制查找AWS SDK查找共享库的解决方法
- ARROW-10040 - [Rust] 创建一种切片未对齐偏移缓冲区的方法
- ARROW-10043 - [Rust] [DataFusion] 通过部分实现COUNT(DISTINCT)引入对DISTINCT的支持
- ARROW-10044 - [Rust] 改进README
- ARROW-10046 - [Rust] [DataFusion] 使`*Iterator`实现Iterator
- ARROW-10050 - [C++][Gandiva] 在Gandiva中实现concat(),最多支持10个参数
- ARROW-10051 - [C++][Compute] 使聚合内核合并状态可变
- ARROW-10054 - [Python] 切片方法应返回空数组而不是崩溃
- ARROW-10055 - [Rust] 为NullableIter实现DoubleEndedIterator
- ARROW-10057 - [C++] 为嵌套数据添加Parquet-Arrow往返测试
- ARROW-10058 - [C++] 研究在没有BMI2的情况下LevelsToBitmap的性能
- ARROW-10059 - [R][文档] 提供关于如何设置C++构建的更多建议
- ARROW-10063 - [Archery][CI] 仅当它是拉取请求时才在archery构建中获取main分支
- ARROW-10064 - [C++] 解决Apple Clang 12上的编译警告
- ARROW-10065 - [Rust] DRY 降级数组
- ARROW-10066 - [C++] 确保遵守默认的AWS区域
- ARROW-10068 - [C++] 为aws-sdk-cpp添加捆绑的外部项目
- ARROW-10069 - [Java] 支持从命令行运行Java基准测试
- ARROW-10070 - [C++][Compute] 实现stdev聚合内核
- ARROW-10071 - [R] 使用之前会话或保存的 ArrowObject 时出现段错误
- ARROW-10074 - [C++] 不要使用 string_view.to_string()
- ARROW-10075 - [C++] 不要使用 nonstd::nullopt,这会破坏 vendor 抽象。
- ARROW-10076 - [C++] 对于所有尚未使用的测试,请使用 TemporaryDir。
- ARROW-10077 - [C++] bit_stream_utils.h 乘法中可能发生溢出。
- ARROW-10083 - [C++] 改进 Parquet fuzz seed 语料库
- ARROW-10084 - [Rust] [DataFusion] 添加大型字符串数组的长度
- ARROW-10086 - [Rust] 迁移 min_large_string -> min_string 内核
- ARROW-10090 - [C++][Compute] 改进 mode 内核
- ARROW-10092 - [Dev][Go] 将 grpc 生成的 go 文件添加到 rat 排除列表
- ARROW-10093 - [R] 添加退出 int64 -> int 降级的功能
- ARROW-10095 - [Rust] [Parquet] 更新以适应 IPC 更改
- ARROW-10096 - [Rust] [DataFusion] 删除未使用的代码
- ARROW-10099 - [C++][Dataset] 也允许将整数分区字段进行字典编码
- ARROW-10100 - [C++][Dataset] 能够使用给定的行组 ID 读取/子集化 ParquetFileFragment
- ARROW-10102 - [C++] 通用化 BasicDecimal128::operator*= 以便在 Decimal256 中重用
- ARROW-10103 - [Rust] 添加 Contains 内核
- ARROW-10105 - [FlightRPC] 添加客户端选项以禁用 TLS 的证书验证
- ARROW-10120 - [C++][Parquet] 创建用于读取 2 级嵌套数据的基准测试
- ARROW-10127 - [Format] 更新规范以支持 256 位 Decimal 类型
- ARROW-10129 - [Rust] Cargo 构建正在重建 arrow 更改的依赖项
- ARROW-10134 - [C++][Dataset] 添加 ParquetFileFragment::num_row_groups 属性
- ARROW-10139 - [C++] 添加在不构建测试的情况下构建 arrow_testing 的支持
- ARROW-10148 - [Rust] 向 lib.rs 添加文档
- ARROW-10151 - [Python] 添加 MapArray 到 pandas 转换的支持
- ARROW-10155 - [Rust] [DataFusion] 向 lib.rs 添加文档
- ARROW-10156 - [Rust] 自动标记 PR
- ARROW-10157 - [Rust] 添加关于 take 的更多文档
- ARROW-10160 - [Rust] 改进 DictionaryType 的文档
- ARROW-10161 - [Rust] [DataFusion] 简化表达式测试
- ARROW-10162 - [Rust] 支持在漂亮打印中显示 DictionaryArrays
- ARROW-10164 - [Rust] 添加对 cast 内核的 DictionaryArray 类型支持
- ARROW-10167 - [Rust] 支持在 sql.rs 中显示 DictionaryArrays
- ARROW-10168 - [Rust] [Parquet] 将 arrow schema 转换扩展到投影字段
- ARROW-10171 - [Rust] [DataFusion] 添加 `ExecutionContext::from
` - ARROW-10190 - [Website] 将 Jorge 添加到提交者列表
- ARROW-10191 - [Rust] [Parquet] 为单列批次添加往返测试
- ARROW-10196 - [C++] 添加 Future::DeferNotOk()
- ARROW-10199 - [Rust][Parquet] 在 crates.io 发布 Parquet 以删除调试打印
- ARROW-10201 - [C++][CI] 在 Travis CI 上的 arm64 作业中禁用 S3
- ARROW-10202 - [CI][Windows] 使用 sf.net 镜像用于 MSYS2
- ARROW-10205 - [Java][FlightRPC] 添加客户端选项以禁用服务器验证
- ARROW-10206 - [Python][C++][FlightRPC] 添加客户端选项以禁用服务器验证
- ARROW-10215 - [Rust] [DataFusion] 重命名 “Source” typedef
- ARROW-10217 - [CI] 运行更少的 GitHub Actions 作业
- ARROW-10225 - [Rust] [Parquet] 修复往返测试中的空位图比较
- ARROW-10227 - [Ruby] 使用表大小作为 parquet chunk_size 的默认值
- ARROW-10229 - [C++][Parquet] 删除残留的 ARROW_LOG 语句。
- ARROW-10231 - [CI] 无法在 arm32v7 docker 镜像中下载 minio
- ARROW-10233 - [Rust] 使 array_value_to_string 在所有 Arrow 构建中可用
- ARROW-10235 - [Rust][DataFusion] 改进类型强制的文档
- ARROW-10240 - [Rust] [Datafusion] 可选择在运行基准查询之前将 tpch 数据加载到内存中
- ARROW-10251 - [Rust] [DataFusion] MemTable::load() 应该并行加载分区
- ARROW-10252 - [Python] 添加选项以跳过在 Python 安装中包含 Arrow 头文件
- ARROW-10256 - [C++][Flight] 小心禁用 -Werror
- ARROW-10257 - [R] 为 2.0 版本准备新闻/文档
- ARROW-10260 - [Python] 缺少 MapType 到 Pandas dtype
- ARROW-10263 - [C++][Compute] 提高方差合并的数值稳定性
- ARROW-10265 - [CI] 当缓存不存在于 Travis CI 上时,使用较小的构建
- ARROW-10266 - [CI][macOS] 确保使用 Homebrew 的 Python 3.8
- ARROW-10267 - [Python] 如果 disable_server_verification 功能不可用,则跳过 flight 测试
- ARROW-10272 - [Packaging][Python] 固定较新的 multibuild 版本,以避免更新 homebrew
- ARROW-10273 - [CI][Homebrew] 修复 “brew audit” 用法
- ARROW-10287 - [C++] 尽可能避免 std::random_device
- ARROW-10289 - [Rust] 支持读取字典流
- ARROW-10295 - [Rust] [DataFusion] 简化累加器
- ARROW-10310 - [C++][Gandiva] 在 Gandiva 中添加单参数 round()
- PARQUET-1845 - [C++] 测试用例中的 Int96 内存映像仅假设小端字节序
- PARQUET-1878 - [C++] lz4 编解码器与 Hadoop Lz4Codec 不兼容
- PARQUET-1904 - [C++] 在 RowGroupMetaData 中导出 file_offset