Apache Arrow 5.0.0 (2021 年 7 月 29 日)
这是一个主要版本,涵盖了 3 个多月的开发。
下载
贡献者
此版本包括来自 2 个 Arrow 仓库中 99 位不同贡献者的 684 次提交。
77 David Li
43 Krisztián Szűcs
42 Antoine Pitrou
35 Dominik Moritz
33 Nic Crane
27 Weston Pace
27 Sutou Kouhei
27 Andrew Lamb
23 Jonathan Keane
21 Joris Van den Bossche
17 Jorge C. Leitao
17 Ian Cook
16 João Pedro
15 Jiayu Liu
14 Yibo Cai
14 Alessandro Molina
13 Jorge Leitao
12 Ritchie Vink
12 Benjamin Kietzman
10 niranda perera
10 Wakahisa
10 Matthew Topol
9 Anthony Louis
8 Raphael Taylor-Davies
8 Nate Clark
7 Eduardo Ponce
6 Daniël Heres
5 Neal Richardson
5 Navin
5 Jörn Horstmann
5 Andy Grove
4 crystrix
4 Uwe L. Korn
4 Romain Francois
4 Rok
4 Marco Neumann
4 Ádám Lippai
3 liyafan82
3 frank400
3 Ying Zhou
3 Roee Shlomo
3 Michael Edwards
3 Matthijs Brobbel
3 Alenka Frim
2 Zachary Blackwood
2 Wes McKinney
2 Steven
2 P42
2 Michal Nowakiewicz
2 Kazuaki Ishizaki
2 Karik Isichei
2 Jeroen Ooms
2 Gary Pennington
2 Diana Clarke
2 Bryan Cutler
1 sjgupta2
1 sgilmore
1 ptaylor
1 nullptr
1 kazuhiko kikuchi
1 hulunbier
1 baishen
1 Zimo Zhang
1 Yordan Pavlov
1 Will Jones
1 Steven Burns
1 Stephen
1 Shuai Zhang
1 Ray Bell
1 Projjal Chanda
1 Pachamaltese
1 Nick Bruno
1 Micah Kornfield
1 Menno Siekerman
1 Max Meldrum
1 Mauricio Vargas
1 Marc van Heerden
1 Manish Gill
1 Maarten A. Breddels
1 Lorenz Walthert
1 Linan Qiu
1 Laurent Mazare
1 Kornelijus Survila
1 Kevin Gurney
1 Joris Peeters
1 Jinpeng Zhou
1 Jiangtao Peng
1 Hideaki Hayashi
1 Giordon Stark
1 Gang Liao
1 GALI PREM SAGAR
1 Edd Robinson
1 Dorian Kind
1 Dmitry Patsura
1 Chojan Shang
1 Boaz
1 Ben Chambers
1 Alex Baden
1 Adam Johnson
补丁提交者
以下 Apache 提交者将贡献的补丁合并到 Arrow 仓库中。
96 Antoine Pitrou
69 Sutou Kouhei
63 David Li
59 Krisztián Szűcs
36 Jonathan Keane
33 Benjamin Kietzman
33 Neal Richardson
27 Andrew Lamb
22 Ian Cook
22 Praveen
21 Jorge C. Leitao
19 Yibo Cai
16 Dominik Moritz
16 Joris Van den Bossche
15 Jiayu Liu
12 GitHub
12 Ritchie Vink
11 Micah Kornfield
10 Wakahisa
8 Jorge Leitao
8 Raphael Taylor-Davies
6 Daniël Heres
5 Andy Grove
5 Jörn Horstmann
5 liyafan82
5 Navin
5 Weston Pace
4 Ádám Lippai
4 Marco Neumann
3 Brian Hulette
3 Michael Edwards
3 Roee Shlomo
2 Eric Erhardt
2 Gary Pennington
2 Steven
2 Uwe L. Korn
2 Wes McKinney
1 baishen
1 Ben Chambers
1 Boaz
1 Bryan Cutler
1 Chojan Shang
1 Dmitry Patsura
1 Edd Robinson
1 Gang Liao
1 hulunbier
1 ishizaki
1 Kazuaki Ishizaki
1 kazuhiko kikuchi
1 Kornelijus Survila
1 Laurent Mazare
1 Manish Gill
1 Marc van Heerden
1 Max Meldrum
1 Yordan Pavlov
变更日志
以下变更日志适用于 apache/arrow
仓库。 有关 Apache Arrow 的 Rust 实现,请参阅 apache/arrow-rs
变更日志。
Apache Arrow 5.0.0 (2021-07-28)
Bug 修复
- ARROW-6189 - [Rust] [Parquet] 纯编码的布尔列块限制为 2048 个值
- ARROW-6312 - [C++] 在 arrow.pc 包配置中声明所需的 Libs.private
- ARROW-7948 - [Go][集成] Decimal 集成失败
- ARROW-9594 - [Python] DictionaryArray.to_numpy 未正确地将空索引转换为空值
- ARROW-10910 - [Python] 将 None 提供给具有旧数据集的 read_table 时出现段错误
- ARROW-10958 - [GLib] 通过 glib,而不是通过 pyarrow,“未实现嵌套数据转换”
- ARROW-11077 - [Rust] ParquetFileArrowReader 在尝试读取嵌套列表时发生 panic
- ARROW-11146 - [CI][Python] conda-python-3.8-jpype 夜间构建失败
- ARROW-11161 - [Python][C++] S3Filesystem:文件 Content-Type 未正确设置?
- ARROW-11633 - [CI] [文档] 找不到 Maven 默认皮肤
- ARROW-11780 - [C++][Python] StructArray.from_arrays() 崩溃 Python 解释器
- ARROW-11908 - [Rust] 间歇性 Flight 集成测试失败
- ARROW-12007 - [C++] 加载 parquet 文件返回“Invalid UTF8 payload”错误
- ARROW-12055 - [R] is.na() 在 Arrow NaN 值上评估为 FALSE
- ARROW-12096 - [Python][C++] Pyarrow Parquet 读取器在转换为 Arrow Array (timestamp[ns]) 时溢出 INT96 时间戳
- ARROW-12122 - [Python] 无法通过 pip M1 mac 安装
- ARROW-12142 - [Python] 未定义的符号:_ZN5arrow6StatusC1ENS_10StatusCodeERKNSt7__cxx1112basic_stringIcSt11char_traitsIcESaIcEEE
- ARROW-12150 - [Python] 混合精度 Decimal 的错误类型推断
- ARROW-12232 - [Rust][Datafusion] CAST 错误:不支持的 SQL 类型 Time
- ARROW-12240 - [Python] 来自 apple clang-12 的 invalid-offsetof 警告
- ARROW-12377 - [Doc][Java] Java 文档构建已损坏
- ARROW-12407 - [Python] 构建 PyArrow 时出现弃用警告
- ARROW-12431 - [Python] 当类型为二进制且要转换的值为 numpy 数组时,pa.array 掩码反转
- ARROW-12472 - [Python] 传递 PEP519 文件系统对象时 read_table 失败
- ARROW-12482 - [Doc][Python] 提及 CSVStreamingReader 与类型推断的缺陷
- ARROW-12491 - [Packaging] CentOS RPM 包缺少 LZ4 >= 1.8 的必要依赖项
- ARROW-12503 - [C++] 确保使用“lib/”作为 jemalloc 的库目录
- ARROW-12508 - [R] expect_as_vector 实现导致 R <= 3.3 上的测试失败,并且在未安装 arrow 时在 test_that 之外定义的变量会中断构建
- ARROW-12543 - [CI][Python] conda-python-3.9 夜间构建失败
- ARROW-12568 - [Python][C++] 在 v4.0.0 中转换 int64 的切片 ListArray 时出现段错误
- ARROW-12569 - [R] [CI] 在 CI 中运行 revdep
- ARROW-12570 - [JS] 修复阻止 v4.0.0 发布的的问题
- ARROW-12579 - [Python] Pyarrow 4.0.0 依赖项 numpy 1.19.4 在 Apple silicon/M1 编译时引发错误
- ARROW-12589 - [C++] 当 -DARROW_WITH_BACKTRACE=OFF 时,在 windows 上编译不起作用
- ARROW-12601 - [R][Packaging] 修复 r/configure 中的 pkg-config 检查
- ARROW-12604 - [R][Packaging] 数据集、Parquet 在 autobrew 和 CRAN Mac 构建中关闭
- ARROW-12605 - [Documentation] 修复 dataset.rst 中的行号
- ARROW-12606 - [C++] Quantile 和 Mode 函数在具有偏移量的数组上失败
- ARROW-12610 - [C++] 在 windows 上跳过 TestS3FSGeneric TestDeleteDir 和 TestDeleteDirContents,因为它们不稳定
- ARROW-12611 - [CI][Python] 由于 numpy 兼容性问题,夜间 test-conda-python-pandas-0.24 失败
- ARROW-12613 - [Python] 将标量与 None 进行比较时出现 AttributeError
- ARROW-12614 - [C++][Compute] 恢复 ExecuteScalarExpression 中对表的支持
- ARROW-12617 - [Python] pyarrow.orc.write_table 签名与 pyarrow.parquet.write_table 的签名相反
- ARROW-12620 - [C++] 数据集写入只能包含投影列(如果还包含输入列)
- ARROW-12622 - [Python] 在 Flight 服务器内部读取 CSV 时出现段错误
- ARROW-12630 - [Dev][Integration] conda-integration docker 构建失败
- ARROW-12639 - [CI][Archery] Archery 构建无法创建分支
- ARROW-12640 - [C++] 修复 cpp/src/parquet/types.h 中 VS 2019 引起的错误
- ARROW-12642 - [R] LIBARROW_MINIMAL、LIBARROW_DOWNLOAD、NOT_CRAN 环境变量不应区分大小写
- ARROW-12644 - [C++][Dataset] 支持读取考虑 URL 编码 (Spark) 的日期/时间分区数据集
- ARROW-12646 - [C++][CI][Packaging][Python] 将 vcpkg 版本提升到其最新版本
- ARROW-12663 - [C++] 当 arrow 标头使用 nvcc 11.2 编译时出现段错误
- ARROW-12668 - [C++][Dataset] CountRows 偶尔出现段错误
- ARROW-12670 - [C++] extract_regex 在空值或不匹配后给出奇怪的行为
- ARROW-12672 - [C++] 段错误转换“fill_null()”的结果(不是位图但未知 null_count)
- ARROW-12679 - [Java] JDBC 适配器不保留 SQL-nullability
- ARROW-12684 - [Go][Flight] 修复错误情况下的 nil 解引用
- ARROW-12708 - [C++] 调用 negate_checked 时出现 Valgrind 错误
- ARROW-12729 - [R] 修复 Table、RecordBatch 的 length 方法
- ARROW-12746 - [Go][Flight] 客户端 Auth 处理程序覆盖传出的元数据
- ARROW-12756 - [C++] MSVC 构建因 vcpkg 中的最新 gtest 而失败
- ARROW-12757 - [Dev][Archery] “archery docker run” 中关于 RUST 变量的警告
- ARROW-12762 - [Python] ListType 在 pickle 和 unpickle 后不保留字段名称
- ARROW-12769 - [Python] 负超出范围的切片产生无效数组
- ARROW-12771 - [C++] Arrow 计算 hash_count 跳过流执行中的后续块数组
- ARROW-12772 - [CI] 由于缺少依赖项,合并脚本测试失败
- ARROW-12773 - [Docs] 阐明 Java 通过 JNI 绑定对 ORC 和 Parquet 的支持
- ARROW-12774 - [C++][Compute] replace_substring_regex() 创建无效数组 => 崩溃
- ARROW-12776 - [Archery][Integration] 修复 write_js_test_json 中的 decimal 情况生成
- ARROW-12779 - [Python][FlightRPC] Flight 服务器因某些数据而出现段错误
- ARROW-12780 - [CI][C++] 尝试构建 Gandiva 时,MinGW 构建失败
- ARROW-12790 - [Python] 无法从路径名中带有空格的 HDFS 读取
- ARROW-12793 - [Python] PYARROW_BUILD_TYPE=Debug 无法正常工作
- ARROW-12797 - [JS] 使用新链接更新自述文件并删除过时的示例
- ARROW-12798 - [JS] 使用 == null 比较
- ARROW-12799 - [JS] 使用 Nullish Coalescing Operator (??) 作为默认值
- ARROW-12804 - [C++] Array 方法 IsNull 和 IsValid 与 NullType 混淆
- ARROW-12807 - [C++] 修复与 Future 重构/异步 IPC 的合并冲突
- ARROW-12838 - [Java][Gandiva] 修复 Gandiva 的 JNI CI 测试
- ARROW-12842 - [Java][FlightRPC] 来自 FlightStatusException 的错误元数据未传播到客户端
- ARROW-12850 - [R] is.nan() 在 Arrow 空值上评估为 null
- ARROW-12854 - [Dev][Release] Windows wheel 验证脚本无法下载构件
- ARROW-12857 - [C++] hash_aggregate_test 未在 master 上构建
- ARROW-12864 - [C++] 从 arrow::internal::InvertBitmap 中删除不必要的 out 参数
- ARROW-12865 - [C++][Python] Python FlightRPC 服务器无法找到 RE2 符号
- ARROW-12882 - [C++][Gandiva] 修复空替换字符的 convevrt_replace 函数行为
- ARROW-12887 - [CI] AppVeyor 在设置期间 pip 安装失败
- ARROW-12906 - [Python] 使用 null 值调用 `fill_null` 会在非固定大小的类型上发生段错误。
- ARROW-12907 - [Java] 从通道读取时发生异常可能导致内存泄漏
- ARROW-12911 - [Python] 将标量聚合选项导出到 pc.sum(零行的总和给出 null;应给出 0)
- ARROW-12917 - [C++][R][pyarrow] 使用 C 数据接口导入某些十进制类型失败
- ARROW-12918 - [C++] 使用 Visual Studio 16.10.31321.278 构建错误
- ARROW-12919 - [Developer Tools] Crossbow 评论机器人无法对评论做出反应
- ARROW-12935 - [C++][CI] 某些 clang 版本上的编译器错误
- ARROW-12941 - [C++] csv reader skip_row 未正确更新 num_rows_seen
- ARROW-12942 - [C++][Compute] 如果后续块中存在新组,则 Arrow compute hash_min_max 的结果不正确
- ARROW-12956 - [C++] 修复 Parquet 文件上的崩溃 (OSS-Fuzz)
- ARROW-12969 - [C++] match_substring 不匹配空 needle 到空 haystack
- ARROW-12974 - [R] test-r-without-arrow 构建失败,因为示例需要 Arrow
- ARROW-12983 - [C++][Python] Converter::Extend 卡在无限循环中,如果值不适合单个块,则导致 OOM
- ARROW-12987 - [CI] test-ubuntu-18.04 nightly 构建由于 Gandiva “TestUpper” 测试失败而失败
- ARROW-12988 - [CI] kartothek nightly 集成构建失败 (test_update_dataset_from_ddf_empty)
- ARROW-12988 - [CI] kartothek nightly 集成构建失败 (test_update_dataset_from_ddf_empty)
- ARROW-12989 - [CI] “Dev PR” 作业被不必要地取消
- ARROW-12991 - [CI] Travis ARM 构建经常崩溃
- ARROW-12993 - [Python] 使用无效的 Feather 文件和 stackprinter 解决边界错误
- ARROW-12995 - [C++] CSV 读取器应验证选项
- ARROW-12998 - [C++] Datasets 需要依赖 xsimd
- ARROW-13001 - [Go] 在 s390x 上 parquet/internal/bmi 中构建失败
- ARROW-13003 - [C++] compute/exec/ cc 文件中的未对齐访问
- ARROW-13008 - [C++] 编译最小示例时的弃用警告
- ARROW-13010 - [C++][Compute] 支持从 kleene 内核输出到切片
- ARROW-13018 - [C++][Docs] 在标量聚合内核中使用一致的术语表示 null(min_count)
- ARROW-13026 - [C++][CI] s390x 作业设置失败
- ARROW-13037 - [R] 创建 Expression 时参数不正确导致 R 崩溃
- ARROW-13039 - [R] 修复错误消息处理
- ARROW-13041 - [C++] 一元内核可以在 null 条目下留下未初始化的数据
- ARROW-13046 - [Release] JS 包在发布前测试失败
- ARROW-13048 - [C++] S3FileSystem 移动包含 = 或 + 的文件路径失败
- ARROW-13053 - [Python] 在使用 homebrewed Arrow 库的 MacOS Big Sur 上构建失败
- ARROW-13069 - [Website] 将 Daniël 添加到 committer 列表中
- ARROW-13073 - [Developer] archery benchmark list:意外的关键字 ‘benchmark_filter’
- ARROW-13080 - [Release] 在 ubuntu 20.10 中生成 API 文档
- ARROW-13083 - [Python] setup.py 和 crossbow 中的错误 SCM 版本检测
- ARROW-13085 - [Python] Apache Arrow minimal cpp build 使用 pyarrow libs 发生段错误
- ARROW-13090 - [Python] 使用 ffspec 2021.6.0 测试失败
- ARROW-13104 - [C++] ByteStreamSplit 实现使用无效的指针转换
- ARROW-13108 - [Python] Pyarrow 4.0.0 在 macOS 10.13.6 上导入时崩溃
- ARROW-13116 - [R] 由于缺少依赖项,RecordBatchReader 到 C 接口的测试在 arrow-r-minimal 上失败
- ARROW-13125 - [R] 当 2+ args 传递给 arrange() 中的 desc() 时抛出错误
- ARROW-13128 - [C#] TimestampArray 的 nano 和 micro 转换逻辑错误
- ARROW-13135 - [C++] 修复 END_PARQUET_CATCH_EXCEPTIONS 中的 Status 传播
- ARROW-13139 - [C++] ReadaheadGenerator 无法安全地复制/移动
- ARROW-13145 - [C++][CI] Flight 测试在 MinGW 上崩溃
- ARROW-13148 - [Dev][Archery] Crossbow 构建提交失败
- ARROW-13153 - [C++] `parquet_dataset` 丢失 `_metadata` 中文件的排序
- ARROW-13154 - [C++] Unions 不能将 126 和 127 作为 type_codes
- ARROW-13169 - [R] [C++] 排序的分区键可能导致问题
- ARROW-13173 - [C++] TestAsyncUtil.ReadaheadFailed 偶尔会断言
- ARROW-13187 - [c++][python] 在 CSV 中读取时可能未释放内存
- ARROW-13189 - [R] 禁用数据集上的行级元数据应用
- ARROW-13203 - [R] 修复可选组件检查导致失败
- ARROW-13207 - [Python][Doc] 数据集文档仍然建议将弃用的 scan 方法作为首选的迭代方法
- ARROW-13216 - [R] 类型检查测试在 rtools35 上失败
- ARROW-13217 - [C++][Gandiva] 更正字符串开头无效字符的 convert_replace 函数
- ARROW-13223 - [C++][CI] 修复线程清理器失败
- ARROW-13225 - [Go][Flight] 实现自定义中间件接口并启用集成测试
- ARROW-13229 - [Python] ascii_trim、ascii_ltrim 和 ascii_rtrim 缺少选项
- ARROW-13239 - [Doc][Python] Dataset.head 函数未提及必需参数
- ARROW-13243 - [R] R 3.5 中的 altrep 函数调用
- ARROW-13246 - [C++] CSV skip_rows_after_names 可能过早丢弃数据
- ARROW-13249 - [Java][CI] Java JNI 构建中的一致超时
- ARROW-13253 - [C++][FlightRPC] 发送 record batch >2GB 时发生段错误
- ARROW-13254 - [Python] 读取 pandas 数据时进程被杀死并且信号量对象泄漏
- ARROW-13265 - [R] nightlies 中的 cli valgrind 错误
- ARROW-13266 - [JS] 改进基准测试名称并向 json 添加套件名称
- ARROW-13281 - [C++][Gandiva] 负 diff 值的 timestampDiffMonth 函数行为错误
- ARROW-13284 - [C++] 错误的 pkg_check_modules() 选项名称
- ARROW-13288 - [Python] PyArrow 中缺少内核选项的默认值
- ARROW-13290 - 由于缺少 include,在 clang-12 和 gcc-11 上编译失败
- ARROW-13305 - [C++] 由于 CSV 选项,无法在 Ubuntu 21.04 上安装 nightly
- ARROW-13315 - [R] 使用 ARROW_R_WITH_ARROW 检查包装 r_task_group includes
- ARROW-13321 - [C++][Python] MakeArrayFromScalar 不适用于 FixedSizeBinaryType
- ARROW-13324 - [R] utf8_reverse 和 ascii_reverse 绑定的拼写错误
- ARROW-13332 - [C++] TestAsyncUtil.ReadaheadFailed 中的 TSAN 失败
- ARROW-13341 - [C++] arrow-compute-plan-test ExecPlanExecution.SourceScalarAggSink 中的段错误
- ARROW-13350 - [Python][CI] conda-python-3.7-pandas-0.24 nightly 构建在 test_extract_datetime_components 中失败
- ARROW-13352 - [C++] case_when 内核中的 Valgrind 失败
- ARROW-13353 - [Documentation] 使用 sphinx.util.cfamily.DefinitionError 构建失败
- ARROW-13360 - [C++] C++ thirdparty 离线依赖 versions.txt 中缺少依赖项
- ARROW-13363 - [R] is.nan() 在非浮点数据上出错
- ARROW-13368 - [C++][Doc] 在文档中将项目重命名为 make_struct
- ARROW-13381 - [C++] ArrayFromJSON 不适用于浮点值字典类型
- ARROW-13382 - [C++] 标量上的聚合失败 autobrew R 作业
- ARROW-13384 - [C++] 在 cmake 中指定所需的最低 zstd 版本
- ARROW-13391 - [C++] CSV 流读取器不包含与表读取器相同的错误信息
- ARROW-13417 - [C++] 合并的生成器有时可以从源同步重入中拉取
- ARROW-13419 - [JS] 修复性能测试
- ARROW-13428 - [C++][Flight] 使用捆绑的 gRPC 和系统共享的 OpenSSL 时缺少 -lssl
- ARROW-13431 - [Release] 将 go 版本提升到 1.15;不再验证 rust 源代码
- ARROW-13432 - [Release] 修复与二进制上传器容器的 ssh 连接
- ARROW-13450 - [Python][Packaging] 为 universal2 wheels 设置部署目标为 10.13
新特性和改进
- ARROW-2665 - [Python/C++] 添加 index() 方法以查找 Python 标量的首次出现
- ARROW-3014 - [C++] ORC 文件格式的最小写入器适配器
- ARROW-3316 - [R] 从R data.frame到Arrow表/记录批次的多线程转换
- ARROW-5385 - [Go] 实现EXTENSION数据类型
- ARROW-5640 - [Go] 实现Map数组
- ARROW-6513 - [CI] conda环境变量文件arrow/ci/conda_env_*.yml应该使用.txt扩展名
- ARROW-6513 - [CI] conda环境变量文件arrow/ci/conda_env_*.yml应该使用.txt扩展名
- ARROW-7001 - [C++] 开发线程API以适应嵌套并行
- ARROW-7114 - [JS][CI] NodeJS构建在Github Actions Windows节点上失败
- ARROW-7252 - [Rust] [Parquet] 读取UTF-8/JSON/ENUM字段会导致大量vec分配
- ARROW-7396 - [Format] 向IANA注册Apache Arrow格式的媒体类型(MIME类型)
- ARROW-8421 - [Rust] [Parquet] 实现parquet writer
- ARROW-8459 - [Dev][Archery] 使用更新版本的cmake-format
- ARROW-8527 - [C++][CSV] 添加对ReadOptions::skip_rows >= block_size的支持
- ARROW-8655 - [C++][Dataset][Python][R] 为发现的Dataset保留分区信息
- ARROW-8676 - [Rust] 创建来自ARROW-300的IPC RecordBatch body buffer压缩的实现
- ARROW-9054 - [C++] 添加ScalarAggregateOptions
- ARROW-9056 - [C++] 支持标量上的标量聚合
- ARROW-9140 - [R] 尽可能将Arrow零拷贝到R
- ARROW-9295 - [Archery] 在lint命令中支持rust clippy
- ARROW-9299 - [Python] 在Python ORCFile中公开ORC metadata()
- ARROW-9313 - [Rust] 使用feature enum
- ARROW-9421 - [C++][Parquet] 冗余 SchemaManifest::GetFieldIndices
- ARROW-9430 - [C++/Python] SetItem(BooleanArray, values)的Kernel
- ARROW-9697 - [C++][Dataset] Dataset/Scanner的num_rows方法
- ARROW-10031 - [Java] 在Archery中支持Java基准测试
- ARROW-10115 - [C++] CSV空引用字符串被视为NULL
- ARROW-10316 - [Python] 考虑使用__wrapped__进行计算函数内省
- ARROW-10391 - [Rust] [Parquet] 嵌套Arrow reader
- ARROW-10440 - [C++][Dataset][Python] 添加一个回调,在Finish()之前访问文件写入器
- ARROW-10550 - [Rust] [Parquet] 写入嵌套类型(struct, list)
- ARROW-10557 - [C++] 添加标量字符串切片/子字符串提取内核
- ARROW-10640 - [C++] 一个“if_else”内核,用于基于掩码组合两个数组
- ARROW-10658 - [Python][Packaging] Apple Silicon的Wheel构建
- ARROW-10675 - [C++][Python] 支持AWS S3 Web身份凭证
- ARROW-10797 - [C++] 调查用于测试和基准测试的更快的随机数生成
- ARROW-10926 - [Rust] 为decimal类型添加parquet reader / writer
- ARROW-10959 - [C++] 添加标量字符串连接内核
- ARROW-11061 - [Rust] 根据模式验证数组属性
- ARROW-11173 - 在FieldReader / FieldWriter中添加Map类型作为reader / writer
- ARROW-11199 - [C++][Python] 修复ORC reader的单元测试
- ARROW-11206 - [C++][Compute][Python] 将“project”内核重命名为“make_struct”
- ARROW-11342 - [Python] [Gandiva] 公开ToString和结果类型信息
- ARROW-11499 - [Packaging] 删除所有bintray的使用
- ARROW-11514 - [R][C++] paste(), paste0(), str_c()的绑定
- ARROW-11515 - [R] strsplit的绑定
- ARROW-11565 - [C++][Gandiva] 修改upper()/lower()以使用UTF8并添加INIT_CAP函数
- ARROW-11608 - [CI] turbodbc集成测试失败(构建问题)
- ARROW-11660 - [C++] 将RecordBatch::SelectColumns方法从R移动到C++库
- ARROW-11673 - [C++] 转换字典类型以使用不同的索引类型
- ARROW-11675 - [CI][C++] 解决VS 2019构建中的ctest失败
- ARROW-11705 - [R] 支持RecordBatch/Table$create()中的标量值回收
- ARROW-11748 - [C++] 确保Decimal128和Decimal256的字段采用本机字节序
- ARROW-11759 - [C++] 从时间戳类型中提取日期时间组件(年、月、日等)的内核
- ARROW-11769 - [R] 将组从grouped_df拉入RecordBatch或Table
- ARROW-11772 - [C++] 向ipc::RecordBatchFileReader添加异步读取
- ARROW-11782 - [GLib][Ruby][Dataset] 删除内部类的绑定
- ARROW-11787 - [R] 实现写入csv
- ARROW-11843 - [C++] 向parquet::arrow::FileReader添加异步读取
- ARROW-11849 - [R] 在R文档中使用roxygen @examplesIf标签
- ARROW-11889 - [C++] 向流式CSV reader添加并行性
- ARROW-11909 - [C++] 摆脱MakeIteratorGenerator
- ARROW-11926 - [R] 通过新的UCRT CRAN windows构建
- ARROW-11926 - [R] 通过新的UCRT CRAN windows构建
- ARROW-11928 - [C++][Compute] 添加ExecNode层次结构
- ARROW-11929 - [C++][Compute] 将Expression提升到计算命名空间
- ARROW-11930 - [C++][Dataset][Compute] 重构数据集扫描以使用ExecNode图
- ARROW-11932 - [C++] 提供ArrayBuilder::AppendScalar
- ARROW-11950 - [C++][Compute] 添加一元负内核
- ARROW-11960 - [C++][Gandiva] 支持LIKE中的转义
- ARROW-11980 - [Python] 从Table.replace_schema_metadata中删除“experimental”状态
- ARROW-11986 - [C++][Gandiva] 为double和float实现IN表达式
- ARROW-11990 - [C++][Compute] 始终如一地使用Status/Result返回来指示错误
- ARROW-12004 - [C++] Result<detail::Empty> 很烦人
- ARROW-12010 - [C++][Compute] 提高GroupIdentifier中使用的哈希表的性能
- ARROW-12016 - [C++] 为BOOL类型实现array_sort_indices和sort_indices
- ARROW-12050 - [C++][Python][FlightRPC] 使用StopToken来中断长时间的Flight操作
- ARROW-12074 - [C++][Compute] 为decimal输入添加标量算术内核
- ARROW-12083 - [R] open_dataset中的schema使用
- ARROW-12166 - [C++][Gandiva] 实现CONVERT_TO(value, type)函数
- ARROW-12184 - [R] na.fail, na.omit, na.exclude, na.pass的绑定
- ARROW-12185 - [R] any, all的绑定
- ARROW-12198 - [R] strptime的绑定
- ARROW-12199 - [R] stddev, variance的绑定
- ARROW-12205 - [C++][Gandiva] 实现TO_TIME([number] secs) 和 TO_TIMESTAMP([number] secs) 函数
- ARROW-12231 - [C++][Dataset] 将读取器支持的数据集与InMemoryDataset分离
- ARROW-12253 - [Rust] [Ballista] 实现可扩展的连接
- ARROW-12255 - [Rust] [Ballista] 将调度程序与DataFusion集成
- ARROW-12256 - [Rust] [Ballista] 添加DataFrame支持
- ARROW-12257 - [Rust] [Ballista] 将用户指南发布到Arrow网站
- ARROW-12261 - [Rust] [Ballista] Ballista不应该有自己的DataFrame API
- ARROW-12291 - [R] 确定未评估表达式的类型
- ARROW-12310 - [Java] ValueVector#getObject 应该支持复杂类型的协变
- ARROW-12355 - [C++] 实现高效的异步CSV扫描
- ARROW-12362 - [Rust] [DataFusion] topk_query 测试失败
- ARROW-12364 - [Python] [Dataset] 向 ds.write_dataset() 添加 metadata_collector 选项
- ARROW-12378 - [C++][Gandiva] 实现 castVARBINARY 函数
- ARROW-12386 - [C++] 在AsyncScanner中支持文件并行
- ARROW-12391 - [Rust][DataFusion] 实现 date_trunc() 函数
- ARROW-12392 - [C++] 恢复异步流式CSV reader
- ARROW-12393 - [JS] 以最佳方式使用closure compiler
- ARROW-12403 - [Rust] [Ballista] 集成测试应该检查查询结果是否正确
- ARROW-12415 - [CI] [Python] 错误:构建ARM64上的pygit2的wheel失败
- ARROW-12424 - [Go][Parquet] 添加 Schema 包
- ARROW-12428 - [Python] pyarrow.parquet.read_* 应该使用 pre_buffer=True
- ARROW-12434 - [Rust] [Ballista] 显示带有指标的已执行计划
- ARROW-12442 - [CI] 在 GitHub Actions 上设置作业超时
- ARROW-12443 - [C++][Gandiva] 为二进制输入实现 castVARCHAR 函数
- ARROW-12444 - [RUST] [CI] 移除 Rust 并将集成测试指向 arrow-rs 仓库
- ARROW-12445 - [Rust] 设计并实现打包流程,将 Rust 打包到已签名的 tar 文件中
- ARROW-12468 - [Python][R] 将 UseAsync 暴露给 python/R
- ARROW-12478 - [C++] 支持 LLVM 12
- ARROW-12484 - [CI] 更改 jinja 宏,使其不需要 CROSSBOW_TOKEN 即可在 Github Actions 中上传 artifacts
- ARROW-12489 - [开发者] autotune 已损坏
- ARROW-12490 - [开发] 对所有平台使用 miniforge
- ARROW-12492 - [Python] 添加一个辅助方法,将 DictionaryArray 解码回一个普通的 Array
- ARROW-12496 - [C++][Dataset] 确保 Scanner 测试完全覆盖异步
- ARROW-12499 - [C++][Compute][R] 将 ScalarAggregateOptions 添加到 Any 和 All kernels
- ARROW-12500 - [C++][Dataset] 合并文件格式的相似测试
- ARROW-12501 - [CI][Ruby] 移除 MinGW 构建的不必要的解决方法
- ARROW-12507 - [CI] 移除重复的 cron/nightly 构建
- ARROW-12512 - [C++][Dataset] 实现 CSV 写入支持
- ARROW-12514 - [Release] 不要使用 ARROW_GANDIVA=OFF 运行 Gandiva 相关的 Ruby 测试
- ARROW-12517 - [Go] 在 Flight 客户端中暴露 App Metadata
- ARROW-12518 - [Python] 暴露 Parquet 统计信息的 has_null_count / has_distinct_count
- ARROW-12520 - [R] 细微的文档更新
- ARROW-12522 - [C++] 实现 ReadRangeCache 的异步/“懒惰”变体
- ARROW-12525 - [JS] Vector toJSON 返回一个数组
- ARROW-12527 - [开发] 不要尝试获取 MINOR PR 的 JIRA 信息
- ARROW-12528 - [JS] 在 Table.new 中支持类型化数组
- ARROW-12530 - [C++] 移除 Buffer::mutable_data_ 成员,并且只有在 is_mutable_ 为 true 时才在 data_ 上使用 const_cast
- ARROW-12533 - [C++] 使用 clang 构建时,Arm64 Linux 上的随机实数生成器速度较慢
- ARROW-12534 - [C++][Gandiva] 在 Gandiva 上为字符串输入值实现 LEFT 和 RIGHT 函数
- ARROW-12537 - [JS] 文档构建不应包含测试源
- ARROW-12541 - [文档] 改进新文档主题中表格的样式/可读性
- ARROW-12551 - [Java][Release] 由于缺少测试数据,Java 发布后测试失败
- ARROW-12554 - 允许 compute::is_in 的 value_set 中存在重复项
- ARROW-12555 - [Java][Release] Java 发布后脚本缺少 dataset JNI 绑定
- ARROW-12556 - [C++][Gandiva] 在 Gandiva 上实现 BYTESUBSTRING 函数
- ARROW-12560 - [C++] 调查在将回调添加到已完成的 future 时,利用积极的线程任务创建
- ARROW-12567 - [C++][Gandiva] 为字符串输入值实现 LPAD 和 RPAD 函数
- ARROW-12567 - [C++][Gandiva] 为字符串输入值实现 LPAD 和 RPAD 函数
- ARROW-12571 - [R][CI] 使用 valgrind 运行 nightly R
- ARROW-12575 - [R] 使用一元负内核
- ARROW-12577 - [网站] 在所有地方使用 Artifactory 而不是 Bintray
- ARROW-12578 - [JS] 简化 NodeJS 中的 UTF8 处理
- ARROW-12581 - [C++][FlightRPC] 使用真实数据对压缩进行基准测试
- ARROW-12584 - [C++][Python] 暴露基准测试工具从分配器释放未使用的内存的方法
- ARROW-12591 - [Java][Gandiva] 为 MacOS 和 Linux 创建单个 Gandiva jar
- ARROW-12593 - [打包][Ubuntu] 添加对 Ubuntu 21.04 的支持
- ARROW-12597 - [C++] 实现 OptionalParallelForAsync
- ARROW-12598 - [C++][Dataset] 实现 CSV 的行计数或允许从 CSV 中选择 0 列
- ARROW-12599 - [文档][Python] 缺少 pyarrow.Table 的文档
- ARROW-12600 - [CI] 从 crossbow 任务推送 docker 镜像
- ARROW-12602 - [R] 将 C++ 中的 BuildInfo 添加到 arrow_info
- ARROW-12608 - [C++] 添加 split_pattern_regex 函数
- ARROW-12612 - [C++][Compute] 将 Expression 添加到 type_fwd.h
- ARROW-12619 - [Python] pyarrow sdist 不应需要 git
- ARROW-12621 - [C++][Gandiva] 向 sha1 和 sha256 函数添加别名
- ARROW-12631 - [Python] pyarrow.dataset.write_table 应该接受 Scanner 来写入
- ARROW-12643 - 添加实验性仓库的文档
- ARROW-12645 - [Python] 修复 numpydoc 验证
- ARROW-12648 - [C++][FlightRPC] 允许在基准测试中使用 TLS
- ARROW-12649 - [Python/打包] 将 conda-aarch64 移动到 Azure 并进行交叉编译
- ARROW-12653 - [Archery] 允许我向 crossbow 请求添加注释
- ARROW-12658 - [C++] 将 aws-c-common 升级到 v0.5.10
- ARROW-12660 - [R] CRAN 的 4.0 之后的调整
- ARROW-12661 - [C++] CSV 添加在列名后跳过行
- ARROW-12662 - [网站] 强制使用 squash merge
- ARROW-12667 - [Python] 确保对步长 numpy 数组的转换进行测试覆盖
- ARROW-12675 - [C++] CSV 应该在解析错误消息中包含行/列号
- ARROW-12677 - [Python] 向 pyarrow.StructArray.from_arrays 添加一个 mask 参数
- ARROW-12685 - [C++][Compute] 添加一元绝对值内核
- ARROW-12686 - [C++][Python][FlightRPC] 支持在 DoGet 中 export_to_c/继承自 RecordBatchReader
- ARROW-12687 - [C++][Python][Dataset] 支持带有 Scanner 的 C Data Interface
- ARROW-12689 - [R] 实现 ArrowArrayStream C 接口
- ARROW-12692 - [R] 改进 strsplit() 绑定的测试和注释
- ARROW-12694 - [R][CI] rtools35 作业在 32 位构建测试中失败
- ARROW-12696 - [R] 改进转换为警告的错误消息的测试
- ARROW-12699 - [CI][打包][Java] 为所有 Arrow 组件生成与 Linux 和 MacOS 兼容的 jar
- ARROW-12701 - [网站][Release] 在发布说明中包含 Rust 贡献者、提交者和提交
- ARROW-12702 - [JS] 升级 Webpack 和 terser
- ARROW-12703 - [JS] 将 Table 与 DataFrame 分离
- ARROW-12704 - [JS] 使用可选链式调用
- ARROW-12709 - [C++] 添加可变参数字符串连接内核
- ARROW-12713 - [C++] 字符串反转内核
- ARROW-12715 - [C++] SQL 风格的 glob 字符串匹配内核
- ARROW-12716 - [C++] 左/右/中心字符串填充内核
- ARROW-12717 - [C++] 子字符串查找位置内核
- ARROW-12719 - [C++][Python] pyarrow.fs.S3FileSystem 传递额外的 kwargs,例如 ACL
- ARROW-12721 - [CI] 修复从 nightly 构建上传 aarch64 conda artifacts 的路径
- ARROW-12722 - [R] 尝试打印具有重复命名的表时引发错误
- ARROW-12730 - [MATLAB] 更新 featherreadmex 和 featherwritemex 以针对最新的 arrow c++ API 构建
- ARROW-12731 - [R] 在 dplyr 代码中使用 InMemoryDataset 作为 Table/RecordBatch
- ARROW-12736 - [C++] 消除 FieldPath::Get() 中不必要的复制
- ARROW-12738 - [CI] [Gandiva] azure-conda-osx-clang-py38(以及 py39, py*-r*)中的 Nightly 构建错误
- ARROW-12741 - [CI] 为 Nightly 构建配置 GitHub Token
- ARROW-12745 - [C++][Compute] 添加 floor、ceiling 和 truncate 内核
- ARROW-12749 - [C++] 从左值构造 RecordBatch/Table/Schema 导致不必要的复制
- ARROW-12750 - [CI] [R] 实际上传递参数化的 docker 选项给模板
- ARROW-12751 - [C++] 添加可变参数的按行 min/max 内核(least/greatest)
- ARROW-12758 - [R] 向更多函数文档添加示例
- ARROW-12759 - [C++][Compute] 将分组聚合包装在 ExecNode 中
- ARROW-12760 - [C++][Python][R] S3FileSystem:IO 线程并行性限制为 8 个线程
- ARROW-12761 - [R] 更好的 write_to_raw 错误处理
- ARROW-12764 - [CI] 修复 Conda Windows 构建中的参数
- ARROW-12777 - [R] 在 match_arrow 和 is_in 中将所有输入转换为 Arrow 对象
- ARROW-12781 - [R] 为 dplyr 实现 is.type() 函数
- ARROW-12785 - [CI] 当 brew 安装 gcc 时,r-devdocs 构建出错
- ARROW-12791 - [R] 当未指定格式时,DatasetFactory$Finish() 更好的错误处理
- ARROW-12796 - [JS] 支持来自基准测试的 JSON 输出
- ARROW-12800 - [JS] 删除 IE 支持并移除 text encoder 和 decoder polyfills
- ARROW-12801 - [CI][打包][Java] 在生成 Arrow jar 的脚本中包含所有模块
- ARROW-12806 - [Python] test_write_to_dataset_filesystem 缺少 dataset 标记
- ARROW-12808 - [JS] 文档浏览器支持
- ARROW-12810 - [Python] 使用 AWS_EC2_METADATA_DISABLED=true 运行测试
- ARROW-12812 - [打包][Java] 改进 JNI jars 构建
- ARROW-12824 - [R][CI] 升级 R 4.1 版本的构建
- ARROW-12827 - [C++] [Dataset] 审查 datasets API 中的错误传递
- ARROW-12829 - [GLib][Ruby] 添加对 Apache Arrow Flight 的支持
- ARROW-12831 - [CI][macOS] 移除不必要的 Homebrew 解决方法
- ARROW-12832 - [JS] 在 TypeScript 中编写基准测试
- ARROW-12833 - [JS] 在 JS 中构建性能数据
- ARROW-12835 - [C++] 在 match_substring(_regex) 和 match_like 中实现不区分大小写的匹配
- ARROW-12836 - [C++] 由于 CxxFlags,在 IBM i 上的安装失败
- ARROW-12841 - [R] 向更多函数文档添加示例 - 第 2 部分
- ARROW-12843 - [C++][Compute] 为浮点数组添加 is_inf 内核
- ARROW-12848 - [Release] 邮件模板指向 404
- ARROW-12851 - [Go][Parquet] 添加编码包第 1 部分
- ARROW-12856 - [C++][Gandiva] 在 Gandiva 上实现 castBIT 和 castBOOLEAN 函数
- ARROW-12859 - [C++] 添加 ScalarFromJSON 以方便测试
- ARROW-12861 - [C++][Compute] 添加 sign 函数内核
- ARROW-12867 - [R] abs() 的绑定
- ARROW-12868 - [R] find_substring 和 find_substring_regex 的绑定
- ARROW-12869 - [R] utf8_reverse 和 ascii_reverse 的绑定
- ARROW-12870 - [R] stringr::str_like 的绑定
- ARROW-12875 - [JS] 升级 Jest 和其他小更新
- ARROW-12883 - [R] [CI] 版本兼容性在 R 4.1 上失败
- ARROW-12891 - [C++][Compute][Dataset] 将子树修剪逻辑提取到 compute:
- ARROW-12894 - [R] 提升 R 版本
- ARROW-12895 - [CI] 在 Github Actions 上使用“concurrency”设置
- ARROW-12898 - [Release][C#] 包上传脚本已损坏
- ARROW-12900 - [Python][Documentation] 在 Reading Datasets 文档中导入 np
- ARROW-12901 - [R] 更多示例的后续
- ARROW-12909 - [R][Release] ubuntu-docs 的构建失败
- ARROW-12912 - [Website] 使用 .asf.yaml 进行发布
- ARROW-12915 - [Release] ubuntu-docs 的构建在 thrift 上失败
- ARROW-12936 - [C++][Gandiva] 在 Gandiva 上实现 ASCII Hive 函数
- ARROW-12937 - [C++] 允许为新的 S3 文件指定默认元数据
- ARROW-12939 - [R] 简化 RTask 停止处理
- ARROW-12940 - [R] 将 C 接口公开为 R6 方法
- ARROW-12948 - [C++] 添加字符串切片替换内核
- ARROW-12949 - [C++] 添加字符串 starts-with/ends-with 内核
- ARROW-12950 - [C++] 添加子字符串计数内核
- ARROW-12951 - [C++] 重构 StringTransform
- ARROW-12952 - [C++] 添加正则表达式计数内核
- ARROW-12955 - [C++] 为 if_else 内核添加额外的类型支持
- ARROW-12957 - [R] cran 上的 rchk 问题
- ARROW-12961 - [C++] MSVC 问题警告在 Windows 上构建 PyArrow
- ARROW-12962 - [GLib][Ruby] 添加 Arrow:Scalar
- ARROW-12964 - [R] 为 ifelse() 和 if_else() 添加绑定
- ARROW-12966 - [Python] 公开 ElementWiseAggregateOptions 的 Python 绑定
- ARROW-12967 - [R] 为 pmin() 和 pmax() 添加绑定
- ARROW-12968 - [R] [CI] 向我们的 nightly 构建添加 rchk 作业
- ARROW-12972 - [CI] ][C++] CentOS + ARM64 上的 archive_write_add_filter_zstd 错误
- ARROW-12975 - [C++][Python] if_else 内核不支持向上转型
- ARROW-12982 - [C++] 重新启用 unused-variable 警告
- ARROW-12984 - [C++] 通过引用传递 Count/Index 聚合的 options 参数
- ARROW-12985 - [Python][Packaging] 无法在 arm64 wheel 构建中安装 pygit2
- ARROW-12986 - [C++][Gandiva] 在 Gandiva 中实现新的缓存驱逐策略
- ARROW-12992 - [R] substr(), substring(), str_sub() 的绑定
- ARROW-12994 - [R] 修复假定 UTC 本地 tz 的测试
- ARROW-12996 - [C++] CSV 流读取器没有进度指示
- ARROW-13002 - [C++] 在 CMake 中添加 utf8proc 版本的检查
- ARROW-13005 - [C++] 支持 union 数据类型的 filter/take。
- ARROW-13006 - [C++][Gandiva] 在 Gandiva 上实现 BASE64 和 UNBASE64 Hive 函数
- ARROW-13009 - [Doc][Dev] 文档构建邮件列表
- ARROW-13022 - [R] lubridate 的 year、isoyear、quarter、month、day、wday、yday、isoweek、hour、minute 和 second 函数的绑定
- ARROW-13025 - [C++][Compute] 使用相等性、调试可表示性和可序列化性来增强 FunctionOptions
- ARROW-13027 - [C++] 修复 CI 中的 ASAN 堆栈跟踪
- ARROW-13030 - [CI][Go] 设置 Arm64 golang CI
- ARROW-13031 - [JS] 支持 macOS 上 closure compiler 中的 arm
- ARROW-13032 - [Java] 更新 gauva 版本
- ARROW-13034 - [Python][Docs] 更新 Parquet 文档页面上 hdfs/azure 的过时示例
- ARROW-13036 - [Doc] 提及 Arrow IPC 的推荐文件扩展名
- ARROW-13042 - [C++] 自动检查内核是否在输出中留下未初始化的数据
- ARROW-13043 - [GLib][Ruby] 添加 GArrowEqualOptions
- ARROW-13044 - [Java] Union 向量应扩展 ValueVector
- ARROW-13045 - [Packaging][RPM][deb] 如果系统 utf8proc 过旧,则不要安装
- ARROW-13047 - [Website] 将 kiszk 添加到 committer 列表中
- ARROW-13049 - [C++][Gandiva] 在 Gandiva 上实现 BIN Hive 函数
- ARROW-13050 - [C++][Gandiva] 在 Gandiva 上实现 SPACE Hive 函数
- ARROW-13054 - [C++] 添加选项以指定“day_of_week”时间内核的每周第一天
- ARROW-13064 - [C++] 添加一个通用的“if, ifelse, …, else”内核(“CASE WHEN”)
- ARROW-13065 - [Packaging][RPM] 添加缺少的必需 LZ4 版本信息
- ARROW-13068 - [GLib][Dataset] 将前缀从 gad_ 更改为 gadataset_
- ARROW-13070 - [R] sd 和 var 的绑定
- ARROW-13072 - [C++] 添加按位算术计算函数
- ARROW-13074 - [Python] 开始弃用 ParquetDataset 自定义属性
- ARROW-13075 - [Python] 公开 pyarrow.Field 的 C 数据接口 API
- ARROW-13076 - [Java] 启用 ExtensionType 以使用 StructVector 和 UnionVector 作为底层存储
- ARROW-13082 - [CI] 将 R 参数转发到 ubuntu-docs 构建
- ARROW-13086 - [Python] 公开 Parquet ArrowReaderProperties::coerce_int96_timestamp_unit_
- ARROW-13086 - [Python] 公开 Parquet ArrowReaderProperties::coerce_int96_timestamp_unit_
- ARROW-13091 - [Python] 将 compression_level 参数添加到 IpcWriteOptions 构造函数
- ARROW-13092 - [C++] 如果目标存在且不是目录,则 CreateDir 应失败
- ARROW-13095 - [C++] 实现三角函数计算函数
- ARROW-13096 - [C++] 实现对数计算函数
- ARROW-13097 - [C++] 为 s 提供一个简单的反射实用程序
- ARROW-13098 - [Dev][Archery] 将 docker 子模块重组到其自己的子包中
- ARROW-13100 - [MATLAB] 将 GoogleTest 与 MATLAB 接口 C++ 代码集成
- ARROW-13101 - [Python][Doc] pyarrow.FixedSizeListArray 未出现在文档中
- ARROW-13110 - [C++] 使用 BackgroundGenerator 而不传输回调时,可能会发生死锁
- ARROW-13113 - [R] 使用 RTasks 管理将 arrow 转换为 R 的并行处理
- ARROW-13117 - [R] 在新表达式中保留架构
- ARROW-13119 - [R] 在标量表达式中设置空架构
- ARROW-13124 - [Ruby] 添加对内存视图的支持
- ARROW-13127 - [R] Valgrind nightly errors
- ARROW-13136 - [C++] 添加一个“coalesce”可变标量内核
- ARROW-13137 - [C++][Documentation] 使表内引用保持一致
- ARROW-13140 - [C++/Python] 升级 nightly 构建中的 libthrift pin
- ARROW-13142 - [Python] 从非步幅 numpy 数组列表转换时使用向量追加
- ARROW-13147 - [Java] 在分配向量缓冲区时遵守舍入策略
- ARROW-13157 - [C++] 添加 find_substring_regex 内核并为 find_substring 实现 ignore_case
- ARROW-13158 - [Python] 修复具有重复字段名称的 StructScalar 的 repr 和 contains
- ARROW-13162 - [C++][Gandiva] 在 Gandiva 注册表中为 extract date 函数添加新别名
- ARROW-13171 - [R] 为 str_pad() 添加绑定
- ARROW-13190 - [C++] [Gandiva] 更改 INITCAP 函数的行为
- ARROW-13194 - [Java][文档] 创建关于 Java 算法的散文文档
- ARROW-13195 - [R] rlang 反向依赖项检查的问题
- ARROW-13199 - [R] 将 ubuntu 21.04 添加到 nightly 构建
- ARROW-13200 - [R] 为 case_when() 添加绑定
- ARROW-13201 - [R] 为 coalesce() 添加绑定
- ARROW-13210 - [Python][CI] 修复 macOS wheels 的 vcpkg 缓存机制
- ARROW-13211 - [C++][CI] 移除过时的 Github Actions ARM 构建
- ARROW-13212 - [发布] 支持在 python 发布后脚本中部署到 test PyPI
- ARROW-13215 - [R] [CI] 将 ENV TZ 添加到 docker 文件
- ARROW-13218 - [文档] 记录/澄清时间戳存储的约定
- ARROW-13219 - [C++][GLib] 降级/弃用 CompareOptions
- ARROW-13224 - [Python][文档] pyarrow.dataset.write_dataset 的文档缺失
- ARROW-13226 - [Python] 添加通用的 cython trampolining 实用程序
- ARROW-13228 - [C++] S3 CreateBucket 失败,因为 AWS 对待 us-east-1 的方式与其他区域不同
- ARROW-13230 - 添加 CSV 写入器文档
- ARROW-13234 - [C++] 添加字符串填充选项以确定额外的空间位于哪一侧
- ARROW-13235 - [C++] 使 type_name 等于所有 FunctionOptionTypes 的选项类名称
- ARROW-13236 - [Python] 改进 pyarrow.compute.FunctionOptions 的 repr
- ARROW-13238 - [C++][Dataset][Compute] 替换数据集扫描的 ExecPlan 实现
- ARROW-13242 - [C++] 改进十进制随机生成
- ARROW-13244 - [C++] 添加工具以获取当前线程 ID
- ARROW-13258 - [Python] 改进 ParquetFileFragment 的 repr
- ARROW-13262 - [R] 将数据拉入 R 后 transmute() 失败
- ARROW-13273 - [C++] 仅在 Requires.private 的 CMake 路径中使用 .pc
- ARROW-13274 - [JS] 移除 Webpack
- ARROW-13275 - [JS] 修复性能测试
- ARROW-13276 - [GLib][Ruby][Flight] 添加对 ListFlights 的支持
- ARROW-13277 - [JS] 添加声明映射
- ARROW-13280 - [R] log 和 trig 函数的绑定
- ARROW-13282 - [C++] 移除过时的生成文件
- ARROW-13283 - [开发者工具] 支持在 archery docker run 中传递内存限制
- ARROW-13286 - [CI] 要求 docker-compose 1.27.0 或更高版本
- ARROW-13289 - [C++] Log 函数没有 int 内核
- ARROW-13291 - [GLib][CI] 要求 gobject-introspection 3.4.5 或更高版本
- ARROW-13296 - [C++] 提供与反射兼容的枚举替换
- ARROW-13299 - [JS] 升级 ix 和 rxjs
- ARROW-13303 - [JS] 修订包
- ARROW-13306 - [Java][JDBC] 使用 ResultSetMetaData.getColumnLabel 代替 ResultSetMetaData.getColumnName
- ARROW-13313 - [C++][Compute] 添加 ScalarAggregateNode
- ARROW-13320 - [网站] 将 MIME 类型添加到 FAQ
- ARROW-13323 - [Archery] 验证 docker compose 配置
- ARROW-13343 - [R] 更新 5.0 的 NEWS.md
- ARROW-13346 - [C++] 从 EnumType 中移除编译时解析
- ARROW-13355 - [R] 确保在我们的 revdep 作业中安装了 sf
- ARROW-13357 - [R] sign() 的绑定
- ARROW-13365 - [R] floor/ceiling/truncate 的绑定
- ARROW-13385 - [C++][Compute] 记录对 FunctionRegistry 的源外添加
- ARROW-13386 - [R][C++] CSV 流式传输更改破坏了 Rtools 35 32 位构建
- ARROW-13418 - [R] python.r 中的拼写错误
- ARROW-13461 - [Python][Packaging] 为 python 3.8 构建 M1 wheels
- PARQUET-1798 - [C++] 审核围绕 field_id 自动分配的逻辑
- PARQUET-1998 - [C++] 实现 LZ4_RAW 压缩
- PARQUET-2056 - [C++] 添加分别检索 ColumnReader 的字典和索引的能力