Apache Arrow 5.0.0 (2021 年 7 月 29 日)
这是一个主要版本,涵盖了 3 个多月的开发。
下载
贡献者
此版本包括来自 2 个 Arrow 存储库中 99 位不同贡献者的 684 次提交。
77 David Li
43 Krisztián Szűcs
42 Antoine Pitrou
35 Dominik Moritz
33 Nic Crane
27 Weston Pace
27 Sutou Kouhei
27 Andrew Lamb
23 Jonathan Keane
21 Joris Van den Bossche
17 Jorge C. Leitao
17 Ian Cook
16 João Pedro
15 Jiayu Liu
14 Yibo Cai
14 Alessandro Molina
13 Jorge Leitao
12 Ritchie Vink
12 Benjamin Kietzman
10 niranda perera
10 Wakahisa
10 Matthew Topol
9 Anthony Louis
8 Raphael Taylor-Davies
8 Nate Clark
7 Eduardo Ponce
6 Daniël Heres
5 Neal Richardson
5 Navin
5 Jörn Horstmann
5 Andy Grove
4 crystrix
4 Uwe L. Korn
4 Romain Francois
4 Rok
4 Marco Neumann
4 Ádám Lippai
3 liyafan82
3 frank400
3 Ying Zhou
3 Roee Shlomo
3 Michael Edwards
3 Matthijs Brobbel
3 Alenka Frim
2 Zachary Blackwood
2 Wes McKinney
2 Steven
2 P42
2 Michal Nowakiewicz
2 Kazuaki Ishizaki
2 Karik Isichei
2 Jeroen Ooms
2 Gary Pennington
2 Diana Clarke
2 Bryan Cutler
1 sjgupta2
1 sgilmore
1 ptaylor
1 nullptr
1 kazuhiko kikuchi
1 hulunbier
1 baishen
1 Zimo Zhang
1 Yordan Pavlov
1 Will Jones
1 Steven Burns
1 Stephen
1 Shuai Zhang
1 Ray Bell
1 Projjal Chanda
1 Pachamaltese
1 Nick Bruno
1 Micah Kornfield
1 Menno Siekerman
1 Max Meldrum
1 Mauricio Vargas
1 Marc van Heerden
1 Manish Gill
1 Maarten A. Breddels
1 Lorenz Walthert
1 Linan Qiu
1 Laurent Mazare
1 Kornelijus Survila
1 Kevin Gurney
1 Joris Peeters
1 Jinpeng Zhou
1 Jiangtao Peng
1 Hideaki Hayashi
1 Giordon Stark
1 Gang Liao
1 GALI PREM SAGAR
1 Edd Robinson
1 Dorian Kind
1 Dmitry Patsura
1 Chojan Shang
1 Boaz
1 Ben Chambers
1 Alex Baden
1 Adam Johnson
补丁提交者
以下 Apache 提交者合并了贡献给 Arrow 存储库的补丁。
96 Antoine Pitrou
69 Sutou Kouhei
63 David Li
59 Krisztián Szűcs
36 Jonathan Keane
33 Benjamin Kietzman
33 Neal Richardson
27 Andrew Lamb
22 Ian Cook
22 Praveen
21 Jorge C. Leitao
19 Yibo Cai
16 Dominik Moritz
16 Joris Van den Bossche
15 Jiayu Liu
12 GitHub
12 Ritchie Vink
11 Micah Kornfield
10 Wakahisa
8 Jorge Leitao
8 Raphael Taylor-Davies
6 Daniël Heres
5 Andy Grove
5 Jörn Horstmann
5 liyafan82
5 Navin
5 Weston Pace
4 Ádám Lippai
4 Marco Neumann
3 Brian Hulette
3 Michael Edwards
3 Roee Shlomo
2 Eric Erhardt
2 Gary Pennington
2 Steven
2 Uwe L. Korn
2 Wes McKinney
1 baishen
1 Ben Chambers
1 Boaz
1 Bryan Cutler
1 Chojan Shang
1 Dmitry Patsura
1 Edd Robinson
1 Gang Liao
1 hulunbier
1 ishizaki
1 Kazuaki Ishizaki
1 kazuhiko kikuchi
1 Kornelijus Survila
1 Laurent Mazare
1 Manish Gill
1 Marc van Heerden
1 Max Meldrum
1 Yordan Pavlov
更新日志
以下更新日志适用于 apache/arrow
存储库。 有关 Apache Arrow 的 Rust 实现,请参阅 apache/arrow-rs
更新日志。
Apache Arrow 5.0.0 (2021-07-28)
Bug 修复
- ARROW-6189 - [Rust] [Parquet] 普通编码的布尔列块限制为 2048 个值
- ARROW-6312 - [C++] 在 arrow.pc 包配置中声明所需的 Libs.private
- ARROW-7948 - [Go][集成] 十进制集成失败
- ARROW-9594 - [Python] DictionaryArray.to_numpy 不能正确地将空索引转换为空值
- ARROW-10910 - [Python] 当使用遗留数据集向 read_table 提供 None 时出现段错误
- ARROW-10958 - [GLib] 通过 glib 的“未实现嵌套数据转换”,而不是通过 pyarrow
- ARROW-11077 - [Rust] 当尝试读取嵌套列表时,ParquetFileArrowReader 会 panic
- ARROW-11146 - [CI][Python] conda-python-3.8-jpype 夜间构建失败
- ARROW-11161 - [Python][C++] S3Filesystem:文件 Content-Type 设置不正确?
- ARROW-11633 - [CI] [文档] 未找到 Maven 默认皮肤
- ARROW-11780 - [C++][Python] StructArray.from_arrays() 使 Python 解释器崩溃
- ARROW-11908 - [Rust] 间歇性 Flight 集成测试失败
- ARROW-12007 - [C++] 加载 parquet 文件返回“无效的 UTF8 负载”错误
- ARROW-12055 - [R] is.na() 对 Arrow NaN 值评估为 FALSE
- ARROW-12096 - [Python][C++] Pyarrow Parquet 读取器在转换为 Arrow Array (timestamp[ns]) 时溢出 INT96 时间戳
- ARROW-12122 - [Python] 无法通过 pip M1 mac 安装
- ARROW-12142 - [Python] 未定义符号:_ZN5arrow6StatusC1ENS_10StatusCodeERKNSt7__cxx1112basic_stringIcSt11char_traitsIcESaIcEEE
- ARROW-12150 - [Python] 混合精度十进制的错误类型推断
- ARROW-12232 - [Rust][Datafusion] 使用 CAST 时出现错误:不支持 SQL 类型 Time
- ARROW-12240 - [Python] 来自 apple clang-12 的 invalid-offsetof 警告
- ARROW-12377 - [Doc][Java] Java 文档构建失败
- ARROW-12407 - [Python] 构建 PyArrow 时出现弃用警告
- ARROW-12431 - [Python] 当类型为二进制且要转换的值是 numpy 数组时,pa.array 掩码反转
- ARROW-12472 - [Python] 传递 PEP519 文件系统对象时,read_table 失败
- ARROW-12482 - [Doc][Python] 提及 CSVStreamingReader 与类型推断的缺陷
- ARROW-12491 - [打包] CentOS RPM 包中缺少对 LZ4 >= 1.8 的依赖
- ARROW-12503 - [C++] 确保为 jemalloc 的库目录使用 “lib/”
- ARROW-12508 - [R] expect_as_vector 实现导致 R <= 3.3 测试失败,并且在没有安装 arrow 时,测试外部定义的变量会中断构建
- ARROW-12543 - [CI][Python] conda-python-3.9 夜间构建失败
- ARROW-12568 - [Python][C++] 在 v4.0.0 中转换 int64 的 ListArray 切片时出现段错误
- ARROW-12569 - [R] [CI] 在 CI 中运行 revdep
- ARROW-12570 - [JS] 修复阻止 v4.0.0 版本的问题
- ARROW-12579 - [Python] Pyarrow 4.0.0 依赖 numpy 1.19.4 在 Apple silicon/M1 编译时抛出错误
- ARROW-12589 - [C++] 当 -DARROW_WITH_BACKTRACE=OFF 时,在 windows 上编译不起作用
- ARROW-12601 - [R][打包] 修复 r/configure 中的 pkg-config 检查
- ARROW-12604 - [R][打包] 数据集、Parquet 在 autobrew 和 CRAN Mac 构建中关闭
- ARROW-12605 - [文档] 修复 dataset.rst 中的行号
- ARROW-12606 - [C++] 分位数和模式函数在具有偏移量的数组上失败
- ARROW-12610 - [C++] 在 windows 上跳过 TestS3FSGeneric TestDeleteDir 和 TestDeleteDirContents,因为它们不稳定
- ARROW-12611 - [CI][Python] 由于 numpy 兼容性问题,夜间测试 conda-python-pandas-0.24 失败
- ARROW-12613 - [Python] 将 Scalar 与 None 进行比较时出现 AttributeError
- ARROW-12614 - [C++][计算] 恢复 ExecuteScalarExpression 中对表的支持
- ARROW-12617 - [Python] pyarrow.orc.write_table 的签名与 pyarrow.parquet.write_table 的签名相反
- ARROW-12620 - [C++] 仅当还包括输入列时,数据集写入才能包括投影列
- ARROW-12622 - [Python] 在 Flight 服务器内部读取 CSV 时出现段错误
- ARROW-12630 - [Dev][集成] conda-integration docker 构建失败
- ARROW-12639 - [CI][Archery] Archery 构建无法创建分支
- ARROW-12640 - [C++] 修复 cpp/src/parquet/types.h 中 VS 2019 的错误
- ARROW-12642 - [R] LIBARROW_MINIMAL、LIBARROW_DOWNLOAD、NOT_CRAN 环境变量不应区分大小写
- ARROW-12644 - [C++][数据集] 支持读取考虑 URL 编码(Spark)的日期/时间分区数据集
- ARROW-12646 - [C++][CI][打包][Python] 将 vcpkg 版本升级到最新版本
- ARROW-12663 - [C++] 当使用 nvcc 11.2 编译 arrow 标头时出现段错误
- ARROW-12668 - [C++][数据集] CountRows 偶尔出现段错误
- ARROW-12670 - [C++] extract_regex 在空值或不匹配之后给出奇怪的行为
- ARROW-12672 - [C++] 转换 “fill_null()” 的结果时出现段错误(不是位图而是未知的 null_count)
- ARROW-12679 - [Java] JDBC 适配器不保留 SQL 可空性
- ARROW-12684 - [Go][Flight] 修复错误情况下的 nil 取消引用
- ARROW-12708 - [C++] 调用 negate_checked 时出现 Valgrind 错误
- ARROW-12729 - [R] 修复 Table、RecordBatch 的长度方法
- ARROW-12746 - [Go][Flight] 客户端身份验证处理程序覆盖传出的元数据
- ARROW-12756 - [C++] MSVC 构建在 vcpkg 中使用最新的 gtest 时失败
- ARROW-12757 - [Dev][Archery] “archery docker run” 中关于 RUST 变量的警告
- ARROW-12762 - [Python] ListType 在 pickle 和 unpickle 之后不保留字段名称
- ARROW-12769 - [Python] 负的超出范围的切片会产生无效数组
- ARROW-12771 - [C++] Arrow 计算 hash_count 在流式执行中跳过后续的块数组
- ARROW-12772 - [CI] 由于缺少依赖项,合并脚本测试失败
- ARROW-12773 - [文档] 阐明 Java 通过 JNI 绑定对 ORC 和 Parquet 的支持
- ARROW-12774 - [C++][计算] replace_substring_regex() 创建无效数组 => 崩溃
- ARROW-12776 - [Archery][集成] 修复 write_js_test_json 中的十进制案例生成
- ARROW-12779 - [Python][FlightRPC] Flight 服务器在某些数据的情况下出现段错误
- ARROW-12780 - [CI][C++] 当尝试构建 Gandiva 时,MinGW 构建失败
- ARROW-12790 - [Python] 无法从路径名中有空格的 HDFS 读取
- ARROW-12793 - [Python] PYARROW_BUILD_TYPE=Debug 无法正常工作
- ARROW-12797 - [JS] 使用新链接更新自述文件并删除过时的示例
- ARROW-12798 - [JS] 使用 == null 比较
- ARROW-12799 - [JS] 对默认值使用空值合并运算符 (??)
- ARROW-12804 - [C++] 数组方法 IsNull 和 IsValid 对于 NullType 感到困惑
- ARROW-12807 - [C++] 修复与 Future 重构/异步 IPC 的合并冲突
- ARROW-12838 - [Java][Gandiva] 修复 Gandiva 的 JNI CI 测试
- ARROW-12842 - [Java][FlightRPC] FlightStatusException 中的错误元数据未传播到客户端
- ARROW-12850 - [R] is.nan() 对 Arrow 空值评估为 null
- ARROW-12854 - [开发][发布] Windows wheel 验证脚本下载构件失败
- ARROW-12857 - [C++] hash_aggregate_test 在主分支上无法构建
- ARROW-12864 - [C++] 从 arrow::internal::InvertBitmap 中移除不必要的 out 参数
- ARROW-12865 - [C++][Python] Python FlightRPC 服务器找不到 RE2 符号
- ARROW-12882 - [C++][Gandiva] 修复当替换字符为空时 convert_replace 函数的行为
- ARROW-12887 - [CI] AppVeyor pip 安装在设置过程中失败
- ARROW-12906 - [Python] 对非固定大小类型调用 `fill_null` 并使用空值会导致段错误。
- ARROW-12907 - [Java] 当从通道读取发生异常时可能发生内存泄漏
- ARROW-12911 - [Python] 将标量聚合选项导出到 pc.sum (零行的和应为 null;应该给出 0)
- ARROW-12917 - [C++][R][pyarrow] 使用 C 数据接口导入某些十进制类型失败
- ARROW-12918 - [C++] 使用 Visual Studio 16.10.31321.278 构建错误
- ARROW-12919 - [开发者工具] Crossbow 注释机器人未能对注释做出反应
- ARROW-12935 - [C++][CI] 某些 clang 版本上的编译器错误
- ARROW-12941 - [C++] csv 读取器 skip_row 未正确更新 num_rows_seen
- ARROW-12942 - [C++][计算] 如果后续的 chunk 中有新的组,Arrow 计算 hash_min_max 的结果不正确
- ARROW-12956 - [C++] 修复 Parquet 文件上的崩溃(OSS-Fuzz)
- ARROW-12969 - [C++] match_substring 不匹配空 needle 和空 haystack
- ARROW-12974 - [R] test-r-without-arrow 构建失败,因为示例需要 Arrow
- ARROW-12983 - [C++][Python] 如果值不适合单个 chunk,Converter::Extend 会陷入无限循环导致 OOM
- ARROW-12987 - [CI] test-ubuntu-18.04 夜间构建因 Gandiva “TestUpper” 测试失败而失败
- ARROW-12988 - [CI] kartothek 夜间集成构建失败 (test_update_dataset_from_ddf_empty)
- ARROW-12988 - [CI] kartothek 夜间集成构建失败 (test_update_dataset_from_ddf_empty)
- ARROW-12989 - [CI] “Dev PR” 作业被错误地取消
- ARROW-12991 - [CI] Travis ARM 构建经常崩溃
- ARROW-12993 - [Python] 使用无效的 Feather 文件和 stackprinter 解决边界错误
- ARROW-12995 - [C++] CSV 读取器应该验证选项
- ARROW-12998 - [C++] Datasets 需要依赖 xsimd
- ARROW-13001 - [Go] 在 s390x 上 parquet/internal/bmi 中构建失败
- ARROW-13003 - [C++] 在 compute/exec/ cc 文件中未对齐的访问
- ARROW-13008 - [C++] 编译最小示例时的弃用警告
- ARROW-13010 - [C++][计算] 支持从 kleene 内核输出到切片
- ARROW-13018 - [C++][文档] 在标量聚合内核中使用一致的术语表示空值 (min_count)
- ARROW-13026 - [C++][CI] s390x 作业设置失败
- ARROW-13037 - [R] 创建表达式时参数不正确导致 R 崩溃
- ARROW-13039 - [R] 修复错误消息处理
- ARROW-13041 - [C++] 一元内核可能会在空条目下留下未初始化的数据
- ARROW-13046 - [发布] JS 包在发布之前测试失败
- ARROW-13048 - [C++] S3FileSystem 移动包含 = 或 + 的文件路径失败
- ARROW-13053 - [Python] 使用自制的 Arrow 库在 MacOS Big Sur 上构建失败
- ARROW-13069 - [网站] 将 Daniël 添加到提交者列表
- ARROW-13073 - [开发者] archery benchmark list: 意外的关键字 'benchmark_filter'
- ARROW-13080 - [发布] 在 ubuntu 20.10 中生成 API 文档
- ARROW-13083 - [Python] 在 setup.py 和 crossbow 中错误的 SCM 版本检测
- ARROW-13085 - [Python] Apache Arrow 最小 cpp 构建在使用 pyarrow 库时发生段错误
- ARROW-13090 - [Python] 使用 ffspec 2021.6.0 测试失败
- ARROW-13104 - [C++] ByteStreamSplit 实现使用无效的指针转换
- ARROW-13108 - [Python] 在 macOS 10.13.6 上导入 Pyarrow 4.0.0 时崩溃
- ARROW-13116 - [R] RecordBatchReader 到 C 接口的测试在 arrow-r-minimal 上因缺少依赖项而失败
- ARROW-13125 - [R] 当在 arrange() 中传递 2 个或更多参数给 desc() 时抛出错误
- ARROW-13128 - [C#] 纳秒和微秒的 TimestampArray 转换逻辑错误
- ARROW-13135 - [C++] 修复 END_PARQUET_CATCH_EXCEPTIONS 中的状态传播
- ARROW-13139 - [C++] ReadaheadGenerator 不能安全地复制/移动
- ARROW-13145 - [C++][CI] Flight 测试在 MinGW 上崩溃
- ARROW-13148 - [开发][Archery] Crossbow 构建提交失败
- ARROW-13153 - [C++] `parquet_dataset` 在 `_metadata` 中丢失文件顺序
- ARROW-13154 - [C++] Unions 不能将 126 和 127 作为 type_codes
- ARROW-13169 - [R] [C++] 排序的分区键可能会导致问题
- ARROW-13173 - [C++] TestAsyncUtil.ReadaheadFailed 偶尔会断言
- ARROW-13187 - [c++][python] 在 CSV 中读取时可能未释放内存
- ARROW-13189 - [R] 在数据集上禁用行级元数据应用程序
- ARROW-13203 - [R] 修复导致失败的可选组件检查
- ARROW-13207 - [Python][文档] 数据集文档仍然建议使用已弃用的扫描方法作为首选的迭代方法
- ARROW-13216 - [R] 类型检查测试在使用 rtools35 时失败
- ARROW-13217 - [C++][Gandiva] 更正字符串开头无效字符的 convert_replace 函数
- ARROW-13223 - [C++][CI] 修复线程清理器故障
- ARROW-13225 - [Go][Flight] 实现自定义中间件接口并启用集成测试
- ARROW-13229 - [Python] ascii_trim、ascii_ltrim 和 ascii_rtrim 缺少选项
- ARROW-13239 - [文档][Python] Dataset.head 函数未提及必需的参数
- ARROW-13243 - [R] R 3.5 中的 altrep 函数调用
- ARROW-13246 - [C++] CSV skip_rows_after_names 可能会过早丢弃数据
- ARROW-13249 - [Java][CI] Java JNI 构建中一致的超时
- ARROW-13253 - [C++][FlightRPC] 发送记录批次 >2GB 时发生段错误
- ARROW-13254 - [Python] 读取 pandas 数据时进程被杀死并且信号量对象泄漏
- ARROW-13265 - [R] 夜间构建中的 cli valgrind 错误
- ARROW-13266 - [JS] 改进基准名称并将套件名称添加到 json
- ARROW-13281 - [C++][Gandiva] timestampDiffMonth 函数在负差值时的行为错误
- ARROW-13284 - [C++] 错误的 pkg_check_modules() 选项名称
- ARROW-13288 - [Python] PyArrow 中缺少内核选项的默认值
- ARROW-13290 - 由于缺少 include,在 clang-12 和 gcc-11 上编译失败
- ARROW-13305 - [C++] 由于 CSV 选项,无法在 Ubuntu 21.04 上安装夜间构建
- ARROW-13315 - [R] 用 ARROW_R_WITH_ARROW 检查包装 r_task_group includes
- ARROW-13321 - [C++][Python] MakeArrayFromScalar 不适用于 FixedSizeBinaryType
- ARROW-13324 - [R] utf8_reverse 和 ascii_reverse 的绑定中的错别字
- ARROW-13332 - [C++] TestAsyncUtil.ReadaheadFailed 中的 TSAN 失败
- ARROW-13341 - [C++] 在 arrow-compute-plan-test ExecPlanExecution.SourceScalarAggSink 中发生段错误
- ARROW-13350 - [Python][CI] conda-python-3.7-pandas-0.24 夜间构建在 test_extract_datetime_components 中失败
- ARROW-13352 - [C++] case_when 内核中的 Valgrind 失败
- ARROW-13353 - [文档] 使用 sphinx.util.cfamily.DefinitionError 构建失败
- ARROW-13360 - [C++] C++ 第三方离线依赖项 versions.txt 中缺少依赖项
- ARROW-13363 - [R] is.nan() 在非浮点数据上出错
- ARROW-13368 - [C++][文档] 在文档中将项目重命名为 make_struct
- ARROW-13381 - [C++] ArrayFromJSON 不适用于浮点值字典类型
- ARROW-13382 - [C++] 对标量的聚合失败 autobrew R 作业
- ARROW-13384 - [C++] 在 cmake 中指定最低要求的 zstd 版本
- ARROW-13391 - [C++] CSV 流式读取器不包含与表读取器相同的错误信息
- ARROW-13417 - [C++] 合并的生成器有时会从源同步可重入中提取数据
- ARROW-13419 - [JS] 修复性能测试
- ARROW-13428 - [C++][Flight] 使用捆绑的 gRPC 和系统共享的 OpenSSL 时缺少 -lssl
- ARROW-13431 - [发布] 将 go 版本升级到 1.15;不再验证 rust 源代码
- ARROW-13432 - [发布] 修复与二进制上传容器的 ssh 连接
- ARROW-13450 - [Python][打包] 为 universal2 wheels 设置部署目标为 10.13
新特性和改进
- ARROW-2665 - [Python/C++] 添加 index() 方法来查找 Python 标量的首次出现
- ARROW-3014 - [C++] ORC 文件格式的最小写入器适配器
- ARROW-3316 - [R] 从 R data.frame 到 Arrow 表/记录批次的多线程转换
- ARROW-5385 - [Go] 实现 EXTENSION 数据类型
- ARROW-5640 - [Go] 实现 Map 数组
- ARROW-6513 - [CI] conda 环境变量文件 arrow/ci/conda_env_*.yml 应具有 .txt 扩展名
- ARROW-6513 - [CI] conda 环境变量文件 arrow/ci/conda_env_*.yml 应具有 .txt 扩展名
- ARROW-7001 - [C++] 开发线程 API 以适应嵌套并行
- ARROW-7114 - [JS][CI] NodeJS 构建在 Github Actions Windows 节点上失败
- ARROW-7252 - [Rust] [Parquet] 读取 UTF-8/JSON/ENUM 字段会导致大量 vec 分配
- ARROW-7396 - [格式] 向 IANA 注册 Apache Arrow 格式的媒体类型(MIME 类型)
- ARROW-8421 - [Rust] [Parquet] 实现 parquet 写入器
- ARROW-8459 - [Dev][Archery] 使用更新的 cmake-format
- ARROW-8527 - [C++][CSV] 添加对 ReadOptions::skip_rows >= block_size 的支持
- ARROW-8655 - [C++][Dataset][Python][R] 保留已发现数据集的分区信息
- ARROW-8676 - [Rust] 创建来自 ARROW-300 的 IPC RecordBatch 主体缓冲区压缩的实现
- ARROW-9054 - [C++] 添加 ScalarAggregateOptions
- ARROW-9056 - [C++] 支持标量上的标量聚合
- ARROW-9140 - [R] 尽可能实现 Arrow 到 R 的零拷贝
- ARROW-9295 - [Archery] 在 lint 命令中支持 rust clippy
- ARROW-9299 - [Python] 在 Python ORCFile 中公开 ORC metadata()
- ARROW-9313 - [Rust] 使用特性枚举
- ARROW-9421 - [C++][Parquet] 冗余 SchemaManifest::GetFieldIndices
- ARROW-9430 - [C++/Python] SetItem(BooleanArray, values) 的内核
- ARROW-9697 - [C++][Dataset] Dataset/Scanner 的 num_rows 方法
- ARROW-10031 - [Java] 在 Archery 中支持 Java 基准测试
- ARROW-10115 - [C++] CSV 空引号字符串被视为 NULL
- ARROW-10316 - [Python] 考虑使用 __wrapped__ 进行计算函数内省
- ARROW-10391 - [Rust] [Parquet] 嵌套 Arrow 读取器
- ARROW-10440 - [C++][Dataset][Python] 添加一个回调,在 Finish() 之前访问文件写入器
- ARROW-10550 - [Rust] [Parquet] 写入嵌套类型(结构体、列表)
- ARROW-10557 - [C++] 添加标量字符串切片/子字符串提取内核
- ARROW-10640 - [C++] 一个 “if_else” 内核,用于基于掩码组合两个数组
- ARROW-10658 - [Python][打包] Apple Silicon 的 Wheel 构建
- ARROW-10675 - [C++][Python] 支持 AWS S3 Web 身份凭证
- ARROW-10797 - [C++] 研究更快地生成随机数以用于测试和基准测试
- ARROW-10926 - [Rust] 为十进制类型添加 parquet 读取器/写入器
- ARROW-10959 - [C++] 添加标量字符串连接内核
- ARROW-11061 - [Rust] 根据模式验证数组属性
- ARROW-11173 - 在 FieldReader/FieldWriter 中添加 Map 类型作为读取器/写入器
- ARROW-11199 - [C++][Python] 修复 ORC 读取器的单元测试
- ARROW-11206 - [C++][Compute][Python] 将 “project” 内核重命名为 “make_struct”
- ARROW-11342 - [Python] [Gandiva] 公开 ToString 和结果类型信息
- ARROW-11499 - [打包] 删除所有 bintray 的使用
- ARROW-11514 - [R][C++] paste()、paste0()、str_c() 的绑定
- ARROW-11515 - [R] strsplit 的绑定
- ARROW-11565 - [C++][Gandiva] 修改 upper()/lower() 以使用 UTF8,并添加 INIT_CAP 函数
- ARROW-11608 - [CI] turbodbc 集成测试失败(构建问题)
- ARROW-11660 - [C++] 将 RecordBatch::SelectColumns 方法从 R 移动到 C++ 库
- ARROW-11673 - [C++] 转换字典类型以使用不同的索引类型
- ARROW-11675 - [CI][C++] 解决 VS 2019 构建上的 ctest 失败
- ARROW-11705 - [R] 支持 RecordBatch/Table$create() 中的标量值回收
- ARROW-11748 - [C++] 确保 Decimal128 和 Decimal256 的字段采用本机字节序
- ARROW-11759 - [C++] 从时间戳类型中提取日期时间组件(年、月、日等)的内核
- ARROW-11769 - [R] 从 grouped_df 将组提取到 RecordBatch 或 Table 中
- ARROW-11772 - [C++] 向 ipc::RecordBatchFileReader 添加异步读取
- ARROW-11782 - [GLib][Ruby][Dataset] 删除内部类的绑定
- ARROW-11787 - [R] 实现写入 csv
- ARROW-11843 - [C++] 向 parquet::arrow::FileReader 添加异步读取
- ARROW-11849 - [R] 在 R 文档中使用 roxygen @examplesIf 标签
- ARROW-11889 - [C++] 向流式 CSV 读取器添加并行性
- ARROW-11909 - [C++] 摆脱 MakeIteratorGenerator
- ARROW-11926 - [R] 通过新的 UCRT CRAN windows 构建
- ARROW-11926 - [R] 通过新的 UCRT CRAN windows 构建
- ARROW-11928 - [C++][Compute] 添加 ExecNode 层级结构
- ARROW-11929 - [C++][Compute] 将表达式提升到计算命名空间
- ARROW-11930 - [C++][Dataset][Compute] 重构数据集扫描以使用 ExecNode 图
- ARROW-11932 - [C++] 提供 ArrayBuilder::AppendScalar
- ARROW-11950 - [C++][Compute] 添加一元负内核
- ARROW-11960 - [C++][Gandiva] 支持 LIKE 中的转义字符
- ARROW-11980 - [Python] 从 Table.replace_schema_metadata 中删除 “experimental” 状态
- ARROW-11986 - [C++][Gandiva] 为 doubles 和 floats 实现 IN 表达式
- ARROW-11990 - [C++][Compute] 一致使用 Status/Result 返回来指示错误
- ARROW-12004 - [C++] Result<detail::Empty> 很烦人
- ARROW-12010 - [C++][Compute] 提高 GroupIdentifier 中使用的哈希表的性能
- ARROW-12016 - [C++] 为 BOOL 类型实现 array_sort_indices 和 sort_indices
- ARROW-12050 - [C++][Python][FlightRPC] 使用 StopToken 来启用中断长时间运行的 Flight 操作
- ARROW-12074 - [C++][Compute] 为十进制输入添加标量算术内核
- ARROW-12083 - [R] open_dataset 中的模式使用
- ARROW-12166 - [C++][Gandiva] 实现 CONVERT_TO(value, type) 函数
- ARROW-12184 - [R] na.fail, na.omit, na.exclude, na.pass 的绑定
- ARROW-12185 - [R] any, all 的绑定
- ARROW-12198 - [R] strptime 的绑定
- ARROW-12199 - [R] stddev, variance 的绑定
- ARROW-12205 - [C++][Gandiva] 实现 TO_TIME([number] secs) 和 TO_TIMESTAMP([number] secs) 函数
- ARROW-12231 - [C++][Dataset] 将读取器支持的数据集与 InMemoryDataset 分离
- ARROW-12253 - [Rust] [Ballista] 实现可扩展连接
- ARROW-12255 - [Rust] [Ballista] 将调度程序与 DataFusion 集成
- ARROW-12256 - [Rust] [Ballista] 添加 DataFrame 支持
- ARROW-12257 - [Rust] [Ballista] 将用户指南发布到 Arrow 网站
- ARROW-12261 - [Rust] [Ballista] Ballista 不应有自己的 DataFrame API
- ARROW-12291 - [R] 确定未求值表达式的类型
- ARROW-12310 - [Java] ValueVector#getObject 应该支持复杂类型的协变
- ARROW-12355 - [C++] 实现高效的异步 CSV 扫描
- ARROW-12362 - [Rust] [DataFusion] topk_query 测试失败
- ARROW-12364 - [Python] [Dataset] 向 ds.write_dataset() 添加 metadata_collector 选项
- ARROW-12378 - [C++][Gandiva] 实现 castVARBINARY 函数
- ARROW-12386 - [C++] 在 AsyncScanner 中支持文件并行
- ARROW-12391 - [Rust][DataFusion] 实现 date_trunc() 函数
- ARROW-12392 - [C++] 恢复异步流式 CSV 读取器
- ARROW-12393 - [JS] 最佳地使用闭包编译器
- ARROW-12403 - [Rust] [Ballista] 集成测试应检查查询结果是否正确
- ARROW-12415 - [CI] [Python] 错误:在 ARM64 上构建 pygit2 的 wheel 失败
- ARROW-12424 - [Go][Parquet] 添加 Schema 包
- ARROW-12428 - [Python] pyarrow.parquet.read_* 应该使用 pre_buffer=True
- ARROW-12434 - [Rust] [Ballista] 显示带有指标的已执行计划
- ARROW-12442 - [CI] 在 GitHub Actions 上设置作业超时
- ARROW-12443 - [C++][Gandiva] 为二进制输入实现 castVARCHAR 函数
- ARROW-12444 - [RUST] [CI] 删除 Rust 并将集成测试指向 arrow-rs 存储库
- ARROW-12445 - [Rust] 设计并实施打包流程,以将 Rust 打包到签名 tar 中
- ARROW-12468 - [Python][R] 将 UseAsync 公开给 python/R
- ARROW-12478 - [C++] 支持 LLVM 12
- ARROW-12484 - [CI] 更改 jinja 宏,以不需要 CROSSBOW_TOKEN 在 Github Actions 中上传工件
- ARROW-12489 - [开发者] autotune 已损坏
- ARROW-12490 - [Dev] 为所有平台使用 miniforge
- ARROW-12492 - [Python] 添加一个辅助方法,将 DictionaryArray 解码回普通 Array
- ARROW-12496 - [C++][Dataset] 确保 Scanner 测试完全覆盖异步
- ARROW-12499 - [C++][Compute][R] 将 ScalarAggregateOptions 添加到 Any 和 All 内核
- ARROW-12500 - [C++][数据集] 合并文件格式的类似测试
- ARROW-12501 - [CI][Ruby] 移除 MinGW 构建中不必要的变通方法
- ARROW-12507 - [CI] 移除重复的 cron/nightly 构建
- ARROW-12512 - [C++][数据集] 实现 CSV 写入支持
- ARROW-12514 - [发布] 当 ARROW_GANDIVA=OFF 时,不运行 Gandiva 相关的 Ruby 测试
- ARROW-12517 - [Go] 在 Flight 客户端中公开应用元数据
- ARROW-12518 - [Python] 公开 Parquet 统计信息的 has_null_count / has_distinct_count
- ARROW-12520 - [R] 次要文档更新
- ARROW-12522 - [C++] 实现 ReadRangeCache 的异步/“懒加载”变体
- ARROW-12525 - [JS] Vector toJSON 返回一个数组
- ARROW-12527 - [Dev] 不要尝试获取 MINOR PR 的 JIRA 信息
- ARROW-12528 - [JS] 在 Table.new 中支持类型化数组
- ARROW-12530 - [C++] 移除 Buffer::mutable_data_ 成员,并且仅当 is_mutable_ 为 true 时才对 data_ 使用 const_cast
- ARROW-12533 - [C++] 使用 clang 构建时,随机实数生成器在 Arm64 Linux 上速度很慢
- ARROW-12534 - [C++][Gandiva] 在 Gandiva 上为字符串输入值实现 LEFT 和 RIGHT 函数
- ARROW-12537 - [JS] 文档构建不应包含测试源
- ARROW-12541 - [文档] 改进新文档主题中表格的样式/可读性
- ARROW-12551 - [Java][发布] 由于缺少测试数据,Java 发布后测试失败
- ARROW-12554 - 允许 compute::is_in 的 value_set 中存在重复项
- ARROW-12555 - [Java][发布] Java 发布后脚本缺少数据集 JNI 绑定
- ARROW-12556 - [C++][Gandiva] 在 Gandiva 上实现 BYTESUBSTRING 函数
- ARROW-12560 - [C++] 研究在向已完成的 future 添加回调时利用激进的线程任务创建
- ARROW-12567 - [C++][Gandiva] 为字符串输入值实现 LPAD 和 RPAD 函数
- ARROW-12567 - [C++][Gandiva] 为字符串输入值实现 LPAD 和 RPAD 函数
- ARROW-12571 - [R][CI] 使用 valgrind 运行 nightly R
- ARROW-12575 - [R] 使用一元负内核
- ARROW-12577 - [网站] 在所有地方使用 Artifactory 而不是 Bintray
- ARROW-12578 - [JS] 简化 NodeJS 中的 UTF8 处理
- ARROW-12581 - [C++][FlightRPC] 使用真实数据对压缩进行基准测试
- ARROW-12584 - [C++][Python] 公开用于基准测试工具的方法,以释放分配器中未使用的内存
- ARROW-12591 - [Java][Gandiva] 为 MacOS 和 Linux 创建单个 Gandiva jar
- ARROW-12593 - [打包][Ubuntu] 添加对 Ubuntu 21.04 的支持
- ARROW-12597 - [C++] 实现 OptionalParallelForAsync
- ARROW-12598 - [C++][数据集] 为 CSV 实现行计数或允许从 CSV 中选择 0 列
- ARROW-12599 - [文档][Python] 缺少 pyarrow.Table 的文档
- ARROW-12600 - [CI] 从 crossbow 任务推送 docker 镜像
- ARROW-12602 - [R] 将 C++ 中的 BuildInfo 添加到 arrow_info
- ARROW-12608 - [C++] 添加 split_pattern_regex 函数
- ARROW-12612 - [C++][计算] 将 Expression 添加到 type_fwd.h
- ARROW-12619 - [Python] pyarrow sdist 不应需要 git
- ARROW-12621 - [C++][Gandiva] 为 sha1 和 sha256 函数添加别名
- ARROW-12631 - [Python] pyarrow.dataset.write_table 应该接受一个 Scanner 进行写入
- ARROW-12643 - 添加实验性存储库的文档
- ARROW-12645 - [Python] 修复 numpydoc 验证
- ARROW-12648 - [C++][FlightRPC] 允许在基准测试中使用 TLS
- ARROW-12649 - [Python/打包] 将 conda-aarch64 迁移到 Azure 并进行交叉编译
- ARROW-12653 - [射箭] 允许我向 crossbow 请求添加评论
- ARROW-12658 - [C++] 将 aws-c-common 升级到 v0.5.10
- ARROW-12660 - [R] CRAN 的 4.0 后调整
- ARROW-12661 - [C++] CSV 在列名后添加跳过行
- ARROW-12662 - [网站] 强制使用压缩合并
- ARROW-12667 - [Python] 确保对跨步 numpy 数组的转换进行测试覆盖
- ARROW-12675 - [C++] CSV 应在解析错误消息中包含行/行号
- ARROW-12677 - [Python] 向 pyarrow.StructArray.from_arrays 添加掩码参数
- ARROW-12685 - [C++][计算] 添加一元绝对值内核
- ARROW-12686 - [C++][Python][FlightRPC] 支持在 DoGet 中 export_to_c / 从 RecordBatchReader 继承
- ARROW-12687 - [C++][Python][数据集] 支持 Scanner 的 C 数据接口
- ARROW-12689 - [R] 实现 ArrowArrayStream C 接口
- ARROW-12692 - [R] 改进 strsplit() 绑定的测试和注释
- ARROW-12694 - [R][CI] rtools35 作业在 32 位构建测试中失败
- ARROW-12696 - [R] 改进转换为警告的错误消息的测试
- ARROW-12699 - [CI][打包][Java] 为所有 Arrow 组件生成与 Linux 和 MacOS 兼容的 jar 包
- ARROW-12701 - [网站][发布] 在发行说明中包含 Rust 贡献者、提交者和提交
- ARROW-12702 - [JS] 升级 Webpack 和 terser
- ARROW-12703 - [JS] 将 Table 与 DataFrame 分离
- ARROW-12704 - [JS] 使用可选链
- ARROW-12709 - [C++] 添加可变参数字符串连接内核
- ARROW-12713 - [C++] 字符串反转内核
- ARROW-12715 - [C++] SQL 样式 glob 字符串匹配内核
- ARROW-12716 - [C++] 左/右/中心字符串填充内核
- ARROW-12717 - [C++] 子字符串查找位置内核
- ARROW-12719 - [C++][Python] pyarrow.fs.S3FileSystem 传递额外的 kwargs,例如 ACL
- ARROW-12721 - [CI] 修复从 nightly 构建上传 aarch64 conda 工件的路径
- ARROW-12722 - [R] 尝试打印具有重复命名的表格时引发错误
- ARROW-12730 - [MATLAB] 更新 featherreadmex 和 featherwritemex 以针对最新的 arrow c++ API 进行构建
- ARROW-12731 - [R] 在 dplyr 代码中使用 Table/RecordBatch 的 InMemoryDataset
- ARROW-12736 - [C++] 消除 FieldPath::Get() 中不必要的复制
- ARROW-12738 - [CI] [Gandiva] nightly 构建在 azure-conda-osx-clang-py38 (和 py39, py*-r*) 中出现错误
- ARROW-12741 - [CI] 为 Nightly 构建配置 GitHub 令牌
- ARROW-12745 - [C++][计算] 添加 floor、ceiling 和 truncate 内核
- ARROW-12749 - [C++] 从左值构造 RecordBatch/Table/Schema 导致不必要的复制
- ARROW-12750 - [CI] [R] 实际将参数化的 docker 选项传递给模板
- ARROW-12751 - [C++] 添加可变参数的逐行最小值/最大值内核(最小/最大)
- ARROW-12758 - [R] 向更多函数文档添加示例
- ARROW-12759 - [C++][计算] 将分组聚合包装在 ExecNode 中
- ARROW-12760 - [C++][Python][R] S3FileSystem:IO 线程并行性限制为 8 个线程
- ARROW-12761 - [R] 更好地处理 write_to_raw 的错误
- ARROW-12764 - [CI] 修复 Conda Windows 构建中的参数
- ARROW-12777 - [R] 在 match_arrow 和 is_in 中将所有输入转换为 Arrow 对象
- ARROW-12781 - [R] 为 dplyr 实现 is.type() 函数
- ARROW-12785 - [CI] 当 brew 安装 gcc 时,r-devdocs 构建错误
- ARROW-12791 - [R] 当未指定格式时,更好地处理 DatasetFactory$Finish() 的错误
- ARROW-12796 - [JS] 支持从基准测试输出 JSON
- ARROW-12800 - [JS] 删除 IE 支持并删除文本编码器和解码器 polyfill
- ARROW-12801 - [CI][打包][Java] 在生成 Arrow jar 的脚本中包含所有模块
- ARROW-12806 - [Python] test_write_to_dataset_filesystem 缺少数据集标记
- ARROW-12808 - [JS] 文档浏览器支持
- ARROW-12810 - [Python] 使用 AWS_EC2_METADATA_DISABLED=true 运行测试
- ARROW-12812 - [打包][Java] 改进 JNI jar 构建
- ARROW-12824 - [R][CI] 为 R 4.1 版本升级构建
- ARROW-12827 - [C++] [数据集] 审查数据集 API 中的错误传递
- ARROW-12829 - [GLib][Ruby] 添加对 Apache Arrow Flight 的支持
- ARROW-12831 - [CI][macOS] 移除不必要的 Homebrew 变通方法
- ARROW-12832 - [JS] 使用 TypeScript 编写基准测试
- ARROW-12833 - [JS] 在 JS 中构建性能数据
- ARROW-12835 - [C++] 在 match_substring(_regex) 和 match_like 中实现不区分大小写的匹配
- ARROW-12836 - [C++] 由于 CxxFlags,在 IBM i 上安装失败
- ARROW-12841 - [R] 向更多函数文档添加示例 - 第 2 部分
- ARROW-12843 - [C++][计算] 为浮点数组添加 is_inf 内核
- ARROW-12848 - [发布] 邮件模板指向 404
- ARROW-12851 - [Go][Parquet] 添加编码包第 1 部分
- ARROW-12856 - [C++][Gandiva] 在 Gandiva 上实现 castBIT 和 castBOOLEAN 函数
- ARROW-12859 - [C++] 添加 ScalarFromJSON 以简化测试
- ARROW-12861 - [C++][计算] 添加 sign 函数内核
- ARROW-12867 - [R] abs() 的绑定
- ARROW-12868 - [R] find_substring 和 find_substring_regex 的绑定
- ARROW-12869 - [R] utf8_reverse 和 ascii_reverse 的绑定
- ARROW-12870 - [R] stringr::str_like 的绑定
- ARROW-12875 - [JS] 升级 Jest 和其他次要更新
- ARROW-12883 - [R] [CI] R 4.1 版本上的版本兼容性失败
- ARROW-12891 - [C++][Compute][Dataset] 将子树修剪逻辑提取到计算中
- ARROW-12894 - [R] 提升 R 版本
- ARROW-12895 - [CI] 在 Github Actions 上使用 “concurrency” 设置
- ARROW-12898 - [Release][C#] 包上传脚本已损坏
- ARROW-12900 - [Python][Documentation] 在读取数据集文档中导入 np
- ARROW-12901 - [R] 更多示例的后续行动
- ARROW-12909 - [R][Release] ubuntu-docs 构建失败
- ARROW-12912 - [Website] 使用 .asf.yaml 进行发布
- ARROW-12915 - [Release] ubuntu-docs 在 thrift 上构建失败
- ARROW-12936 - [C++][Gandiva] 在 Gandiva 上实现 ASCII Hive 函数
- ARROW-12937 - [C++] 允许为新的 S3 文件指定默认元数据
- ARROW-12939 - [R] 简化 RTask 停止处理
- ARROW-12940 - [R] 将 C 接口公开为 R6 方法
- ARROW-12948 - [C++] 添加字符串切片替换内核
- ARROW-12949 - [C++] 添加字符串 starts-with/ends-with 内核
- ARROW-12950 - [C++] 添加子字符串计数内核
- ARROW-12951 - [C++] 重构 StringTransform
- ARROW-12952 - [C++] 添加正则表达式计数内核
- ARROW-12955 - [C++] 为 if_else 内核添加额外的类型支持
- ARROW-12957 - [R] cran 上的 rchk 问题
- ARROW-12961 - [C++] MSVC 在 Windows 上构建 PyArrow 时发出警告
- ARROW-12962 - [GLib][Ruby] 添加 Arrow:Scalar
- ARROW-12964 - [R] 为 ifelse() 和 if_else() 添加绑定
- ARROW-12966 - [Python] 公开 ElementWiseAggregateOptions 的 Python 绑定
- ARROW-12967 - [R] 为 pmin() 和 pmax() 添加绑定
- ARROW-12968 - [R] [CI] 向我们的夜间构建添加 rchk 作业
- ARROW-12972 - [CI] ][C++] CentOS + ARM64 上的 archive_write_add_filter_zstd 错误
- ARROW-12975 - [C++][Python] if_else 内核不支持向上转型
- ARROW-12982 - [C++] 重新启用未使用变量警告
- ARROW-12984 - [C++] 通过引用传递 Count/Index 聚合的选项参数
- ARROW-12985 - [Python][Packaging] 无法在 arm64 wheel 构建中安装 pygit2
- ARROW-12986 - [C++][Gandiva] 在 Gandiva 中实现新的缓存驱逐策略
- ARROW-12992 - [R] substr()、substring()、str_sub() 的绑定
- ARROW-12994 - [R] 修复假设 UTC 本地时区的测试
- ARROW-12996 - [C++] CSV 流读取器没有进度指示
- ARROW-13002 - [C++] 在 CMake 中添加对 utf8proc 版本的检查
- ARROW-13005 - [C++] 支持联合数据类型的 filter/take
- ARROW-13006 - [C++][Gandiva] 在 Gandiva 上实现 BASE64 和 UNBASE64 Hive 函数
- ARROW-13009 - [Doc][Dev] 文档化构建邮件列表
- ARROW-13022 - [R] lubridate 的 year、isoyear、quarter、month、day、wday、yday、isoweek、hour、minute 和 second 函数的绑定
- ARROW-13025 - [C++][Compute] 使用相等性、调试可表示性和可序列化性增强 FunctionOptions
- ARROW-13027 - [C++] 修复 CI 中的 ASAN 堆栈跟踪
- ARROW-13030 - [CI][Go] 设置 Arm64 golang CI
- ARROW-13031 - [JS] 支持 macOS 上闭包编译器中的 arm
- ARROW-13032 - [Java] 更新 guava 版本
- ARROW-13034 - [Python][Docs] 更新 Parquet 文档页面上有关 hdfs/azure 的过时示例
- ARROW-13036 - [Doc] 提及 Arrow IPC 的推荐文件扩展名
- ARROW-13042 - [C++] 自动检查内核是否在输出中留下未初始化的数据
- ARROW-13043 - [GLib][Ruby] 添加 GArrowEqualOptions
- ARROW-13044 - [Java] 联合向量应扩展 ValueVector
- ARROW-13045 - [Packaging][RPM][deb] 如果系统 utf8proc 版本旧,则不要安装
- ARROW-13047 - [Website] 将 kiszk 添加到提交者列表
- ARROW-13049 - [C++][Gandiva] 在 Gandiva 上实现 BIN Hive 函数
- ARROW-13050 - [C++][Gandiva] 在 Gandiva 上实现 SPACE Hive 函数
- ARROW-13054 - [C++] 添加选项,为 “day_of_week” 时间内核指定一周的第一天
- ARROW-13064 - [C++] 添加一个通用的 “if, ifelse, …, else” 内核 (“CASE WHEN”)
- ARROW-13065 - [Packaging][RPM] 添加缺失的所需 LZ4 版本信息
- ARROW-13068 - [GLib][Dataset] 将前缀从 gad_ 更改为 gadataset_
- ARROW-13070 - [R] sd 和 var 的绑定
- ARROW-13072 - [C++] 添加按位算术计算函数
- ARROW-13074 - [Python] 开始弃用 ParquetDataset 自定义属性
- ARROW-13075 - [Python] 公开 pyarrow.Field 的 C 数据接口 API
- ARROW-13076 - [Java] 启用 ExtensionType 以使用 StructVector 和 UnionVector 进行底层存储
- ARROW-13082 - [CI] 将 R 参数转发到 ubuntu-docs 构建
- ARROW-13086 - [Python] 公开 Parquet ArrowReaderProperties::coerce_int96_timestamp_unit_
- ARROW-13086 - [Python] 公开 Parquet ArrowReaderProperties::coerce_int96_timestamp_unit_
- ARROW-13091 - [Python] 将 compression_level 参数添加到 IpcWriteOptions 构造函数
- ARROW-13092 - [C++] 如果目标存在且不是目录,则 CreateDir 应失败
- ARROW-13095 - [C++] 实现三角计算函数
- ARROW-13096 - [C++] 实现对数计算函数
- ARROW-13097 - [C++] 为 s 提供一个简单的反射实用程序
- ARROW-13098 - [Dev][Archery] 将 docker 子模块重组到其自己的子包中
- ARROW-13100 - [MATLAB] 将 GoogleTest 与 MATLAB 接口 C++ 代码集成
- ARROW-13101 - [Python][Doc] pyarrow.FixedSizeListArray 未出现在文档中
- ARROW-13110 - [C++] 在不传输回调的情况下使用 BackgroundGenerator 时可能发生死锁
- ARROW-13113 - [R] 使用 RTasks 管理将 arrow 转换为 R 的并行操作
- ARROW-13117 - [R] 在新表达式中保留模式
- ARROW-13119 - [R] 在标量表达式中设置空模式
- ARROW-13124 - [Ruby] 添加对内存视图的支持
- ARROW-13127 - [R] Valgrind 夜间构建错误
- ARROW-13136 - [C++] 添加一个 “coalesce” 可变标量内核
- ARROW-13137 - [C++][Documentation] 使表格内引用保持一致
- ARROW-13140 - [C++/Python] 升级夜间构建中的 libthrift pin
- ARROW-13142 - [Python] 在从非跨步 numpy 数组列表转换时使用向量追加
- ARROW-13147 - [Java] 在分配向量缓冲区时尊重舍入策略
- ARROW-13157 - [C++] 添加 find_substring_regex 内核并为 find_substring 实现 ignore_case
- ARROW-13158 - [Python] 修复具有重复字段名称的 StructScalar 的 repr 和 contains
- ARROW-13162 - [C++][Gandiva] 在 Gandiva 注册表中为提取日期函数添加新别名
- ARROW-13171 - [R] 为 str_pad() 添加绑定
- ARROW-13190 - [C++] [Gandiva] 更改 INITCAP 函数的行为
- ARROW-13194 - [Java][Document] 创建关于 Java 算法的散文文档
- ARROW-13195 - [R] rlang 反向依赖项检查的问题
- ARROW-13199 - [R] 将 ubuntu 21.04 添加到夜间构建
- ARROW-13200 - [R] 为 case_when() 添加绑定
- ARROW-13201 - [R] 为 coalesce() 添加绑定
- ARROW-13210 - [Python][CI] 修复 macOS wheels 的 vcpkg 缓存机制
- ARROW-13211 - [C++][CI] 删除过时的 Github Actions ARM 构建
- ARROW-13212 - [Release] 支持在 python 发布后脚本中部署到测试 PyPI
- ARROW-13215 - [R] [CI] 将 ENV TZ 添加到 docker 文件
- ARROW-13218 - [Doc] 文档化/澄清时间戳存储的约定
- ARROW-13219 - [C++][GLib] 降级/弃用 CompareOptions
- ARROW-13224 - [Python][文档] pyarrow.dataset.write_dataset 缺少文档
- ARROW-13226 - [Python] 添加通用的 cython 蹦床实用程序
- ARROW-13228 - [C++] S3 CreateBucket 失败,因为 AWS 对 us-east-1 的处理与其他区域不同
- ARROW-13230 - 添加 CSV Writer 文档
- ARROW-13234 - [C++] 添加字符串填充选项以确定额外空格添加到哪一侧
- ARROW-13235 - [C++] 使所有 FunctionOptionTypes 的 type_name 等于 options 类名
- ARROW-13236 - [Python] 改进 pyarrow.compute.FunctionOptions 的 repr
- ARROW-13238 - [C++][Dataset][Compute] 替代数据集扫描的 ExecPlan 实现
- ARROW-13242 - [C++] 改进十进制随机数生成
- ARROW-13244 - [C++] 添加获取当前线程 ID 的功能
- ARROW-13258 - [Python] 改进 ParquetFileFragment 的 repr
- ARROW-13262 - [R] 将数据拉入 R 后 transmute() 失败
- ARROW-13273 - [C++] 不要仅在 Requires.private 的 CMake 路径中使用 .pc
- ARROW-13274 - [JS] 移除 Webpack
- ARROW-13275 - [JS] 修复性能测试
- ARROW-13276 - [GLib][Ruby][Flight] 添加对 ListFlights 的支持
- ARROW-13277 - [JS] 添加声明映射
- ARROW-13280 - [R] log 和 trig 函数的绑定
- ARROW-13282 - [C++] 删除过时的生成文件
- ARROW-13283 - [开发者工具] 支持在 archery docker run 中传递内存限制
- ARROW-13286 - [CI] 要求 docker-compose 1.27.0 或更高版本
- ARROW-13289 - [C++] 对数函数没有整数内核
- ARROW-13291 - [GLib][CI] 要求 gobject-introspection 3.4.5 或更高版本
- ARROW-13296 - [C++] 提供与反射兼容的枚举替换
- ARROW-13299 - [JS] 升级 ix 和 rxjs
- ARROW-13303 - [JS] 修改捆绑包
- ARROW-13306 - [Java][JDBC] 使用 ResultSetMetaData.getColumnLabel 代替 ResultSetMetaData.getColumnName
- ARROW-13313 - [C++][Compute] 添加 ScalarAggregateNode
- ARROW-13320 - [网站] 在 FAQ 中添加 MIME 类型
- ARROW-13323 - [Archery] 验证 docker compose 配置
- ARROW-13343 - [R] 更新 5.0 的 NEWS.md
- ARROW-13346 - [C++] 从 EnumType 中删除编译时解析
- ARROW-13355 - [R] 确保在我们的 revdep 作业中安装了 sf
- ARROW-13357 - [R] sign() 的绑定
- ARROW-13365 - [R] floor/ceiling/truncate 的绑定
- ARROW-13385 - [C++][Compute] 文档中关于向 FunctionRegistry 添加外部资源
- ARROW-13386 - [R][C++] CSV 流更改破坏 Rtools 35 32 位构建
- ARROW-13418 - [R] python.r 中的错别字
- ARROW-13461 - [Python][打包] 为 python 3.8 构建 M1 wheels
- PARQUET-1798 - [C++] 审查围绕自动分配 field_id 的逻辑
- PARQUET-1998 - [C++] 实现 LZ4_RAW 压缩
- PARQUET-2056 - [C++] 添加单独检索 ColumnReader 的字典和索引的能力