Apache Arrow 8.0.0 (2022年5月6日)
这是一个涵盖超过3个月开发的大版本发布。
下载
贡献者
该版本包含来自 127 位不同贡献者的 636 次提交。
$ git shortlog -sn apache-arrow-7.0.0..apache-arrow-8.0.0
43 Antoine Pitrou
40 David Li
39 Sutou Kouhei
36 Alenka Frim
29 Weston Pace
25 Rok
22 Dragoș Moldovan-Grünfeld
22 Joris Van den Bossche
20 Jonathan Keane
20 Krisztián Szűcs
19 Raúl Cumplido
17 Will Jones
16 Dewey Dunnington
13 david dali susanibar arce
12 Matthew Topol
10 Nic Crane
10 Yibo Cai
10 Vibhatha Abeykoon
9 Dominik Moritz
9 SHIMA Tatsuya
8 Neal Richardson
8 Sanjiban Sengupta
8 okadakk
8 Jacob Wujciak-Jens
7 Tobias Zagorni
7 Alessandro Molina
7 William Butler
6 Dhruv Vats
5 Yuqi Gu
5 Johnnathan
4 Anthony Louis
4 Projjal Chanda
4 Fiona La
4 Micah Kornfield
4 Bryan Cutler
3 Yaron Gvili
3 Ian Alexander Joiner
3 Vinicius Roque
3 ViniciusSouzaRoque
3 emkornfield
3 Chenxi Li
2 Jorge C. Leitao
2 Jose Almeida
2 assignUser
2 Uwe L. Korn
2 Todd Farmer
2 Tim Van Wassenhove
2 Rob Saccoccio
2 Alvin Chunga
2 Stephanie Hazlitt
2 Jeroen van Straten
2 Kyle Barron
2 Sasha Krassovsky
2 Eduardo Ponce
2 Salonijain27
2 liyafan82
2 JabariBooker
2 michalursa
2 Matthijs Brobbel
2 Danielle Navarro
2 Maya Anderson
2 Even Rouault
2 Joost Hoozemans
1 zhixingheyi-tian
1 SAm Albers
1 Alex McRae
1 Alfred Mountfield
1 Ali Amiri
1 Andrew Higgins
1 Andrew Strelsky
1 Andrii Oriekhov
1 Andy Teucher
1 Benjamin Kietzman
1 Benson Muite
1 Bob Matcuk
1 Chris Casola
1 Colin Jermain
1 Corentin
1 Dongjoon Hyun
1 Dooyoung-Hwang
1 Edward Visel
1 Elena Henderson
1 Frederic Branczyk
1 Haowei Yu
1 Hongze Zhang
1 Isaac Brodsky
1 James Duong
1 Johan Mattsson
1 João Pedro
1 Kazuaki Ishizaki
1 Kevin Gurney
1 Kian-Meng Ang
1 Laurent Goujon
1 Leo Di Donato
1 Li Jin
1 Min-Young Wu
1 MrMallIronmaker
1 Nate Clark
1 Nicolas Moreau
1 Nivia
1 Pradeep Garigipati
1 Rafael Telles
1 Romain Francois
1 Ryan Blue
1 Aakash Kumar
1 Sam Albers
1 Siddhant Rao
1 Stephan T. Lavavej
1 Thomas J. Fan
1 Tom Drabas
1 William Ayd
1 Xinyu Zeng
1 Yue Ni
1 Zac Farrell
1 bkmgit
1 burntcustard
1 fabiencelier
1 hankvyang
1 hzuo
1 iurysalino
1 jvictorhuguenin
1 jwijffels
1 karldw
1 marcbernot
1 okadak
1 ptaylor
1 shegden
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-7.0.0..apache-arrow-8.0.0
105 David Li
102 Antoine Pitrou
84 Sutou Kouhei
72 Jonathan Keane
47 Krisztián Szűcs
46 Joris Van den Bossche
30 Weston Pace
25 Nic Crane
23 Pindikura Ravindra
22 Matthew Topol
16 Alessandro Molina
15 Yibo Cai
15 Neal Richardson
14 Dominik Moritz
5 Bryan Cutler
5 GitHub
3 Ian Cook
2 liyafan82
2 Micah Kornfield
1 Matt Topol
1 Li Jin
1 Chao Sun
更新日志
Apache Arrow 8.0.0 (2022-05-06)
Bug 修复
- ARROW-5248 - [Python] 支持 zoneinfo / dateutil 时区
- ARROW-7350 - [Python] 将 parquet 统计信息解码为标量
- ARROW-9664 - [Python] Array/ChunkedArray.to_pandas 不支持 types_mapper 关键字
- ARROW-11415 - [R] map_batches 不接受数据集作为参数
- ARROW-13168 - [C++][R] 为 Windows 启用运行时时区数据库
- ARROW-13594 - [CI] 再次启用 nightly turbodbc 构建
- ARROW-13922 - [Python] 修复 ParquetDataset 在 len(path_or_paths) == 1 时抛出错误的问题
- ARROW-14047 - [C++] [Parquet] FileReader 在重复读取时返回不一致的结果
- ARROW-14215 - [R][CI] Conda Windows 构建因库名中包含空格而失败
- ARROW-14256 - [CI][Package] 重新启用已禁用的 conda 打包构建
- ARROW-14389 - [C++][Gandiva] 修复 LIKE 表达式的性能问题
- ARROW-14638 - [C++][R] 在 Arch Linux 上出现未知的 C 编译器 / ccache
- ARROW-14647 - [JS] 修复 bignumToNumber 对负数的处理
- ARROW-14665 - [JAVA] 修复 JdbcToArrow ResultSet 迭代错误
- ARROW-14708 - [C++] 添加缺失的 abseil 依赖以启用静态 flight 构建
- ARROW-14908 - [C++][R] 在 Windows 上数据集哈希连接导致段错误
- ARROW-14911 - [C++] arrow-compute-hash-join-node-test 失败
- ARROW-14960 - [C++] 基于我们未采纳的 Google 风格指南变更,在 Arrow 风格指南中添加一个例外
- ARROW-15018 - [Python] 在 Feather 序列化往返过程中 DataFrame 索引被修改
- ARROW-15092 - [R] 支持在非 Linux 系统上使用 create_package_with_all_dependencies()
- ARROW-15253 - [Python] 对于带有扩展类型索引的空 dataframe,to_pandas 出错
- ARROW-15272 - [Java] 在 ArrowVectorIterator#create 中将清理失败添加为抑制异常
- ARROW-15291 - [C++][Python] 如果 StructArray 包含 ExtensionArray,在 to_numpy 和 to_pandas 中发生段错误
- ARROW-15312 - [R][C++] 使用 is.na() 过滤 Parquet 数据集会漏掉一些行
- ARROW-15401 - [Python] Gdb 测试在 Windows 和 Apple M1 上失败
- ARROW-15426 - [C++][Gandiva] 更新 InExpressionNode 验证
- ARROW-15444 - [C++] 使用 GCC 7.5 编译在 aggregate_basic.cc 中失败
- ARROW-15465 - [Python] 在数据集测试中添加一些缺失的 parquet 标记
- ARROW-15502 - [Java] 在 Arrow 文件读取器中检测异常的页脚大小
- ARROW-15504 - [Python][CI] 确保可选组件被测试
- ARROW-15509 - [Go][Parquet] Parquet 命令崩溃
- ARROW-15511 - [Python][C++] 移除 numpy 索引器中的引用管理
- ARROW-15514 - [C++][Gandiva] 添加标志以启用 Gandiva 对象代码
- ARROW-15520 - [C++] 限定 `arrow_vendored::date::format()` 以实现 C++20 兼容性
- ARROW-15533 - [C++] 在 CI 中检查 ARROW_WITH_OPENTELEMETRY
- ARROW-15539 - [Archery] 将 ARROW_JEMALLOC 添加到构建选项中
- ARROW-15541 - [Python] 提高最低 Cython 版本
- ARROW-15544 - [Go][Parquet] 修复原始 schema 的 base64 解码
- ARROW-15546 - [FlightRPC][C++] 从 cookie 头部移除引号
- ARROW-15555 - [Release] 不要推送已存在的发布标签
- ARROW-15580 - [Python] 使 pytz 成为 PyArrow 的一个真正的可选依赖
- ARROW-15593 - [C++] 使 fork 后的 ThreadPool 重新初始化线程安全
- ARROW-15598 - [C++][Gandiva] 避免在生成的代码中使用硬编码的原始指针地址
- ARROW-15599 - [R] 使用 `T` 列类型选项将 CSV 文件中的列转换为亚秒级时间戳
- ARROW-15603 - [C++] 移除未使用的变量
- ARROW-15604 - [C++][CI] OpenTracing 偶发 ThreadSanitizer 失败
- ARROW-15604 - [C++][CI] OpenTracing 偶发 ThreadSanitizer 失败
- ARROW-15607 - [C++] 修复用于 AVX 检测的不正确的 CPUID 标志
- ARROW-15626 - [GLib] 修复 GArrowGIOInputStream 可能无法读取足够数据的错误
- ARROW-15627 - [R] 修复联合数据集的 schema 统一
- ARROW-15648 - [C++][Gandiva] 修复 Gandiva 缓存的大小
- ARROW-15651 - [JavaScript] 结构体错误地初始化了 null 值
- ARROW-15652 - [C++] 修复从 parquet 命名空间内部进行的 GDB pretty-printing
- ARROW-15659 - [R] strptime 在格式不匹配时应返回 NA (而不是错误)
- ARROW-15664 - [C++] parquet 读取器因非法 SIMD 指令而段错误
- ARROW-15667 - [R] 使用 ARROW_BUILD_STATIC=OFF 测试开发构建
- ARROW-15674 - [C++][Gandiva] Like 函数在某些情况下不能正确处理带有特殊字符的模式
- ARROW-15677 - [R] 在 ArrowObjects 上调用 invalidate() 方法导致后续段错误
- ARROW-15679 - [R] count 应返回一个未分组的 dataframe
- ARROW-15688 - [C++] add_checked 在持续时间溢出时不会报错
- ARROW-15699 - [C++][Gandiva] 修复 left 和 right 函数的实现…
- ARROW-15700 - [C++] 在 Ubuntu 18.04 上编译错误
- ARROW-15705 - [JavaScript] 允许在 StructBuilder 的子项中追加 null
- ARROW-15710 - [C++] arrow-threading-utility-test 间歇性死锁
- ARROW-15715 - [Go] ipc 修剪数组上的值偏移
- ARROW-15718 - [C++] 增加线程限制以解决线程问题
- ARROW-15720 - [CI] 修复 nightly dask 构建(因错误使用 Array.to_pandas 跳过失败测试)
- ARROW-15723 - [Python] orcWriter 写表时段错误
- ARROW-15727 - [Python] 允许将 MonthDayNano 区间列表转换为 Pandas
- ARROW-15728 - [Python] 降低 zstd test_ipc 的熵
- ARROW-15743 - [R] 尽管错误消息指示 `skip` 应连接到 `skip_rows`,但在 open_dataset 上并未连接
- ARROW-15746 - [Release][Java] 将缺失的产物添加到 tasks.yml
- ARROW-15748 - [Python] round temporal 选项默认单位是 `day` 但文档记录为 `second`。跟进
- ARROW-15748 - [Python] round temporal 选项默认单位是 `day` 但文档记录为 `second`
- ARROW-15757 - [Python] 缺少 existing_data_behavior 的绑定导致无法维持旧行为
- ARROW-15760 - [C++] 避免在 cmake 中对 git 的硬依赖(改为从 github 下载 tarball)
- ARROW-15770 - [CI] 并非所有 python 测试都在 CI 作业中运行
- ARROW-15772 - [Go][Flight] 服务器基本认证中间件/拦截器错误地进行 base64 解码
- ARROW-15778 - [Java] 将本地字节序设置到 schema 中
- ARROW-15783 - [Python] 在写入时初始化静态 pandas 数据
- ARROW-15784 - [C++][Python] 移除不再使用的标志 enable_parallel_column_conversion
- ARROW-15791 - [Go] ipc FileWriter 负 WaitGroup 计数器
- ARROW-15794 - [CI][Crossbow] Nightly 构建因 types_mapper 中的错误而失败
- ARROW-15815 - [C++][Parquet] 修复无效输入上的未定义行为
- ARROW-15819 - [R] R 文档版本切换器在 MacOS 的 Safari 上不工作
- ARROW-15830 - [C++] 在运行 Substrait 生成之前确保目标目录存在
- ARROW-15837 - [C++][Python] 阐明 ListArray::offsets() 的文档
- ARROW-15845 - [Python][Packaging] 修复 macOS wheel 构建
- ARROW-15847 - [Python][CI] 确保我们有一个禁用 parquet 加密的 nightly Python 构建
- ARROW-15847 - [Python] 使用 Parquet 但不使用 Parquet 加密进行构建会失败
- ARROW-15848 - [Gandiva][C++] 修复函数 istrue 和 is not true
- ARROW-15851 - [C++] 在使用 gRPC 构建时启用 RE2
- ARROW-15852 - [JS] 修复 `Table.getByteLength()` 抛出的错误
- ARROW-15857 - [R] rhub/fedora-clang-devel 无法安装 'sass' (rmarkdown 依赖)
- ARROW-15863 - [Packaging][C++][Python] 修复 conda 包构建
- ARROW-15869 - [C++] 修复 Valgrind 失败(未初始化值)
- ARROW-15888 - [Doc][Python] 现代化开发说明
- ARROW-15892 - [C++] Dataset API 需要 s3:ListBucket 权限
- ARROW-15895 - [R] R 文档版本切换器在 Chrome 上使用后退按钮时会消失并重新出现
- ARROW-15898 - [CI] 更彻底地清理旧的 conda nightlies
- ARROW-15905 - [Python][C++] 修复构建 PyArrow 时的 CMake 警告
- ARROW-15928 - [C++] 修复崩溃并为 replace_with_mask 函数实现分块数组支持
- ARROW-15929 - [R] io_thread_count 实际上是 CPU 线程数
- ARROW-15946 - [Go] 修复写入嵌套数据时 pqarrow.NewColumnWriter 中的内存泄漏
- ARROW-15949 - [Python] 在 Parquet 禁用时,不要求 Parquet 加密
- ARROW-15951 - [CI][Python] “测试 wheel” 步骤在测试出错时仍然成功
- ARROW-15954 - [Java] 升级后移除 mac 原生 netty kqueue 依赖
- ARROW-15960 - [C++] 修复自适应 int 构建器边缘情况下的崩溃
- ARROW-15962 - [C++][GANDIVA] 修复 unhex 错误返回
- ARROW-15965 - [C++][Python] 向 Python 添加 RoundToMultipleOptions 的 Scalar 构造函数
- ARROW-15970 - [R][CI] 重新启用 DuckDB 开发测试
- ARROW-15973 - [CI] 将 nightly 报告分为三部分:测试、打包、发布
- ARROW-15982 - [Python] parquet.read_table 无法解析主目录路径
- ARROW-15985 - [CI] 修复在没有文件可删除时 conda-clean 失败的问题
- ARROW-15987 - [C++][FlightRPC] 解决 AppVeyor 上 arrow-flight-test 崩溃问题
- ARROW-15993 - [CI] 将 sphinx-tabs 添加到 ci/conda_env_sphinx.txt
- ARROW-16012 - [C++] 当 Minio 未完全初始化时,在测试中重试 S3 请求
- ARROW-16013 - [C++][Python] 在 NumPyStridedConverter 中使用负步长时出现有符号溢出
- ARROW-16016 - [C++] 修复递归 ccache 调用错误
- ARROW-16019 - [C++] 最小化 Minio 连接错误的机会
- ARROW-16021 - [C++] arrow-compute-hash-join-node-test 在 MinGW 上超时
- ARROW-16025 - [Python][C++] 修复关闭 ORCFileWriter 时的段错误
- ARROW-16031 - [C++][Gandiva] 修复 Soundex 错误生成
- ARROW-16035 - [Java] 处理空的 JDBC ResultSet
- ARROW-16043 - [C++][Filesystem][S3] 为创建目录添加缺失的空内容
- ARROW-16048 - [Python] 避免向 Python 缓冲区协议暴露 null 缓冲区地址
- ARROW-16051 - [Gandiva][C++] 修复 datediff 回归构建
- ARROW-16052 - [R] 未定义的全局函数 %>%
- ARROW-16060 - [C++] subtract_checked 支持 timestamp("s") 和 date32
- ARROW-16071 - [R] 更多未定义的全局函数
- ARROW-16078 - 升级捆绑的 zlib 至 1.2.12
- ARROW-16099 - [JS] 压缩的 RecordBatches 应该抛出错误
- ARROW-16107 - [Dev][Archery] 修复 archery crossbow latest-prefix 查询
- ARROW-16110 - [C++] GcsFileSystem::Make 忽略 IOContext
- ARROW-16113 - [Python] 当字段子集是字典编码时,Partitioning.dictionaries 的情况
- ARROW-16131 - [C++] 支持在 IPC 文件中保存和检索批次的自定义元数据
- ARROW-16134 - [C++][GANDIVA] 修复 Concat_WS 错误返回
- ARROW-16136 - [Gandiva][C++] 修复 AddMappings 函数尺寸巨大的问题
- ARROW-16139 - [Python] 在 tests/test_dataset.py::test_write_dataset_s3 中崩溃
- ARROW-16143 - [Java] 升级 jackson 依赖 CVE-2020-36518
- ARROW-16143 - [Java] 升级 jackson 依赖 CVE-2020-36518
- ARROW-16146 - [C++] arrow-gcsfs-test 超时
- ARROW-16148 - [C++] TPC-H 生成器清理
- ARROW-16152 - [C++] 修复 Substrait 中未知函数的段错误
- ARROW-16159 - [C++][Python] 允许 FileSystem::DeleteDirContents 在目录不存在时成功
- ARROW-16162 - [C++][FlightRPC] 修复在 Ubuntu 18.04 上的 Flight 构建
- ARROW-16163 - [Go] 使用 ZSTD 压缩时 IPC FileReader 内存泄漏
- ARROW-16165 - [CI][Archery] 修复向 crossbow 发送报告的 nightly 查询
- ARROW-16169 - [C++][Gandiva] 修复 convert_fromUTF8_binary() 中的空字符串情况
- ARROW-16181 - [CI][C++] TPCH 节点测试中 Valgrind 失败
- ARROW-16182 - [C++][CI] TPCH 节点测试在 ThreadSanitizer 下超时
- ARROW-16185 - [C++] 修复 strptime 内核中未初始化的输出数据
- ARROW-16197 - [Docs] 修复损坏的链接
- ARROW-16205 - [C++][FlightRPC] 不使用 constexpr std::initializer_list
- ARROW-16209 - [JS] 支持在 Tables 上设置任意符号
- ARROW-16215 - [C++][FlightRPC] 修复 Windows 上 Flight 测试的段错误
- ARROW-16216 - [Python][FlightRPC] 修复当 Flight 不可用时 test_flight.py
- ARROW-16219 - [CI] 修复 git 配置以防止 SCM 工具失败
- ARROW-16223 - [C++] 修复 decimal 缩减小数位数的舍入问题
- ARROW-16225 - [C++][Parquet] 修复加密 AAD 随机字节生成的长度
- ARROW-16233 - [Python][Packaging] 在 Windows 上的打包 wheel 中,test_zoneinfo_tzinfo_to_string 因 zoneinfo._common.ZoneInfoNotFoundError 而失败
- ARROW-16235 - [C++] 修复 MinGW 的构建失败和编译器警告
- ARROW-16236 - [Python] [Packaging] test_s3fs_limited_permissions_create_bucket 在 MAC OS wheel 构建上因权限被拒绝而失败
- ARROW-16237 - [Docs] Apache Impala 不再处于孵化阶段
- ARROW-16238 - [C++] 修复预缓冲 IPC 读取时的空指针解引用
- ARROW-16261 - [C++] 修复在 HDFS 上使用 missing_dir_ok=True 的 DeleteDirContents
- ARROW-16262 - [CI][Integration] 跳过 kartothek 集成中失败的测试
- ARROW-16278 - [CI] 修复 brew 上 git 安装失败的问题
- ARROW-16278 - [CI] 修复 brew 上 git 安装失败的问题
- ARROW-16278 - [CI] 修复 brew 上 git 安装失败的问题
- ARROW-16293 - [CI][GLib] 使测试稳定
- ARROW-16295 - [CI][Release] 为 verify-rc-source-windows 使用 windows-2019
- ARROW-16300 - pc.sort_indices 使用不存在的列会抛出 malloc 错误
- ARROW-16301 - [C#][CI] 修复 .NET 6 的 docker 配置
- ARROW-16305 - [C++] 重命名期间错过了对 ARROW_ENGINE 的引用
- ARROW-16306 - [CI] 修复在 ubuntu 上的 Nightly verify rc
- ARROW-16307 - [Java][FlightRPC] 跳过不稳定的测试 TestDoExchange.testClientCancel
- ARROW-16311 - [Java] 当未请求时,不返回 table_schema 列
- ARROW-16312 - [C++][CI] 在 windows 验证构建中安装 tzdata
- ARROW-16313 - [R] 确保 assume_timezone 选项总是被初始化
- ARROW-16332 - [Release][Java] 添加上传产物的验证
- ARROW-16336 - [Python] ParquetDataset - 对用户隐藏内部 (common_)metadata 相关的警告
- ARROW-16374 - [R][C++] 在 sanitizer 运行时跳过另一个 snappy 测试
- ARROW-16375 - [R][CI] 将 Windows 上的 test-r-devdocs 固定到 R 4.1
- ARROW-16393 - [JAVA] 更新选项规范以接受 query, catalog, schema 和 table 的值
- ARROW-16413 - [Python] 某些数据集 API 在使用 python 文件系统时挂起
- ARROW-16417 - [C++][Python] 在 test_exec_plan.py / test_joins 中出现段错误
- ARROW-16419 - [Python] 正确等待 ExecPlan 完成
- ARROW-16442 - [Python][Dataset] 修复 ORC Dataset 的片段以使用 FileFragment 类
- PARQUET-2115 - [C++] Parquet 字典位宽限制为 32 位
- PARQUET-2118 - [C++] 不要假设标准指针
- PARQUET-2119 - [C++] 修复 DeltaBitPackDecoder fuzzer 发现的问题
- PARQUET-2123 - [C++] 修复 ScanFileContents 中的无效内存访问
- PARQUET-2124 - [C++] 移除 Parquet 字典的 DCHECK
- PARQUET-2130 - 修复在调试模式下使用非标准键名时的崩溃问题
- PARQUET-2131 - 数值解码的 DCHECK 应该是异常
新功能和改进
- ARROW-1888 - [C++] 实现结构体转换
- ARROW-3016 - [Docs][C++] 使用 perf 进行内存分析
- ARROW-3039 - [Go] 添加对 DictionaryArray 的支持
- ARROW-3998 - [C++] 添加 TPC-H 生成器
- ARROW-5107 - [Release] 验证非 RC 的源码和二进制产物
- ARROW-5598 - [Go] 将 array.Array{,Approx}Equal 重命名为 array.{,Approx}Equal
- ARROW-6780 - [C++][Parquet] 在读写 parquet 时支持 DurationType (作为 int64 写入)
- ARROW-7174 - [Python] 暴露 parquet dictionary_pagesize_limit 写入参数
- ARROW-7272 - [C++][Java][Dataset] RecordBatch 和 VectorSchemaRoot 之间的 JNI 桥
- ARROW-7914 - [Python] 允许 pandas datetime 作为 feather 的索引
- ARROW-9235 - [R] 在读写文件时支持 `connection` 类
- ARROW-9378 - [Go] 支持无符号字典索引
- ARROW-9947 - [Python] 用于文件 Parquet 加密的高级 Python API
- ARROW-10643 - [Python] Pandas<->pyarrow 往返未能为 R 空 dataframe 重新创建索引
- ARROW-10924 - [C++] 在 ValidateArrayFull 中验证时态数据
- ARROW-11071 - [R][CI] 在测试中使用 processx 设置 minio 和 flight 服务器
- ARROW-11259 - [Python] 允许创建对嵌套字段的字段引用
- ARROW-11989 - [C++][Python] 提高 ChunkedArray 访问元素的复杂度
- ARROW-12515 - [Dev][Wiki][Release] 修复并更新 Windows RC 验证脚本
- ARROW-12516 - [C++][Gandiva] 实现 castINTERVALDAY(varchar) 和 castINTERVALYEAR(varchar) 函数
- ARROW-12659 - [C++] 支持 is_valid 作为保证
- ARROW-12743 - [R] 为开发依赖添加 DESCRIPTION 字段
- ARROW-13185 - [MATLAB] 创建一个单一的 MEX 网关函数,委托给特定的 C++ 函数
- ARROW-13204 - [MATLAB] 更新 MATLAB 接口的文档,以反映最新的 CMake 构建系统更改
- ARROW-13231 - [Doc] 添加 ORC 文档
- ARROW-13260 - [Doc] 托管不同发布版本的文档 + 版本切换器
- ARROW-13337 - [R] 定义 Math 组泛型
- ARROW-13375 - [C++][Gandiva] 在 Gandiva 上实现 POSITIVE 和 NEGATIVE Hive 函数
- ARROW-13409 - [C++][FlightRPC] 暴露带截止时间的服务器关闭功能
- ARROW-13564 - [Dev] 在集成拉取请求时,检查单个提交消息中的 "Co-authored-by:" 标签
- ARROW-13616 - [R] 速查表结构
- ARROW-13683 - [R] 测试 Windows UCRT R
- ARROW-13703 - [Python][R] 为新的数据集写入选项添加绑定
- ARROW-13993 - [C++][Compute] 添加 hash_one 聚合函数
- ARROW-14075 - [C++][CI] 为 VisualStudio 2019(非 conda)添加一个 appveyor CI 作业
- ARROW-14091 - [C++] add(date, duration) -> timestamp 内核
- ARROW-14093 - [C++] subtract(date, date) -> duration 内核
- ARROW-14094 - [C++] add(timestamp, duration) -> timestamp 内核
- ARROW-14095 - [C++] subtract(timestamp, duration) -> timestamp 内核
- ARROW-14096 - [C++] add(time, duration) -> time 内核
- ARROW-14097 - [C++] subtract(time, duration) -> time 内核
- ARROW-14098 - [C++] subtract(time, time) -> duration 内核
- ARROW-14099 - [C++] add(duration, duration) -> duration 内核
- ARROW-14100 - [C++] subtract(duration, duration) -> duration 内核
- ARROW-14101 - [C++] multiply(duration, integer) -> duration 内核
- ARROW-14102 - [C++] divide(duration, integer) -> duration 内核
- ARROW-14153 - [C++][Dataset] 在 ORC 扫描器中添加对 batch_size 的支持
- ARROW-14168 - [R] 对 arrow 函数的差异只警告一次
- ARROW-14169 - [R] 因子的 altrep
- ARROW-14199 - [R] format 的绑定(在可能的情况下)
- ARROW-14266 - [R] 使用 WriteNode 来写入查询
- ARROW-14279 - [Docs] 描述 PyArrow 库结构的初步尝试
- ARROW-14292 - [C++][Python] 表连接的基础
- ARROW-14293 - [Python] PyArrow 中的基本连接功能
- ARROW-14322 - [Doc] 添加关于如何连接 Python 和其他语言的 Python 文档
- ARROW-14333 - [C++][Compute] 将二进制和 LargeStringType 测试添加到比较内核
- ARROW-14339 - [Docs] 向 pkgdown (R) 文档添加规范 URL
- ARROW-14442 - [R] 修复转换带有 "" 作为时区的时间戳时的行为
- ARROW-14444 - [C++] 在可执行流水线中实现基于任务的模型
- ARROW-14498 - [Docs] 使之可以用额外的补丁重新生成旧的文档
- ARROW-14502 - [C++][Gandiva] 添加 DayOfMonth 测试
- ARROW-14506 - [C++] 对 google-cloud-cpp 的 Conda 支持
- ARROW-14553 - [Doc] Java Cookbook 第1版
- ARROW-14579 - [Documentation] 记录 CI
- ARROW-14591 - [R] 实现对 lubridate 持续时间类型的绑定
- ARROW-14612 - [C++] 支持基于文件名的分区
- ARROW-14631 - [C++][Gandiva] 实现 Nextday 函数
- ARROW-14651 - [Release][Archery] 添加下载重试支持
- ARROW-14672 - [Docs] 记录如何在 Python 和 Java 之间交换数据
- ARROW-14679 - [R][C++] 在连接中处理后缀参数
- ARROW-14698 - [Docs][FlightRPC] 为 Flight SQL 添加 API 文档
- ARROW-14702 - [Doc][C++] 记录线程模型
- ARROW-14745 - [R] 启用真正的 duckdb 流式处理
- ARROW-14776 - [Website] 不在合并提交消息中包含被压缩的提交
- ARROW-14798 - [C++][Python][R] 向 PrettyPrintOptions 添加容器窗口
- ARROW-14808 - [R] 实现 `lubridate::date()` 的绑定
- ARROW-14810 - [R] 实现 lubridate 的 `date_decimal()` 和 `decimal_date()` 的绑定
- ARROW-14815 - [R] `lubridate::semester()` 的绑定
- ARROW-14817 - [R] 实现 `lubridate::tz()` 的绑定
- ARROW-14823 - [R] 实现 lubridate::leap_year 的绑定
- ARROW-14824 - [R] 实现 lubridate::epiyear() 的绑定
- ARROW-14825 - [C++] 用于提取 epiyear 的时间分量提取函数
- ARROW-14826 - [R] 实现 `lubridate::dst()` 的绑定
- ARROW-14827 - [C++] 用于提取夏令时指示符的时间分量提取函数
- ARROW-14893 - [C++] 允许从 URI 创建 GCS 文件系统
- ARROW-14927 - [CI] 将 Fedora 33 升级到 Fedora 35
- ARROW-14942 - [R] lubridate 的 dpicoseconds, dnanoseconds, desconds, dmilliseconds, dmicroseconds 的绑定
- ARROW-14943 - [R] lubridate 的 ddays, dhours, dminutes, dmonths, dweeks, dyears 的绑定
- ARROW-14944 - [R] 实现 `lubridate::make_difftime()`
- ARROW-14963 - [Doc] 向代码块添加复制按钮扩展
- ARROW-14993 - [C++] CSV 写入器基准测试
- ARROW-14997 - [Python][Doc] 将 thread_count 函数添加到 API 文档中
- ARROW-15013 - [R] 在 R 层面暴露 concatenate
- ARROW-15015 - [R] 用于确保所有测试都运行的测试/CI 标志?
- ARROW-15020 - [R] 为新的数据集写入选项添加绑定
- ARROW-15040 - [R] 使 write_csv_arrow 能够接受 Dataset 或 arrow_dplyr_query 作为输入
- ARROW-15061 - [C++] 为内核函数和执行计划节点添加日志记录
- ARROW-15062 - [C++] 向当前跨度添加内存信息
- ARROW-15064 - [C++] 向量化 CSV 写入器中的 CheckStringHasNoStructuralChars
- ARROW-15066 - [C++] 允许使用非捆绑的 OpenTelemetry
- ARROW-15067 - [C++] 向扫描器添加跟踪跨度
- ARROW-15080 - [Python][C++] 允许将元组转换为 interval
- ARROW-15089 - [C++][Compute] 实现内核以查找给定键的 MapArray 项
- ARROW-15098 - [R] 添加 `lubridate::duration()` 和/或 `as.difftime()` 的绑定
- ARROW-15118 - [C++] 如果所有输入都有效,则为标量内核避免位图缓冲区
- ARROW-15152 - [C++][Compute] 实现 hash_list 聚合函数
- ARROW-15156 - [Doc] 为 Java 文档实现教程
- ARROW-15157 - [Doc] 新贡献者指南 v2
- ARROW-15163 - [R] 8.0.0 的 lubridate 函数
- ARROW-15167 - [R] 提高 decimal 转换的效率
- ARROW-15168 - [R] 为创建主要 Arrow 对象添加 S3 泛型
- ARROW-15178 - [Java][Docs] Java 教程:Java 开发者文档
- ARROW-15180 - 记录如何为 C++ 特性添加 JNI 绑定
- ARROW-15183 - [Python][Docs] 添加缺失的数据集写入选项
- ARROW-15192 - [Java] 允许使用 Jackson 2.12 及更高版本
- ARROW-15195 - [MATLAB] 在 macOS 上为 MATLAB 接口启用 GitHub Actions CI
- ARROW-15197 - [C++] UTF-8 字符串重复内核
- ARROW-15212 - [C++] 在连接中处理后缀参数
- ARROW-15215 - [C++] 在 replace_with_mask, case_when, coalesce, choose, fill_null_forward, fill_null_backward 之间整合内核数据复制工具
- ARROW-15223 - [C++] 实现 Not Between 三元内核
- ARROW-15238 - [C++] 带有 substrait 消费者的 ARROW_ENGINE 模块
- ARROW-15239 - [C++][Compute] 添加布隆过滤器实现
- ARROW-15258 - [C++] 从表中创建源节点的简单选项
- ARROW-15262 - [C++] 创建一个 ToTable 接收节点
- ARROW-15281 - [C++] 实现检索片段文件名的能力
- ARROW-15282 - [C++][FlightRPC] 将数据方法与底层传输分离
- ARROW-15294 - [R] 移除 arrow-without-arrow 和其他 Solaris 技巧
- ARROW-15296 - [CI][GO] 将 Go staticcheck 代码检查添加到 CI lint 作业中
- ARROW-15299 - [R] 调查 {remotes} 依赖的 "soft" 与 TRUE
- ARROW-15313 - [C++][Java][FlightRPC] 在 flight-sql 中实现类型信息方法
- ARROW-15314 - [C++][Java][FlightRPC] 在 Flight SQL 返回的 Arrow schema 上添加缺失的元数据
- ARROW-15321 - [Dev][Python] 也对 Cython 生成的方法进行 numpydoc 验证
- ARROW-15346 - [Doc][Guide] Arrow 代码库 - 小修正
- ARROW-15347 - [Doc][Guide] 更新新贡献者指南中的测试部分
- ARROW-15348 - [Doc][Guide] PR 的生命周期 - 小修正
- ARROW-15349 - [Doc][Guide] 现有贡献者页面 - 更新
- ARROW-15350 - [Doc][Guide] 添加样式和代码检查器信息部分
- ARROW-15351 - [Doc][Guide] R 绑定的附加教程
- ARROW-15352 - [Doc][Guide] R 包和 make clean
- ARROW-15353 - [Doc][Guide] CI 主题简介并链接到现有文档
- ARROW-15364 - [Python] 更新读取文档字符串中的文件系统条目以反映当前行为
- ARROW-15366 - [Docs] 自动化 R 和非 R 版本切换器的包版本递增
- ARROW-15367 - [Python] 改进 8.0.0 的类和方法文档字符串
- ARROW-15369 - [Doc] 调整示例以使用对 str 指针的新支持
- ARROW-15374 - [C++][FlightRPC] 在数据方法中添加对 MemoryManager 的支持
- ARROW-15389 - [C++][Dev] 改进 GDB 插件中的数组预览
- ARROW-15400 - [Go][CI] 在 arm 机器上进行构建练习
- ARROW-15410 - [C++][Datasets] 改进扫描 parquet 时数据集 API 的内存使用
- ARROW-15418 - [Go][Flight] 更新 gRPC 版本,隐藏实现细节
- ARROW-15425 - [C++] 将文件格式中的增量字典添加到集成测试中
- ARROW-15428 - [Python] 处理 Parquet 类和函数中的文档字符串
- ARROW-15429 - [Python] 处理 ChunkedArray 类、方法、属性和构造函数的文档字符串
- ARROW-15431 - [Python] 处理 Schema 中的文档字符串
- ARROW-15432 - [Python] 处理 CSV 文档字符串
- ARROW-15440 - [Go] 使用 Arm64 GoLang 汇编实现 'unpack_bool'
- ARROW-15450 - [Python][Wheel] 在 macOS 测试期间 Flight 测试收到 SIGKILL
- ARROW-15462 - [GLib] 添加 GArrow{Month,DayTime,MonthDayNano}Interval{Scalar,Array,ArrayBuilder}
- ARROW-15468 - [R][CI] 一个针对 DuckDB 开发分支进行测试的 crossbow 作业
- ARROW-15471 - [R] R 中的 ExtensionType 支持
- ARROW-15472 - [Website] 添加 Flight SQL 博客文章
- ARROW-15477 - [C++][Python] 允许从数组和类型创建 (FixedSize/Large)ListArray
- ARROW-15480 - [R] 扩展 schema/colnames 不匹配的错误消息
- ARROW-15483 - [Release] 改进验证脚本
- ARROW-15487 - [FlightRPC][C++][GLib][Python][R] 实现 FlightClient::Close
- ARROW-15489 - [R] 扩展 RecordBatchReader 的可用性
- ARROW-15491 - [Website] 轮换 2022 年的 PMC 主席
- ARROW-15497 - [C++][Homebrew] 使用 Clang Tools 12
- ARROW-15501 - [Java] 支持验证 decimal 向量
- ARROW-15503 - [GLib][Release] 避免弃用警告
- ARROW-15505 - [C++][Compute] 在乘积聚合中支持 null 类型
- ARROW-15506 - [C++][Compute] 在 hash_sum/hash_product/hash_mean 中支持 Null 类型
- ARROW-15510 - [C++][FlightRPC] 向基准测试添加 CUDA 内存管理器支持
- ARROW-15515 - [C++] 使用新选项更新 ExecPlan 示例代码和文档
- ARROW-15517 - [R] 在 write_dataset() 中使用 WriteNode
- ARROW-15523 - [Python] 支持将 Datasets 作为连接的输入
- ARROW-15524 - [Python] 使连接能够接收 Tables 作为输入
- ARROW-15525 - [Python] 使连接能够输出 Table 作为结果。
- ARROW-15526 - [Python] 支持 Dataset.join
- ARROW-15527 - [Python] 使 Joins 能够执行连接操作
- ARROW-15532 - [C++] 修复 StringClassifyDoc 的未使用警告
- ARROW-15542 - [GLib][Parquet] 添加 GParquet*Metadata
- ARROW-15550 - [C++] 添加可选的调试内存检查
- ARROW-15551 - [C++][FlightRPC] 更新 gRPC TLS 选项检测以适配 1.43 版本
- ARROW-15552 - [Doc][Format] 移除对 base64 的错误提及
- ARROW-15556 - [Release] 添加一个脚本来更新 Homebrew 包
- ARROW-15569 - [Packaging][deb] 使用 gem 而不是 apt 来安装 gobject-introspection gem
- ARROW-15570 - [CI][Nightly] 放弃 centos-8 R nightly 作业
- ARROW-15572 - [Java][Docs] 向 Java 文档添加安装部分
- ARROW-15573 - [Java][Doc] 记录 Apache Arrow 内存管理
- ARROW-15574 - [Java][Doc] 审查现有文档
- ARROW-15575 - [Java][Doc] Datasets 教程
- ARROW-15576 - [Java][Doc] 记录用于 2D 数据的 VectorSchemaRoots
- ARROW-15577 - [Java][Doc] 添加 Arrow Flight 文档
- ARROW-15578 - [Java][Doc] 记录 C 数据接口以及如何与其他语言交互
- ARROW-15579 - [C++] 添加 MemoryManager::CopyBuffer(const Buffer&)
- ARROW-15594 - [C++][FlightRPC] 向各种 Flight 类型添加 Deserialize(const Buffer&)
- ARROW-15595 - [Release][Ruby] 添加对 MFA 的支持
- ARROW-15600 - [C++][FlightRPC] 添加最小的 Flight SQL 查询示例
- ARROW-15601 - [Docs][Release] 更新发布后脚本以移动稳定版文档 + 保留开发版文档
- ARROW-15605 - [CI][R] 在我们的 autobrew CI 作业中继续使用旧的 macos runner
- ARROW-15606 - [CI][R] 添加一个执行 R 包的 brew 构建
- ARROW-15609 - [C++][Compute] 支持仅有键的 hash_aggregate
- ARROW-15611 - [C++] 将 arrow::ipc::internal::json::ArrayFromJSON 迁移到 Result<>
- ARROW-15614 - [C++] 添加 sqrt 二元标量内核
- ARROW-15617 - [Doc][C++] 记录环境变量
- ARROW-15619 - [C++] 用于提取 is_leap_year 指示符的时间分量提取函数
- ARROW-15623 - [C++][Python] 更新 developers/python.rst(控制台块 + archery 安装中的 "")
- ARROW-15625 - [C++] 在示例可执行文件名中将下划线转换成连字符
- ARROW-15629 - [GLib] 添加 garrow_{,large_}string_array_builder_append_string_len()
- ARROW-15630 - [Release][MSYS2] 也更新反向依赖
- ARROW-15631 - [Packaging][RPM] 向 libs 包添加主版本号
- ARROW-15632 - [R] 精简捆绑的 libarrow 源码
- ARROW-15633 - [R] 跳过需要网络连接的 s3_bucket 示例
- ARROW-15634 - [C++][Packaging] 提高 MacOS 的 java-jars nightly 构建的编译速度
- ARROW-15643 - [C++] 允许通过转换选择 StructArray 的字段子集
- ARROW-15650 - [MATLAB] 重命名 MEX 网关函数
- ARROW-15653 - [R][CI] 修复捆绑的 cpp 源码的测试
- ARROW-15656 - [C++][R] 使 valgrind 构建稍微快一些
- ARROW-15657 - [C++][Java] 将 Apache ORC 升级到 1.7.3
- ARROW-15665 - [C++] 修复 strptime 中无效输入的 error_is_null
- ARROW-15665 - [C++] 向 StrptimeOptions 添加错误处理选项
- ARROW-15670 - [C++/Python/Packaging] 更新 conda 固定版本并在 Windows 上启用 GCS
- ARROW-15672 - [C++] 允许 CSV 写入器控制字段分隔符
- ARROW-15673 - [R] 如果 DuckDB 未安装,则优雅地报错
- ARROW-15680 - [C++] 当舍入到周的倍数时,时间 floor/ceil/round 应接受 week_starts_monday
- ARROW-15682 - [CI] Github 开始将 "windows-latest" 标签从 windows 2019 迁移到 windows 2022
- ARROW-15683 - [Website][Rust][DataFusion] 发布 7.0.0 版本公告博客
- ARROW-15690 - [Dev] 更新硬编码 master 为默认分支的 GitHub Actions 工作流
- ARROW-15692 - [Dev] 更新发布脚本以使用默认分支
- ARROW-15694 - [Dev] 更新 apache/arrow-site GitHub Actions deploy.yml 网站部署工作流以支持在推送到 main 时触发
- ARROW-15697 - [R] 向 pkgdown 站点添加徽标和元标签
- ARROW-15698 - [Integration] 将测试中的一些代码私有化
- ARROW-15701 - [R] month() 应该允许整数输入
- ARROW-15706 - [C++][FlightRPC] 实现 UCX 传输
- ARROW-15707 - [C++][FlightRPC] 使 Flight 测试在不同传输之间更具可重用性
- ARROW-15708 - [R][CI] 在 clang sanitizer 上跳过 snappy 编码的 parquets
- ARROW-15709 - [C++] 如果进行“内联”构建,ARROW_ENGINE 的编译会失败
- ARROW-15709 - [C++] 撤销更改
- ARROW-15709 - [C++] 如果进行“内联”构建,ARROW_ENGINE 的编译会失败
- ARROW-15712 - [R] 为 `Expression` 对象添加 `type` 方法
- ARROW-15714 - [C++][Gandiva] 增加 gandiva protobuf 解析器中的 protobuf 递归限制
- ARROW-15717 - [Docs] 将 hash_one 添加到文档中
- ARROW-15721 - [Docs][FlightRPC] 将 Flight/Flight SQL 添加到子项目中
- ARROW-15722 - [Java] 改进子项不正确的嵌套类型的错误消息
- ARROW-15726 - [C++] 如果未提供 projected_schema 但提供了绑定的投影表达式,则应使用该表达式来推断 projected_schema
- ARROW-15739 - [C++] 将 xsimd 更新到最新版本
- ARROW-15740 - [C++][Compute] 元素级 min/max 基准测试
- ARROW-15741 - [Doc][Format] 阐明 C 流接口的线程安全性
- ARROW-15742 - [Go] 使用 Arm64 GoLang 汇编实现 'bitmap_neon'
- ARROW-15744 - [Gandiva][C++] 为 interval 类型添加 NEGATIVE 函数
- ARROW-15749 - [Ruby] 为 Month Interval Type 的 #values 添加支持
- ARROW-15750 - [Ruby] 为 Month Interval Type 的 #raw_records 添加支持
- ARROW-15755 - [Java] 支持 Java 17
- ARROW-15763 - [C++] 提高 CSV 写入性能
- ARROW-15766 - [R] 实现 lubridate::duration() 的绑定
- ARROW-15769 - [C++] 生成更少的算术内核
- ARROW-15775 - [R] 清理 as.* 方法以使用 build_expr()
- ARROW-15776 - [Python] 暴露 IpcReadOptions
- ARROW-15777 - [Python][Flight] 允许将 IpcReadOptions 传递给 FlightCallOptions
- ARROW-15781 - [Python] 在 ensure_complete_metadata 中释放 GIL
- ARROW-15782 - [C++] 修复 Findre2Alt.cmake,使其首先检查 RE2_ROOT 变量
- ARROW-15788 - [C++][FlightRPC] 为替代传输方式准备基准测试
- ARROW-15789 - [C++] 将 OpenTelemetry 更新至 v1.2.0
- ARROW-15795 - [Java] 为带时区的时间戳向量添加时区 getter
- ARROW-15796 - [Python] Pickling ParquetFileFragment 不应获取元数据
- ARROW-15799 - [R] 更新 as.Date() 以支持非 epoch 的 origin
-
ARROW-15800 - [R] 实现
lubridate::as_date()和lubridate::as_datetime()的绑定 - ARROW-15801 - [R] 实现 lubridate 日期时间辅助函数的绑定
-
ARROW-15802 - [R] 为
lubridate::make_datetime()和lubridate::make_date()实现绑定 - ARROW-15810 - [CI][Nightly] 严格检查 R 相关镜像
- ARROW-15814 - [R][DOCS] 改进 cast() 的文档
- ARROW-15817 - [R] 使用 TableSourceNode 替代 InMemoryDataset
- ARROW-15818 - [R] 在 R 绑定中实现初始的 Substrait consumer
- ARROW-15820 - [C++][Doc] 在 streaming_execution.rst 中添加 table_source 并阐明参数名称
- ARROW-15821 - [JS] 修复目录中 sourcemap 的路径问题
- ARROW-15823 - [C++][Python] 添加将 Table 转换为 RecordBatchReader 的方法
- ARROW-15824 - [Python] 使 pyarrow.parquet 成为一个包
- ARROW-15827 - [R] 改善 write_dataset(..., max_rows_per_group) 的用户体验
- ARROW-15831 - [Java] 升级 Flight 依赖项
- ARROW-15841 - [R] 实现 SafeCallIntoR 以安全地从其他线程调用 R API
- ARROW-15844 - [Release][Packaging] 分离签名使用 ASCII 格式
- ARROW-15846 - [Format] 阐明 struct 有效性位图的存在性
- ARROW-15850 - [C++] Engine substrait 头文件在安装时缺失
- ARROW-15854 - [C++] 优化 CSV 写入器代码
- ARROW-15860 - [Python] 为 RecordBatchReader 编写文档
- ARROW-15864 - [Java][Docs] 更新 Arrow nightly Maven releases 文档
- ARROW-15866 - [Packaging][Ubuntu] 停止对 Ubuntu 21.04 的支持
- ARROW-15870 - [Python] 开始对 parquet.read_table 中 use_legacy_dataset=True 的用法发出弃用警告
- ARROW-15871 - [Python] 开始对新 API 不支持的 ParquetDataset 关键字发出弃用警告
- ARROW-15873 - [CI] 从 Ubuntu 21.04 迁移到 22.04
- ARROW-15875 - [R] 为输入流暴露 ReadMetadata
- ARROW-15882 - [Python][CI] 确保在 nightly hypothesis 构建中运行 hypothesis 测试
- ARROW-15885 - [Ruby] 为 DayTime Interval Type 的 #values 添加支持
- ARROW-15886 - [Ruby] 为 DayTimeInterval type 的 #raw_records 添加支持
- ARROW-15890 - [CI][Python] 使用 venv 替代 virtualenv
- ARROW-15896 - [Python][C++] 为文件系统的“文件未找到”错误添加 errno 详情
- ARROW-15900 - [C++] 支持 Substrait 读取 Feather 格式的本地文件
- ARROW-15902 - [Website] 添加新的提交者:Raphael Taylor-Davies, Wang Xudong (王旭东), Yijie Shen (申毅杰), Kun Liu (刘昆)
- ARROW-15916 - [Packaging][RPM] 添加对 CentOS Stream 8 的支持
- ARROW-15917 - [Java][Docs] 记录如何使用 Flight artifacts
- ARROW-15918 - [Ruby] [{day:, millisecond:}, ...] )
- ARROW-15919 - [C++] 添加与时间戳和时长计算不可交换的函数
- ARROW-15921 - [Format][FlightRPC][C++][Java] 阐明 FlightEndpoint.locations 的解释
- ARROW-15923 - [Packaging][Linux] 启用 GCS 支持
- ARROW-15924 - [Ruby] 为 MonthDayNanoInterval type 的 #values 添加支持
- ARROW-15925 - [Ruby] 为 MonthDayNanoInterval type 的 #raw_records 添加支持
- ARROW-15931 - [Website] 在 apache/arrow-site 仓库中添加明确的 Apache LICENSE.txt 和 NOTICE.txt 文件
- ARROW-15932 - [C++][FlightRPC] 为通用 Flight 套件添加更多测试
- ARROW-15934 - [Python] 在 python 中暴露 write_batch_size
- ARROW-15935 - [Ruby] 为 Arrow::DictionaryArray#values 添加测试
- ARROW-15939 - [Python] 为 JSON 选项类添加 pickle 支持
- ARROW-15940 - [Gandiva][C++] 为 decimal 数据类型添加 NEGATIVE 函数
- ARROW-15941 - [C++] 允许通过环境变量覆盖 IO 线程数
- ARROW-15944 - [Docs][C++] 为在 Arch Linux 上构建记录依赖项
- ARROW-15947 - [R] 为 arrow_dplyr_query 添加 rename_with s3 方法
- ARROW-15950 - [Go] 将 BitSetRunReader 提升至 internal/bitutils 包
- ARROW-15952 - [C++] 记录 Visitors 并完成 Scalar::Accept
- ARROW-15955 - [Packaging][RPM] 在 CentOS Stream 8 构建镜像中添加缺失的 json-devel
- ARROW-15956 - [Java] 整合 Flight 集成测试代码
- ARROW-15963 - [Go][Parquet] 简化 ReaderAtSeeker 接口
- ARROW-15968 - [C++] 更新 AsyncGenerator 语义,使其仅在所有未完成的 future 完成后才发出终止项
- ARROW-15972 - [Java][Doc] 添加入门指南部分
- ARROW-15974 - [C++] 迁移 flight/types.h 头文件定义以使用 Result<>
- ARROW-15975 - [C++] 记录类型特征和内联访问器
- ARROW-15976 - [C++] 清理执行计划示例的注释
- ARROW-15979 - [C++][Doc] 在文档中暴露更多 parquet::WriterProperties 的函数
- ARROW-15984 - [C++] 更改 RecordBatchReader API 以使用 Result<>
- ARROW-15989 - [R] 为 Table 和 RecordBatch 实现 rbind 和 cbind
- ARROW-15994 - [C++] 撤销 taskify 的更改
- ARROW-15995 - [GO] 提升 'sum_float64_neon' 性能
- ARROW-15998 - [Docs][CI] 使用 sphinx-design 标签页替代 sphinx-tabs
- ARROW-15999 - [Python] 在使用 hypothesis 的测试中关闭截止时间
- ARROW-16007 - [R] grepl 绑定对 NA 输入返回 FALSE
- ARROW-16011 - [R] 如果 lintr 发现问题,CI 作业应失败
- ARROW-16014 - [C++] 创建更多基准测试以衡量表达式评估开销
- ARROW-16026 - [C++] 为串行执行器添加支持,以将异步生成器暴露为可迭代对象
- ARROW-16032 - [C++] 迁移 FlightClient API 至 Result<>
- ARROW-16033 - [C++] 将 schema 传递给消费型 sink 节点
-
ARROW-16038 - [R] 设置 mutate 的
.keep选项时,行为与 dplyr 不同 - ARROW-16042 - [GO] 修复头文件预处理器问题
- ARROW-16044 - [Julia] 从 apache/arrow 中移除
- ARROW-16046 - [Docs][FlightRPC][Python] 确保 Flight Python API 已被记录
- ARROW-16049 - [C++][FlightRPC] 修复 Flight SQL 的 ColumnMetadata 构造函数可见性
- ARROW-16053 - [C++][FlightRPC] 修复不稳定的测试 TestAuthHandler.FailUnauthenticatedCalls
- ARROW-16055 - [C++][Gandiva] 在使用对象代码缓存时,缓存命中时跳过不必要的工作
- ARROW-16057 - [Python] 处理 RecordBatch 类的类、方法、属性和构造函数的文档字符串
- ARROW-16058 - [Python] 处理 Table 类的类、方法、属性和构造函数的文档字符串
- ARROW-16059 - [Python] 处理 Tensor 类的文档字符串
- ARROW-16061 - [R][CI] 加速 Windows 3.6 构建
- ARROW-16062 - [Python] 将 libarrow_python 的 include 定义移动到其自己的文件中
- ARROW-16064 - [Java][C++][FlightRPC] 在 FlightSQL 上为类型名添加缺失的列元数据
- ARROW-16065 - [FlightRPC][Docs] 改进 Flight 文档
- ARROW-16068 - [C++][FlightRPC] 将剩余的 flight API 迁移为使用 Result<>
- ARROW-16069 - [C++][FlightRPC] 重构 gRPC 错误代码处理
- ARROW-16073 - [R] 在 tzdb 在 Windows 上可用后,清理日期时间单元测试
- ARROW-16074 - [Docs] 记录连接 (join) 操作
- ARROW-16079 - [Python] 处理 Parquet 模式和元数据中的文档字符串
- ARROW-16082 - [Flight][Go] 允许指定一个 net.Listener
- ARROW-16098 - [JS] 不在 table 和 recordbatch 迭代器中返回 null
- ARROW-16102 - [C++] 添加对使用系统 gRPC 和捆绑的 GCS 进行构建的支持
- ARROW-16104 - [Packaging] 添加对 Ubuntu 22.04 的支持
- ARROW-16105 - [C++][Gandiva] 添加对 LLVM 14 的支持
- ARROW-16109 - [Python] 为测试添加 dataset 标记以避免失败
- ARROW-16114 - [Docs][Python] 记录 Parquet FileMetaData
- ARROW-16117 - [JS] 提高解码 UTF8 的性能
- ARROW-16120 - [Python] ParquetDataset 弃用:将 Deprecation 更改为 FutureWarnings
- ARROW-16121 - [Python] 弃用 ParquetDataset 的 (common_)metadata(_path) 属性
- ARROW-16122 - [Python] 在 parquet.write_to_dataset 中更改 use_legacy_dataset 默认值并弃用不再支持的关键字
- ARROW-16128 - [C++][FlightRPC] 修复 Windows 上的 Flight SQL 静态构建
- ARROW-16132 - [Packaging][deb][CUDA] 放宽 libcuda1 依赖
-
ARROW-16154 - [R] 通过
handle_csv_read_error()和handle_parquet_io_error()的错误需要更好的错误追踪 - ARROW-16156 - [R] 在 .onAttach() 中阐明未开启功能的警告信息
- ARROW-16158 - [C++][R] 将 ARROW_ENGINE 重命名为 ARROW_SUBSTRAIT
- ARROW-16166 - [C++][Compute] 用于组装连接输出的实用工具
- ARROW-16167 - [JS] 重构 get 和 set 访问器
- ARROW-16173 - [C++] 为时间函数/内核添加基准测试
- ARROW-16176 - [Release][C#] 在 Ubuntu 22.04 上使用 .NET 6.0
- ARROW-16186 - [C++][GANDIVA] 为 decimal、quarter、xor 等添加别名和测试
- ARROW-16187 - [Go][Parquet] 在读取时正确利用 BufferedStream 和缓冲区大小
- ARROW-16192 - [Go] 移除 v8 的已弃用别名
- ARROW-16193 - [Go] 用 golang.org/x/sys/cpu 模块替换 CPU 发现包
- ARROW-16198 - [CI][Packaging][Python] 更新 VCPKG 版本
- ARROW-16201 - [R] 在 3.4 版本上实现 SafeCallIntoR
- ARROW-16203 - [Release] 在发布时移除所有旧的构建产物
- ARROW-16204 - [C++][Dataset] 写入数据集时的默认错误 existing_data_behaviour 忽略单个文件
- ARROW-16208 - [JS] 升级依赖
- ARROW-16210 - [JS] 实现 tableFromJSON 并在 vectorFromArray 中支持 struct 向量
- ARROW-16214 - [GLib][Parquet] 添加 GParquetFileMetadata
- ARROW-16229 - [CI] 暂时从 nightly 测试中移除 turbodbc 测试
- ARROW-16232 - [C++] 在 LICENSE.txt 中包含 OpenTelemetry
- ARROW-16240 - [Python] 在 use_legacy_dataset=False 的情况下,在 pq.write_to_dataset 中支持 row_group_size/chunk_size 关键字
- ARROW-16242 - [Go] xerrors.Errorf 和 xerrors.Is 已被弃用,修复 linting 问题
- ARROW-16245 - [GLib][Parquet] 添加 GParquetRowGroupMetadata
- ARROW-16247 - [GLib] 添加 GArrowGCSFileSystem
- ARROW-16250 - [GLib][Parquet] 添加 GParquetColumnChunkMetadata
- ARROW-16251 - [GLib][Parquet] 添加 GParquetStatistics 及其家族
- ARROW-16252 - [CI][Archery] 在 nightly 报告中高亮显示失败的构建数量
- ARROW-16256 - [Docs] 记录支持的格式版本
- ARROW-16257 - [R] 将 as_date 和 as_datetime 分解为独立的函数
- ARROW-16264 - [C++][CI] Valgrind 在 arrow-compute-hash-join-node-test 中超时
- ARROW-16276 - [R] 发布新闻
- ARROW-16277 - [Python] 没有适用于 macOS arm64 的构建。
- ARROW-16280 - [C++] 在 Expression::type() 中避免复制 shared_ptr
- ARROW-16282 - [CI] [C#] 自从将 ubuntu 升级到 22.04 后,c-sharp 上的发布验证一直失败
- ARROW-16283 - [Go] 清理新的 Buffered Reader 中的 panic
- ARROW-16284 - [Python][Packaging] 使用 delocate-fuse 创建 universal2 wheels
- ARROW-16291 - [Java] 为 Java Cookbooks 支持 JSE17
- ARROW-16292 - [Java][Doc] 为 JSE17/JSE18 升级 Java 文档
- ARROW-16294 - [C++] 提高 parquet 预读性能
- ARROW-16296 - [GLib] 为 GArrowRoundMode 添加缺失的类型转换
- ARROW-16303 - [C++] 在文件 IO 中检查 EINTR
- ARROW-16308 - [CI] 升级 windows runner 版本,因为 windows-2016 已被弃用。
- ARROW-16314 - [Python][CI] 在 windows 验证构建中跳过运行 cython 测试
- ARROW-16325 - [R] 为使用 gcc12 的 R 包添加任务
- ARROW-16327 - [Java][CI] 为 Java 17 CI 流程添加支持
- ARROW-16334 - [Archery][CI] 在 nightly 报告邮件中使用构建链接而非分支链接
- ARROW-16338 - [CI] 更新 Azure Windows 镜像,因为 vs2017-win2016 已被淘汰
- ARROW-16347 - [Release] 在验证脚本中转义反引号
- ARROW-16349 - [Release][Packaging][RPM] 从 KEYS 中移除 ed25519 密钥
- ARROW-16350 - [Dev][Archery] 在错误消息注释中添加缺失的换行符
- ARROW-16352 - [GLib] 修复错误的 enums.h 安装位置
- ARROW-16354 - [Packaging][RPM] 更新构建产物模式列表
- ARROW-16355 - [Dev] 更新 verify-release-candidate.sh 以并行编译 cpp
- ARROW-16373 - [Docs][CI] 对 CI 文档进行小幅改进
- ARROW-16387 - [C++] 将 -Wshorten-64-to-32 添加到 clang 测试的 CHECKIN 警告列表中
- ARROW-16390 - [C++] 如果同时调用,Dataset 初始化可能会导致段错误
- ARROW-16408 - [C++] 在 SQLite FlightSQL 示例中添加对 DATE 类型的支持
- ARROW-16411 - [Website] 从 Google Analytics 迁移到 Matomo
- ARROW-16412 - [Java] 更新 README 以引用编译文档
- ARROW-16416 - [C++] 支持 Substrait 中的 cast-function
- ARROW-16428 - [Release] 为环境变量添加前缀
- ARROW-16445 - [R] [Doc] 为“在 Linux 上安装 Arrow 包”一文添加简短摘要
- ARROW-16455 - [CI] [Packaging] linux-ppc64le 的 Anaconda 存储大小超出限制