Apache Arrow 8.0.0 (2022年5月6日)
这是一个涵盖超过 3 个月开发工作的重大版本。
下载
贡献者
此版本包含来自 127 位不同贡献者的 636 个提交。
$ git shortlog -sn apache-arrow-7.0.0..apache-arrow-8.0.0
43 Antoine Pitrou
40 David Li
39 Sutou Kouhei
36 Alenka Frim
29 Weston Pace
25 Rok
22 Dragoș Moldovan-Grünfeld
22 Joris Van den Bossche
20 Jonathan Keane
20 Krisztián Szűcs
19 Raúl Cumplido
17 Will Jones
16 Dewey Dunnington
13 david dali susanibar arce
12 Matthew Topol
10 Nic Crane
10 Yibo Cai
10 Vibhatha Abeykoon
9 Dominik Moritz
9 SHIMA Tatsuya
8 Neal Richardson
8 Sanjiban Sengupta
8 okadakk
8 Jacob Wujciak-Jens
7 Tobias Zagorni
7 Alessandro Molina
7 William Butler
6 Dhruv Vats
5 Yuqi Gu
5 Johnnathan
4 Anthony Louis
4 Projjal Chanda
4 Fiona La
4 Micah Kornfield
4 Bryan Cutler
3 Yaron Gvili
3 Ian Alexander Joiner
3 Vinicius Roque
3 ViniciusSouzaRoque
3 emkornfield
3 Chenxi Li
2 Jorge C. Leitao
2 Jose Almeida
2 assignUser
2 Uwe L. Korn
2 Todd Farmer
2 Tim Van Wassenhove
2 Rob Saccoccio
2 Alvin Chunga
2 Stephanie Hazlitt
2 Jeroen van Straten
2 Kyle Barron
2 Sasha Krassovsky
2 Eduardo Ponce
2 Salonijain27
2 liyafan82
2 JabariBooker
2 michalursa
2 Matthijs Brobbel
2 Danielle Navarro
2 Maya Anderson
2 Even Rouault
2 Joost Hoozemans
1 zhixingheyi-tian
1 SAm Albers
1 Alex McRae
1 Alfred Mountfield
1 Ali Amiri
1 Andrew Higgins
1 Andrew Strelsky
1 Andrii Oriekhov
1 Andy Teucher
1 Benjamin Kietzman
1 Benson Muite
1 Bob Matcuk
1 Chris Casola
1 Colin Jermain
1 Corentin
1 Dongjoon Hyun
1 Dooyoung-Hwang
1 Edward Visel
1 Elena Henderson
1 Frederic Branczyk
1 Haowei Yu
1 Hongze Zhang
1 Isaac Brodsky
1 James Duong
1 Johan Mattsson
1 João Pedro
1 Kazuaki Ishizaki
1 Kevin Gurney
1 Kian-Meng Ang
1 Laurent Goujon
1 Leo Di Donato
1 Li Jin
1 Min-Young Wu
1 MrMallIronmaker
1 Nate Clark
1 Nicolas Moreau
1 Nivia
1 Pradeep Garigipati
1 Rafael Telles
1 Romain Francois
1 Ryan Blue
1 Aakash Kumar
1 Sam Albers
1 Siddhant Rao
1 Stephan T. Lavavej
1 Thomas J. Fan
1 Tom Drabas
1 William Ayd
1 Xinyu Zeng
1 Yue Ni
1 Zac Farrell
1 bkmgit
1 burntcustard
1 fabiencelier
1 hankvyang
1 hzuo
1 iurysalino
1 jvictorhuguenin
1 jwijffels
1 karldw
1 marcbernot
1 okadak
1 ptaylor
1 shegden
补丁提交者
以下 Apache 提交者将贡献的补丁合并到代码库中。
$ git shortlog -csn apache-arrow-7.0.0..apache-arrow-8.0.0
105 David Li
102 Antoine Pitrou
84 Sutou Kouhei
72 Jonathan Keane
47 Krisztián Szűcs
46 Joris Van den Bossche
30 Weston Pace
25 Nic Crane
23 Pindikura Ravindra
22 Matthew Topol
16 Alessandro Molina
15 Yibo Cai
15 Neal Richardson
14 Dominik Moritz
5 Bryan Cutler
5 GitHub
3 Ian Cook
2 liyafan82
2 Micah Kornfield
1 Matt Topol
1 Li Jin
1 Chao Sun
变更日志
Apache Arrow 8.0.0 (2022-05-06)
错误修复
- ARROW-5248 - [Python] 支持 zoneinfo / dateutil 时区
- ARROW-7350 - [Python] 将 parquet 统计信息解码为标量
- ARROW-9664 - [Python] Array/ChunkedArray.to_pandas 不支持 types_mapper 关键字
- ARROW-11415 - [R] map_batches 不接受数据集作为参数
- ARROW-13168 - [C++][R] 为 Windows 启用运行时时区数据库
- ARROW-13594 - [CI] 再次启用 nightly turbodbc 构建
- ARROW-13922 - [Python] 修复当 len(path_or_paths) == 1 时 ParquetDataset 抛出错误的问题
- ARROW-14047 - [C++] [Parquet] FileReader 在重复读取时返回不一致的结果
- ARROW-14215 - [R][CI] 由于库名中存在空格,Conda Windows 构建失败
- ARROW-14256 - [CI][Package] 重新启用禁用的 conda 打包构建
- ARROW-14389 - [C++][Gandiva] 修复 LIKE 表达式的性能错误
- ARROW-14638 - [C++][R] 在 Arch Linux 上未知的 C 编译器 / ccache
- ARROW-14647 - [JS] 修复负数的 bignumToNumber
- ARROW-14665 - [JAVA] 修复 JdbcToArrow ResultSet 迭代错误
- ARROW-14708 - [C++] 添加缺少的 abseil 依赖项以启用静态 flight 构建
- ARROW-14908 - [C++][R] 数据集哈希连接在 Windows 上出现段错误
- ARROW-14911 - [C++] arrow-compute-hash-join-node-test 失败
- ARROW-14960 - [C++] 根据我们未采用的 Google 样式指南中的更改,向 Arrow 样式指南添加异常
- ARROW-15018 - [Python] Feather 序列化往返期间修改了 DataFrame 索引
- ARROW-15092 - [R] 在非 linux 系统上支持 create_package_with_all_dependencies()
- ARROW-15253 - [Python] 具有扩展类型的索引的空数据帧的 to_pandas 中的错误
- ARROW-15272 - [Java] 将清理失败添加为 ArrowVectorIterator#create 中的抑制
- ARROW-15291 - [C++][Python] 如果 StructArray.to_numpy 和 to_pandas 包含 ExtensionArray,则会出现段错误
- ARROW-15312 - [R][C++] 使用 is.na() 过滤 Parquet 数据集会遗漏某些行
- ARROW-15401 - [Python] Gdb 测试在 Windows 和 Apple M1 上失败
- ARROW-15426 - [C++][Gandiva] 更新 InExpressionNode 验证
- ARROW-15444 - [C++] 使用 GCC 7.5 在 aggregate_basic.cc 中编译失败
- ARROW-15465 - [Python] 在数据集测试中添加一些缺少的 parquet 标记
- ARROW-15502 - [Java] 在 Arrow 文件读取器中检测异常页脚大小
- ARROW-15504 - [Python][CI] 确保测试可选组件
- ARROW-15509 - [Go][Parquet] Parquet cmds 崩溃
- ARROW-15511 - [Python][C++] 删除 numpy 索引器中的引用管理
- ARROW-15514 - [C++][Gandiva] 添加标志以启用 Gandiva 对象代码
- ARROW-15520 - [C++] 为 C++20 兼容性限定 `arrow_vendored::date::format()`
- ARROW-15533 - [C++] 在 CI 中检查 ARROW_WITH_OPENTELEMETRY
- ARROW-15539 - [Archery] 将 ARROW_JEMALLOC 添加到构建选项
- ARROW-15541 - [Python] 提升最低 Cython 版本
- ARROW-15544 - [Go][Parquet] 修复原始 schema base64 解码
- ARROW-15546 - [FlightRPC][C++] 从 cookie 标头中删除引号
- ARROW-15555 - [Release] 不要推送发布标签,因为它已经存在
- ARROW-15580 - [Python] 使 pytz 成为 PyArrow 的实际可选依赖项
- ARROW-15593 - [C++] 使 fork 后的 ThreadPool 重新初始化线程安全
- ARROW-15598 - [C++][Gandiva] 避免在生成的代码中使用硬编码的原始指针地址
- ARROW-15599 - [R] 使用 `T` 列类型选项将 CSV 文件中的一列转换为亚秒级时间戳
- ARROW-15603 - [C++] 删除未使用的变量
- ARROW-15604 - [C++][CI] 使用 OpenTracing 时 ThreadSanitizer 偶尔出现故障
- ARROW-15604 - [C++][CI] 使用 OpenTracing 时 ThreadSanitizer 偶尔出现故障
- ARROW-15607 - [C++] 修复 AVX 检测的 CPUID 标志不正确的问题
- ARROW-15626 - [GLib] 修复 GArrowGIOInputStream 可能读取数据不足的错误
- ARROW-15627 - [R] 修复联合数据集统一 schema
- ARROW-15648 - [C++][Gandiva] 修复 Gandiva 缓存的大小
- ARROW-15651 - [JavaScript] 结构错误地初始化空值
- ARROW-15652 - [C++] 修复 parquet 命名空间内部的 GDB 格式化打印问题
- ARROW-15659 - [R] 格式不匹配时 strptime 应返回 NA(而不是错误)
- ARROW-15664 - [C++] parquet 读取器因非法 SIMD 指令而出现段错误
- ARROW-15667 - [R] 使用 ARROW_BUILD_STATIC=OFF 测试开发构建
- ARROW-15674 - [C++][Gandiva] Like 函数在某些情况下无法正确处理带有特殊字符的模式
- ARROW-15677 - [R] 在 ArrowObjects 上调用 invalidate() 方法会导致后续段错误
- ARROW-15679 - [R] count 应返回未分组的数据帧
- ARROW-15688 - [C++] add_checked 在持续时间溢出时不会出错
- ARROW-15699 - [C++][Gandiva] 修复 left 和 right 函数的实现...
- ARROW-15700 - [C++] Ubuntu 18.04 上的编译错误
- ARROW-15705 - [JavaScript] 允许在 StructBuilder 中的子级上追加 null
- ARROW-15710 - [C++] arrow-threading-utility-test 上的间歇性死锁
- ARROW-15715 - [Go] ipc 修剪数组上的值偏移量
- ARROW-15718 - [C++] 增加线程限制以解决线程问题
- ARROW-15720 - [CI] 修复 nightly dask 构建(跳过由于错误使用 Array.to_pandas 而导致失败的测试)
- ARROW-15723 - [Python] 段错误 orcWriter 写入表
- ARROW-15727 - [Python] 允许将 MonthDayNano 间隔列表转换为 Pandas
- ARROW-15728 - [Python] 降低 zstd test_ipc 的熵
- ARROW-15743 - [R] 尽管错误消息指示存在连接,但 `skip` 未连接到 open_dataset 上的 `skip_rows`
- ARROW-15746 - [Release][Java] 向 tasks.yml 添加缺少的 artifacts
- ARROW-15748 - [Python]舍入时间选项的默认单位是“天”,但记录为“秒”。后续行动
- ARROW-15748 - [Python] 舍入时间选项的默认单位是“天”,但记录为“秒”。
- ARROW-15757 - [Python]缺少 existing_data_behavior 的绑定,使得无法维护旧行为
- ARROW-15760 - [C++] 避免 cmake 中对 git 的硬依赖(改为从 github 下载压缩包)
- ARROW-15770 - [CI] 并非所有 python 测试都在 CI 作业上运行
- ARROW-15772 - [Go][Flight] 服务器基本身份验证中间件/拦截器错误地进行 base64 解码
- ARROW-15778 - [Java] 将原生字节序设置为 schema
- ARROW-15783 - [Python] 在写入时初始化静态 pandas 数据
- ARROW-15784 - [C++][Python] 移除不再使用的标志 enable_parallel_column_conversion
- ARROW-15791 - [Go] ipc FileWriter 负的 WaitGroup 计数器
- ARROW-15794 - [CI][Crossbow] 由于 types_mapper 中的错误,夜间构建失败
- ARROW-15815 - [C++][Parquet] 修复无效输入时的未定义行为
- ARROW-15819 - [R] R 文档版本切换器在 MacOS 上的 Safari 浏览器中无法正常工作
- ARROW-15830 - [C++] 在运行 Substrait 生成之前确保目标目录存在
- ARROW-15837 - [C++][Python] 阐明 ListArray::offsets() 的文档
- ARROW-15845 - [Python][打包] 修复 macOS wheel 包构建
- ARROW-15847 - [Python][CI] 确保我们有一个禁用 parquet 加密的 Python 夜间构建
- ARROW-15847 - [Python] 使用 Parquet 但不使用 Parquet 加密进行构建会失败
- ARROW-15848 - [Gandiva][C++] 修复函数 istrue 和 is not true
- ARROW-15851 - [C++] 在使用 gRPC 构建时启用 RE2
- ARROW-15852 - [JS] 修复
Table.getByteLength()
抛出的错误 - ARROW-15857 - [R] rhub/fedora-clang-devel 无法安装 ‘sass’(rmarkdown 依赖项)
- ARROW-15863 - [打包][C++][Python] 修复 conda 包构建
- ARROW-15869 - [C++] 修复 Valgrind 错误(未初始化的值)
- ARROW-15888 - [文档][Python] 更新开发说明
- ARROW-15892 - [C++] 数据集 API 需要 s3:ListBucket 权限
- ARROW-15895 - [R] R 文档版本切换器在 Chrome 浏览器中使用后退按钮时消失并重新出现
- ARROW-15898 - [CI] 更彻底地清理旧的 conda 夜间版本
- ARROW-15905 - [Python][C++] 修复构建 PyArrow 时的 CMake 警告
- ARROW-15928 - [C++] 修复崩溃并为 replace_with_mask 函数实现分块数组支持
- ARROW-15929 - [R] io_thread_count 实际上是 CPU 线程数
- ARROW-15946 - [Go] 修复 pqarrow.NewColumnWriter 在写入嵌套数据时的内存泄漏
- ARROW-15949 - [Python] 在禁用 Parquet 时不要求 Parquet 加密
- ARROW-15951 - [CI][Python] 尽管测试出错,“测试 wheel 包”步骤仍然成功
- ARROW-15954 - [Java] 升级后移除 mac 原生 netty kqueue 依赖项
- ARROW-15960 - [C++] 修复自适应 int builder 边缘情况下的崩溃
- ARROW-15962 - [C++][GANDIVA] 修复 unhex 错误返回
- ARROW-15965 - [C++][Python] 将 RoundToMultipleOptions 的 Scalar 构造函数添加到 Python
- ARROW-15970 - [R][CI] 重新启用 DuckDB 开发测试
- ARROW-15973 - [CI] 将夜间报告分成三个:测试、打包、发布
- ARROW-15982 - [Python] parquet.read_table 无法解析主目录路径
- ARROW-15985 - [CI] 修复 conda-clean 在没有要删除的文件时发生的错误
- ARROW-15987 - [C++][FlightRPC] 解决 arrow-flight-test 在 AppVeyor 上崩溃的问题
- ARROW-15993 - [CI] 将 sphinx-tabs 添加到 ci/conda_env_sphinx.txt
- ARROW-16012 - [C++] 当 Minio 未完全初始化时,在测试中重试 S3 请求
- ARROW-16013 - [C++][Python] 在 NumPyStridedConverter 中使用负步幅时出现有符号溢出
- ARROW-16016 - [C++] 修复递归 ccache 调用错误
- ARROW-16019 - [C++] 尽量减少 Minio 连接错误的可能性
- ARROW-16021 - [C++] arrow-compute-hash-join-node-test 在 MinGW 上超时
- ARROW-16025 - [Python][C++] 修复关闭 ORCFileWritter 时的段错误
- ARROW-16031 - [C++][Gandiva] 修复 Soundex 错误生成
- ARROW-16035 - [Java] 处理空的 JDBC ResultSet
- ARROW-16043 - [C++][文件系统][S3] 为创建目录添加缺少的空内容
- ARROW-16048 - [Python] 避免将空缓冲区地址暴露给 Python 缓冲区协议
- ARROW-16051 - [Gandiva][C++] 修复 datediff 回归构建
- ARROW-16052 - [R] 未定义的全局函数 %>%
- ARROW-16060 - [C++] subtract_checked 支持 timestamp("s") 和 date32
- ARROW-16071 - [R] 更多未定义的全局函数
- ARROW-16078 - 将捆绑的 zlib 升级到 1.2.12
- ARROW-16099 - [JS] 已压缩的 RecordBatches 应抛出错误
- ARROW-16107 - [开发][Archery] 修复 archery crossbow latest-prefix 查询
- ARROW-16110 - [C++] GcsFileSystem::Make 忽略 IOContext
- ARROW-16113 - [Python] 在字段子集进行字典编码的情况下使用 Partitioning.dictionaries
- ARROW-16131 - [C++] 支持在 IPC 文件的批次中保存和检索自定义元数据
- ARROW-16134 - [C++][GANDIVA] 修复 Concat_WS 错误返回
- ARROW-16136 - [Gandiva][C++] 修复 AddMappings 函数体积过大的问题
- ARROW-16139 - [Python] tests/test_dataset.py::test_write_dataset_s3 中的崩溃
- ARROW-16143 - [Java] 升级 jackson 依赖项 CVE-2020-36518
- ARROW-16143 - [Java] 升级 jackson 依赖项 CVE-2020-36518
- ARROW-16146 - [C++] arrow-gcsfs-test 超时
- ARROW-16148 - [C++] TPC-H 生成器清理
- ARROW-16152 - [C++] 修复 Substrait 中未知函数导致的段错误
- ARROW-16159 - [C++][Python] 允许 FileSystem::DeleteDirContents 在目录缺失时成功
- ARROW-16162 - [C++][FlightRPC] 修复 Ubuntu 18.04 上的 Flight 构建
- ARROW-16163 - [Go] 当与 ZSTD 压缩一起使用时,IPC FileReader 发生内存泄漏
- ARROW-16165 - [CI][Archery] 修复 crossbow 的夜间查询以发送报告
- ARROW-16169 - [C++][Gandiva] 修复 convert_fromUTF8_binary() 中的空字符串情况
- ARROW-16181 - [CI][C++] TPCH 节点测试中的 Valgrind 错误
- ARROW-16182 - [C++][CI] TPCH 节点测试在 ThreadSanitizer 下超时
- ARROW-16185 - [C++] 修复 strptime 内核中未初始化的输出数据
- ARROW-16197 - [文档] 修复损坏的链接
- ARROW-16205 - [C++][FlightRPC] 不要使用 constexpr std::initializer_list
- ARROW-16209 - [JS] 支持在表格上设置任意符号
- ARROW-16215 - [C++][FlightRPC] 修复 Windows 上 Flight 测试中的段错误
- ARROW-16216 - [Python][FlightRPC] 在 Flight 不可用时修复 test_flight.py
- ARROW-16219 - [CI] 修复 git 配置以防止 SCM 工具故障
- ARROW-16223 - [C++] 修复小数减少比例舍入
- ARROW-16225 - [C++][Parquet] 修复加密 AAD 随机字节生成的长度
- ARROW-16233 - [Python][打包] test_zoneinfo_tzinfo_to_string 在 Windows 上的打包 wheel 包中失败,并出现 zoneinfo._common.ZoneInfoNotFoundError
- ARROW-16235 - [C++] 修复构建失败,来自 MinGW 的编译器警告
- ARROW-16236 - [Python][打包] test_s3fs_limited_permissions_create_bucket 在 MAC OS wheel 包构建中失败,并显示权限被拒绝
- ARROW-16237 - [文档] Apache Impala 不再处于孵化阶段
- ARROW-16238 - [C++] 修复预缓冲 IPC 读取时的空指针解引用
- ARROW-16261 - [C++] 修复 HDFS 上 missing_dir_ok=True 时的 DeleteDirContents
- ARROW-16262 - [CI][集成] 跳过 kartothek 集成中失败的测试
- ARROW-16278 - [CI] 修复 brew 上的 git 安装失败
- ARROW-16278 - [CI] 修复 brew 上的 git 安装失败
- ARROW-16278 - [CI] 修复 brew 上的 git 安装失败
- ARROW-16293 - [CI][GLib] 使测试稳定
- ARROW-16295 - [CI][发布] 将 windows-2019 用于 verify-rc-source-windows
- ARROW-16300 - pc.sort_indices 在列不存在时抛出 malloc 错误
- ARROW-16301 - [C#][CI] 修复 .NET 6 的 docker 配置
- ARROW-16305 - [C++] 在重命名期间缺少对 ARROW_ENGINE 的引用
- ARROW-16306 - [CI] 修复 Ubuntu 上的夜间验证 rc
- ARROW-16307 - [Java][FlightRPC] 跳过不稳定的测试 TestDoExchange.testClientCancel
- ARROW-16311 - [Java] 当未请求 table_schema 列时,不返回它
- ARROW-16312 - [C++][CI] 在 Windows 验证构建中安装 tzdata
- ARROW-16313 - [R] 确保始终初始化 assume_timezone 选项
- ARROW-16332 - [发布][Java] 添加已上传工件验证
- ARROW-16336 - [Python] ParquetDataset - 向用户隐藏内部 (common_)metadata 相关的警告
- ARROW-16374 - [R][C++] 在清理程序运行期间跳过另一个 snappy 测试
- ARROW-16375 - [R][CI] 将 Windows 上的 test-r-devdocs 固定到 R 4.1
- ARROW-16393 - [JAVA] 更新选项规范以接受查询、目录、模式和表的值
- ARROW-16413 - [Python] 某些数据集 API 在使用 Python 文件系统时挂起
- ARROW-16417 - [C++][Python] test_exec_plan.py / test_joins 中的段错误
- ARROW-16419 - [Python] 确保 ExecPlan 正确等待完成
- ARROW-16442 - [Python][Dataset] 修复 ORC 数据集片段使用 FileFragment 类的问题
- PARQUET-2115 - [C++] Parquet 字典位宽限制为 32 位
- PARQUET-2118 - [C++] 不要假设标准指针
- PARQUET-2119 - [C++] 修复 DeltaBitPackDecoder 模糊测试发现的问题
- PARQUET-2123 - [C++] 修复 ScanFileContents 中的无效内存访问
- PARQUET-2124 - [C++] 删除 Parquet 字典 DCHECK
- PARQUET-2130 - 修复使用非标准键名时在调试模式下崩溃的问题
- PARQUET-2131 - 数字值解码 DCHECK 应为异常
新功能和改进
- ARROW-1888 - [C++] 实现结构体转换
- ARROW-3016 - [文档][C++] 使用 perf 进行内存分析
- ARROW-3039 - [Go] 添加对 DictionaryArray 的支持
- ARROW-3998 - [C++] 添加 TPC-H 生成器
- ARROW-5107 - [发布] 验证非 RC 源代码和二进制制品
- ARROW-5598 - [Go] 将 array.Array{,Approx}Equal 重命名为 array.{,Approx}Equal
- ARROW-6780 - [C++][Parquet] 支持写入/读取 parquet 中的 DurationType(写入为 int64)
- ARROW-7174 - [Python] 公开 parquet dictionary_pagesize_limit 写入参数
- ARROW-7272 - [C++][Java][Dataset] RecordBatch 和 VectorSchemaRoot 之间的 JNI 桥接
- ARROW-7914 - [Python] 允许将 pandas datetime 作为 feather 的索引
- ARROW-9235 - [R] 在读写文件时支持
connection
类 - ARROW-9378 - [Go] 支持无符号字典索引
- ARROW-9947 - [Python] 用于 Parquet 文件加密的高级 Python API
- ARROW-10643 - [Python] Pandas<->pyarrow 往返无法为空数据帧重新创建索引
- ARROW-10924 - [C++] 在 ValidateArrayFull 中验证时间数据
- ARROW-11071 - [R][CI] 使用 processx 在测试中设置 minio 和 flight 服务器
- ARROW-11259 - [Python] 允许创建对嵌套字段的字段引用
- ARROW-11989 - [C++][Python] 提高 ChunkedArray 访问元素的复杂度
- ARROW-12515 - [开发][Wiki][发布] 修复并更新 Windows RC 验证脚本
- ARROW-12516 - [C++][Gandiva] 实现 castINTERVALDAY(varchar) 和 castINTERVALYEAR(varchar) 函数
- ARROW-12659 - [C++] 支持 is_valid 作为保证
- ARROW-12743 - [R] 为开发依赖项添加 DESCRIPTION 字段
- ARROW-13185 - [MATLAB] 创建一个委托给特定 C++ 函数的 MEX 网关函数
- ARROW-13204 - [MATLAB] 更新 MATLAB 接口文档以反映最新的 CMake 构建系统更改
- ARROW-13231 - [文档] 添加 ORC 文档
- ARROW-13260 - [文档] 托管不同发行版本的文档 + 版本切换器
- ARROW-13337 - [R] 定义数学组泛型
- ARROW-13375 - [C++][Gandiva] 在 Gandiva 上实现 POSITIVE 和 NEGATIVE Hive 函数
- ARROW-13409 - [C++][FlightRPC] 公开带截止日期的服务器关机
- ARROW-13564 - [开发] 在集成拉取请求时检查单个提交消息中的“Co-authored-by:”标签
- ARROW-13616 - [R] 速查表结构
- ARROW-13683 - [R] 测试 Windows UCRT R
- ARROW-13703 - [Python][R] 为新的数据集写入选项添加绑定
- ARROW-13993 - [C++][Compute] 添加 hash_one 聚合函数
- ARROW-14075 - [C++][CI] 为 VisualStudio 2019(非 conda)添加 appveyor CI 作业
- ARROW-14091 - [C++] add(date, duration) -> timestamp 内核
- ARROW-14093 - [C++] subtract(date, date) -> duration 内核
- ARROW-14094 - [C++] add(timestamp, duration) -> timestamp 内核
- ARROW-14095 - [C++] subtract(timestamp, duration) -> timestamp 内核
- ARROW-14096 - [C++] add(time, duration) -> time 内核
- ARROW-14097 - [C++] subtract(time, duration) -> time 内核
- ARROW-14098 - [C++] subtract(time, time) -> duration 内核
- ARROW-14099 - [C++] add(duration, duration) -> duration 内核
- ARROW-14100 - [C++] subtract(duration, duration) -> duration 内核
- ARROW-14101 - [C++] multiply(duration, integer) -> duration 内核
- ARROW-14102 - [C++] divide(duration, integer) -> duration 内核
- ARROW-14153 - [C++][Dataset] 在 ORC 扫描器中添加对 batch_size 的支持
- ARROW-14168 - [R] 仅警告一次 arrow 函数差异
- ARROW-14169 - [R] 用于 factors 的 altrep
- ARROW-14199 - [R] format 的绑定(如果可能)
- ARROW-14266 - [R] 使用 WriteNode 写入查询
- ARROW-14279 - [文档] 初步尝试描述 PyArrow 库的结构
- ARROW-14292 - [C++][Python] 表的连接基础
- ARROW-14293 - [Python] PyArrow 中的基本连接功能
- ARROW-14322 - [文档] 添加关于如何将 Python 连接到其他语言的 Python 文档
- ARROW-14333 - [C++][Compute] 将二进制和 LargeStringType 测试添加到比较内核
- ARROW-14339 - [文档] 将规范 url 添加到 pkgdown (R) 文档
- ARROW-14442 - [R] 修复将时间戳转换为“”作为时区时的行为
- ARROW-14444 - [C++] 将基于任务的模型实现在可执行管道中
- ARROW-14498 - [文档] 可以使用其他补丁重新生成旧文档
- ARROW-14502 - [C++][Gandiva] 添加测试 DayOfMonth
- ARROW-14506 - [C++] google-cloud-cpp 的 Conda 支持
- ARROW-14553 - [文档] Java Cookbook 发行版 1
- ARROW-14579 - [文档] 记录 CI
- ARROW-14591 - [R] 为 lubridate 持续时间类型实现绑定
- ARROW-14612 - [C++] 支持基于文件名的分区
- ARROW-14631 - [C++][Gandiva] 实现 Nextday 函数
- ARROW-14651 - [发布][Archery] 添加对重试下载的支持
- ARROW-14672 - [文档] 记录如何在 Python 和 Java 之间交换数据
- ARROW-14679 - [R][C++] 在连接中处理 suffix 参数
- ARROW-14698 - [文档][FlightRPC] 为 Flight SQL 添加 API 文档
- ARROW-14702 - [文档][C++] 记录线程模型
- ARROW-14745 - [R] 启用真正的 duckdb 流式传输
- ARROW-14776 - [网站] 不要在合并提交消息中包含压缩的提交
- ARROW-14798 - [C++][Python][R] 将容器窗口添加到 PrettyPrintOptions
- ARROW-14808 - [R] 为
lubridate::date()
实现绑定 - ARROW-14810 - [R] 为 lubridate 的
date_decimal()
和decimal_date()
实现绑定 - ARROW-14815 - [R]
lubridate::semester()
的绑定 - ARROW-14817 - [R] 为
lubridate::tz()
实现绑定 - ARROW-14823 - [R] 为 lubridate::leap_year 实现绑定
- ARROW-14824 - [R] 为 lubridate::epiyear() 实现绑定
- ARROW-14825 - [C++] 用于提取 epiyear 的时间组件提取函数
- ARROW-14826 - [R] 为
lubridate::dst()
实现绑定 - ARROW-14827 - [C++] 用于提取 dst 指示器的时间组件提取函数
- ARROW-14893 - [C++] 允许从 URI 创建 GCS 文件系统
- ARROW-14927 - [CI] 将 Fedora 33 升级到 Fedora 35
- ARROW-14942 - [R] lubridate 的 dpicoseconds、dnanoseconds、desconds、dmilliseconds、dmicroseconds 的绑定
- ARROW-14943 - [R] lubridate 的 ddays、dhours、dminutes、dmonths、dweeks、dyears 的绑定
- ARROW-14944 - [R] 实现
lubridate::make_difftime()
- ARROW-14963 - [文档] 向代码块添加复制按钮扩展
- ARROW-14993 - [C++] 对 CSV 写入器进行基准测试
- ARROW-14997 - [Python][文档] 将 thread_count 函数添加到 API 文档
- ARROW-15013 - [R] 在 R 级别公开 concatenate
- ARROW-15015 - [R] 用于确保运行所有测试的测试/CI 标志?
- ARROW-15020 - [R] 为新的数据集写入选项添加绑定
- ARROW-15040 - [R] 使 write_csv_arrow 能够将 Dataset 或 arrow_dplyr_query 作为输入
- ARROW-15061 - [C++] 为内核函数和执行计划节点添加日志记录
- ARROW-15062 - [C++] 将内存信息添加到当前 spans
- ARROW-15064 - [C++] 在 CSV 写入器中向量化 CheckStringHasNoStructuralChars
- ARROW-15066 - [C++] 启用非捆绑 OpenTelemetry 的使用
- ARROW-15067 - [C++] 向扫描器添加跟踪跨度
- ARROW-15080 - [Python][C++] 启用元组到时间间隔的转换
- ARROW-15089 - [C++][Compute] 实现用于查找给定键的 MapArray 项的内核
- ARROW-15098 - [R] 为
lubridate::duration()
和/或as.difftime()
添加绑定 - ARROW-15118 - [C++] 如果所有输入对于标量内核都有效,则避免位图缓冲区
- ARROW-15152 - [C++][Compute] 实现 hash_list 聚合函数
- ARROW-15156 - [文档] 为 Java 文档实现教程
- ARROW-15157 - [文档] 新贡献者指南 v2
- ARROW-15163 - [R] 用于 8.0.0 的 lubridate 函数
- ARROW-15167 - [R] 提高 decimal 转换效率
- ARROW-15168 - [R] 添加 S3 泛型以创建主要的 Arrow 对象
- ARROW-15178 - [Java][文档] Java 教程:Java 开发者文档
- ARROW-15180 - 记录如何为 C++ 功能添加 JNI 绑定
- ARROW-15183 - [Python][文档] 添加缺少的数据集写入选项
- ARROW-15192 - [Java] 允许使用 Jackson 2.12 及更高版本
- ARROW-15195 - [MATLAB] 在 macOS 上为 MATLAB 接口启用 GitHub Actions CI
- ARROW-15197 - [C++] UTF-8 字符串重复内核
- ARROW-15212 - [C++] 在连接中处理后缀参数
- ARROW-15215 - [C++] 整合 replace_with_mask、case_when、coalesce、choose、fill_null_forward、fill_null_backward 之间的内核数据复制实用程序
- ARROW-15223 - [C++] 实现 Not Between 三元内核
- ARROW-15238 - [C++] 带有 substrait 使用者的 ARROW_ENGINE 模块
- ARROW-15239 - [C++][Compute] 添加布隆过滤器实现
- ARROW-15258 - [C++] 从表创建源节点的简单选项
- ARROW-15262 - [C++] 创建 ToTable 接收器节点
- ARROW-15281 - [C++] 实现检索片段文件名的功能
- ARROW-15282 - [C++][FlightRPC] 将数据方法与底层传输分离
- ARROW-15294 - [R] 删除 arrow-without-arrow 和其他 Solaris hack
- ARROW-15296 - [CI][GO] 将 Go staticcheck linting 添加到 CI lint 作业
- ARROW-15299 - [R] 调查 {remotes} 依赖项“soft”与 TRUE
- ARROW-15313 - [C++][Java][FlightRPC] 为 flight-sql 实现类型信息方法
- ARROW-15314 - [C++][Java][FlightRPC] 添加 Flight SQL 返回的 Arrow 模式上缺少的元数据
- ARROW-15321 - [开发][Python] 也对 Cython 生成的方 法进行 numpydoc-validate
- ARROW-15346 - [文档][指南] Arrow 代码库 - 次要更正
- ARROW-15347 - [文档][指南] 更新新贡献者指南中的测试部分
- ARROW-15348 - [文档][指南] PR 的生命周期 - 次要更正
- ARROW-15349 - [文档][指南] 现有贡献者页面 - 更新
- ARROW-15350 - [文档][指南] 添加样式和 linters 信息部分
- ARROW-15351 - [文档][指南] R 绑定的其他教程
- ARROW-15352 - [文档][指南] R 包和 make clean
- ARROW-15353 - [文档][指南] CI 主题简介以及现有文档的链接
- ARROW-15364 - [Python] 更新读取文档字符串中的文件系统条目以反映当前行为
- ARROW-15366 - [文档] 自动增加 R 和非 R 版本切换器的包版本
- ARROW-15367 - [Python] 改进 8.0.0 的类和方法文档字符串
- ARROW-15369 - [文档] 调整示例以使用对 str 指针的新支持
- ARROW-15374 - [C++][FlightRPC] 在数据方法中添加对 MemoryManager 的支持
- ARROW-15389 - [C++][开发] 改进 GDB 插件中的数组预览
- ARROW-15400 - [Go][CI] 在 arm 机器上进行构建练习
- ARROW-15410 - [C++][数据集] 在扫描 parquet 时改进数据集 API 的内存使用情况
- ARROW-15418 - [Go][Flight] 更新 gRPC 版本,隐藏实现细节
- ARROW-15425 - [C++] 将文件格式的增量字典添加到集成测试中
- ARROW-15428 - [Python] 处理 Parquet 类和函数中的文档字符串
- ARROW-15429 - [Python] 处理 ChunkedArray 类、方法、属性和构造函数的文档字符串
- ARROW-15431 - [Python] 处理 Schema 中的文档字符串
- ARROW-15432 - [Python] 处理 CSV 文档字符串
- ARROW-15440 - [Go] 使用 Arm64 GoLang 汇编实现“unpack_bool”
- ARROW-15450 - [Python][Wheel] Flight 测试在 macOS 测试期间收到 SIGKILL
- ARROW-15462 - [GLib] 添加 GArrow{Month,DayTime,MonthDayNano}Interval{Scalar,Array,ArrayBuilder}
- ARROW-15468 - [R][CI] 一个针对 DuckDB 开发分支进行测试的 crossbow 作业
- ARROW-15471 - [R] R 中的 ExtensionType 支持
- ARROW-15472 - [网站] 添加 Flight SQL 博客文章
- ARROW-15477 - [C++][Python] 允许从数组和类型创建 (FixedSize/Large)ListArray
- ARROW-15480 - [R] 扩展 schema/colnames 不匹配错误消息
- ARROW-15483 - [发布] 改进验证脚本
- ARROW-15487 - [FlightRPC][C++][GLib][Python][R] 实现 FlightClient::Close
- ARROW-15489 - [R] 扩展 RecordBatchReader 的可用性
- ARROW-15491 - [网站] 轮换 2022 年的 PMC 主席
- ARROW-15497 - [C++][Homebrew] 使用 Clang 工具 12
- ARROW-15501 - [Java] 支持验证 decimal 向量
- ARROW-15503 - [GLib][发布] 避免弃用警告
- ARROW-15505 - [C++][Compute] 在 product 聚合中支持 null 类型
- ARROW-15506 - [C++][Compute] 在 hash_sum/hash_product/hash_mean 中支持 Null 类型
- ARROW-15510 - [C++][FlightRPC] 向基准测试添加 CUDA 内存管理器支持
- ARROW-15515 - [C++] 使用新选项更新 ExecPlan 示例代码和文档
- ARROW-15517 - [R] 在 write_dataset() 中使用 WriteNode
- ARROW-15523 - [Python] 支持将数据集作为连接的输入
- ARROW-15524 - [Python] 使连接能够接收表作为输入
- ARROW-15525 - [Python] 使连接能够输出表作为结果
- ARROW-15526 - [Python] 支持 Dataset.join
- ARROW-15527 - [Python] 使连接能够执行连接操作
- ARROW-15532 - [C++] 修复 StringClassifyDoc 的未使用警告
- ARROW-15542 - [GLib][Parquet] 添加 GParquet*Metadata
- ARROW-15550 - [C++] 添加可选的调试内存检查
- ARROW-15551 - [C++][FlightRPC] 更新 1.43 的 gRPC TLS 选项检测
- ARROW-15552 - [文档][格式] 删除对 base64 的错误提及
- ARROW-15556 - [发布] 添加用于更新 Homebrew 包的脚本
- ARROW-15569 - [打包][deb] 使用 gem 而不是 apt 来安装 gobject-introspection gem
- ARROW-15570 - [CI][Nightly] 删除 centos-8 R nightly 作业
- ARROW-15572 - [Java][文档] 将安装部分添加到 Java 文档
- ARROW-15573 - [Java][文档] 记录 Apache Arrow 内存管理
- ARROW-15574 - [Java][文档] 查看现有文档
- ARROW-15575 - [Java][文档] 数据集教程
- ARROW-15576 - [Java][文档] 为二维数据记录 VectorSchemaRoots
- ARROW-15577 - [Java][文档] 添加 Arrow Flight 文档
- ARROW-15578 - [Java][文档] 记录 C 数据接口以及如何与其他语言接口
- ARROW-15579 - [C++] 添加 MemoryManager::CopyBuffer(const Buffer&)
- ARROW-15594 - [C++][FlightRPC] 将 Deserialize(const Buffer&) 添加到各种 Flight 类型
- ARROW-15595 - [发布][Ruby] 添加对 MFA 的支持
- ARROW-15600 - [C++][FlightRPC] 添加 Flight SQL 查询的最小示例
- ARROW-15601 - [文档][发布] 更新发布后脚本以移动稳定版文档并保留开发版文档
- ARROW-15605 - [CI][R] 在我们的 autobrew CI 作业中继续使用旧的 macOS 运行器
- ARROW-15606 - [CI][R] 添加用于测试 R 包的 brew 构建
- ARROW-15609 - [C++][计算] 支持仅使用键的 hash_aggregate
- ARROW-15611 - [C++] 将 arrow::ipc::internal::json::ArrayFromJSON 迁移到 Result<>
- ARROW-15614 - [C++] 添加二元标量内核 sqrt(平方根)
- ARROW-15617 - [文档][C++] 记录环境变量
- ARROW-15619 - [C++] 用于提取闰年指示符的时间组件提取函数
- ARROW-15623 - [C++][Python] 更新 developers/python.rst(控制台块 + archery 安装中的 "")
- ARROW-15625 - [C++] 在示例可执行文件名中将下划线转换为连字符
- ARROW-15629 - [GLib] 添加 garrow_{,large_}string_array_builder_append_string_len()
- ARROW-15630 - [发布][MSYS2] 也更新反向依赖项
- ARROW-15631 - [打包][RPM] 将主版本添加到 libs 包
- ARROW-15632 - [R] 修剪捆绑的 libarrow 源代码
- ARROW-15633 - [R] 跳过需要网络连接的 s3_bucket 示例
- ARROW-15634 - [C++][打包] 提高 macOS 上 java-jars 夜间构建的编译速度
- ARROW-15643 - [C++] 允许通过转换选择 StructArray 的字段子集
- ARROW-15650 - [MATLAB] 重命名 MEX 网关函数
- ARROW-15653 - [R][CI] 修复捆绑的 cpp 源代码的测试
- ARROW-15656 - [C++][R] 使 valgrind 构建速度稍快
- ARROW-15657 - [C++][Java] 将 Apache ORC 升级到 1.7.3
- ARROW-15665 - [C++] 修复无效输入时 strptime 中的 error_is_null
- ARROW-15665 - [C++] 向 StrptimeOptions 添加错误处理选项
- ARROW-15670 - [C++/Python/打包] 更新 conda pinnings 并在 Windows 上启用 GCS
- ARROW-15672 - [C++] 使 CSV 写入器能够控制字段分隔符
- ARROW-15673 - [R] 如果未安装 DuckDB,则优雅地报错
- ARROW-15680 - [C++] 在舍入到周的倍数时,时间向下/向上/舍入应接受 week_starts_monday
- ARROW-15682 - [CI] Github 开始将“windows-latest”标签从 Windows 2019 迁移到 Windows 2022
- ARROW-15683 - [网站][Rust][DataFusion] 发布 7.0.0 版本发布公告博客
- ARROW-15690 - [开发] 更新将 master 硬编码为默认值的 GitHub Actions 工作流
- ARROW-15692 - [开发] 更新发布脚本以使用默认分支
- ARROW-15694 - [开发] 更新 apache/arrow-site GitHub Actions deploy.yml 网站部署工作流以支持在推送到 main 分支时触发
- ARROW-15697 - [R] 向 pkgdown 站点添加 logo 和元标记
- ARROW-15698 - [集成] 将测试中的一些代码私有化
- ARROW-15701 - [R] month() 应允许整数输入
- ARROW-15706 - [C++][FlightRPC] 实现 UCX 传输
- ARROW-15707 - [C++][FlightRPC] 使 Flight 测试在不同传输之间更具可重用性
- ARROW-15708 - [R][CI] 在 clang sanitizer 上跳过 snappy 编码的 parquet 文件
- ARROW-15709 - [C++] 如果执行“内联”构建,ARROW_ENGINE 的编译将失败
- ARROW-15709 - [C++] 恢复更改
- ARROW-15709 - [C++] 如果执行“内联”构建,ARROW_ENGINE 的编译将失败
- ARROW-15712 - [R] 为 `Expression` 对象添加一个 `type` 方法
- ARROW-15714 - [C++][Gandiva] 增加 gandiva protobuf 解析器中的 protobuf 递归限制
- ARROW-15717 - [文档] 将 hash_one 添加到文档中
- ARROW-15721 - [文档][FlightRPC] 将 Flight/Flight SQL 添加到子项目中
- ARROW-15722 - [Java] 改进嵌套类型子类型不正确的错误消息
- ARROW-15726 - [C++] 如果未提供 projected_schema 但提供了绑定的投影表达式,则我们应该使用它来推断 projected_schema
- ARROW-15739 - [C++] 将 xsimd 升级到最新版本
- ARROW-15740 - [C++][计算] 基准测试元素级别的最小值/最大值
- ARROW-15741 - [文档][格式] 阐明 C 流接口的线程安全性
- ARROW-15742 - [Go] 使用 Arm64 GoLang 汇编实现 `bitmap_neon`
- ARROW-15744 - [Gandiva][C++] 为区间类型添加 NEGATIVE 函数
- ARROW-15749 - [Ruby] 添加对 Month Interval Type 的 #values 的支持
- ARROW-15750 - [Ruby] 添加对 Month Interval Type 的 #raw_records 的支持
- ARROW-15755 - [Java] 支持 Java 17
- ARROW-15763 - [C++] 提高 CSV 写入器性能
- ARROW-15766 - [R] 实现 lubridate::duration() 的绑定
- ARROW-15769 - [C++] 生成更少的算术内核
- ARROW-15775 - [R] 清理 as.* 方法以使用 build_expr()
- ARROW-15776 - [Python] 公开 IpcReadOptions
- ARROW-15777 - [Python][Flight] 允许将 IpcReadOptions 传递给 FlightCallOptions
- ARROW-15781 - [Python] 在 ensure_complete_metadata 中释放 GIL
- ARROW-15782 - [C++] 修复 Findre2Alt.cmake 以首先检查 RE2_ROOT 变量
- ARROW-15788 - [C++][FlightRPC] 为替代传输准备基准测试
- ARROW-15789 - [C++] 将 OpenTelemetry 更新到 v1.2.0
- ARROW-15795 - [Java] 为带时区的时间戳向量添加 timeZone 的 getter
- ARROW-15796 - [Python] 对 ParquetFileFragment 进行酸洗不应获取元数据
- ARROW-15799 - [R] 更新 as.Date() 以支持与纪元不同的起源
- ARROW-15800 - [R] 实现 `lubridate::as_date()` 和 `lubridate::as_datetime()` 的绑定
- ARROW-15801 - [R] 实现 lubridate 日期时间帮助器的绑定
- ARROW-15802 - [R] `lubridate::make_datetime()` 和 `lubridate::make_date()` 的绑定
- ARROW-15810 - [CI][Nightly] 严格检查 R 相关镜像
- ARROW-15814 - [R][文档] 改进 cast() 的文档
- ARROW-15817 - [R] 使用 TableSourceNode 代替 InMemoryDataset
- ARROW-15818 - [R] 在 R 绑定中实现初始 Substrait 使用者
- ARROW-15820 - [C++][文档] 将 table_source 添加到 streaming_execution.rst 并阐明参数名称
- ARROW-15821 - [JS] 修复目录中 sourcemap 的路径
- ARROW-15823 - [C++][Python] 添加将 Table 转换为 RecordBatchReader 的方法
- ARROW-15824 - [Python] 将 pyarrow.parquet 设为包
- ARROW-15827 - [R] 改善 write_dataset(…, max_rows_per_group) 的用户体验
- ARROW-15831 - [Java] 升级 Flight 依赖项
- ARROW-15841 - [R] 实现 SafeCallIntoR 以安全地从另一个线程调用 R API
- ARROW-15844 - [发布][打包] 对分离签名使用 ASCII 格式
- ARROW-15846 - [格式] 阐明 struct 有效性位图的存在
- ARROW-15850 - [C++] 安装中缺少 Engine substrait 头文件
- ARROW-15854 - [C++] 改进 CSV 写入器代码
- ARROW-15860 - [Python] 记录 RecordBatchReader
- ARROW-15864 - [Java][文档] 更新 Arrow 夜间 Maven 版本文档
- ARROW-15866 - [打包][Ubuntu] 放弃对 Ubuntu 21.04 的支持
- ARROW-15870 - [Python] 开始对 parquet.read_table 中的 use_legacy_dataset=True 发出弃用警告
- ARROW-15871 - [Python] 开始对新 API 不支持的 ParquetDataset 关键字发出弃用警告
- ARROW-15873 - [CI] 从 Ubuntu 21.04 迁移到 22.04
- ARROW-15875 - [R] 为输入流公开 ReadMetadata
- ARROW-15882 - [Python][CI] 确保我们在夜间 hypothesis 构建中运行 hypothesis 测试
- ARROW-15885 - [Ruby] 添加对 DayTime Interval Type 的 #values 的支持
- ARROW-15886 - [Ruby] 添加对 DayTimeInterval 类型的 #raw_records 的支持
- ARROW-15890 - [CI][Python] 使用 venv 代替 virtualenv
- ARROW-15896 - [Python][C++] 为文件系统“文件未找到”错误添加 errno 详细信息
- ARROW-15900 - [C++] 支持 Substrait 读取 Feather 格式的本地文件
- ARROW-15902 - [网站] 添加新的提交者:Raphael Taylor-Davies、王旭东、沈益杰、刘昆
- ARROW-15916 - [打包][RPM] 添加对 CentOS Stream 8 的支持
- ARROW-15917 - [Java][文档] 记录如何使用 Flight 工件
- ARROW-15918 - [Ruby][{day:, millisecond:}, …] ) // 这条翻译保留原文,因为含义不明确
- ARROW-15919 - [C++] 添加与时间戳和持续时间数学不可交换的函数
- ARROW-15921 - [格式][FlightRPC][C++][Java] 阐明 FlightEndpoint.locations 的解释
- ARROW-15923 - [打包][Linux] 启用 GCS 支持
- ARROW-15924 - [Ruby] 添加对 MonthDayNanoInterval 类型的 #values 的支持
- ARROW-15925 - [Ruby] 添加对 MonthDayNanoInterval 类型的 #raw_records 的支持
- ARROW-15931 - [网站] 向 apache/arrow-site 存储库添加显式 Apache LICENSE.txt 和 NOTICE.txt 文件
- ARROW-15932 - [C++][FlightRPC] 向通用 Flight 套件添加更多测试
- ARROW-15934 - [Python] 在 Python 中公开 write_batch_size
- ARROW-15935 - [Ruby] 为 Arrow::DictionaryArray#values 添加测试
- ARROW-15939 - [Python] 为 JSON 选项类添加 pickle 支持
- ARROW-15940 - [Gandiva][C++] 为 decimal 数据类型添加 NEGATIVE 函数
- ARROW-15941 - [C++] 允许使用环境变量覆盖 IO 线程数
- ARROW-15944 - [文档][C++] 记录在 Arch Linux 上构建的依赖项
- ARROW-15947 - [R] 为 arrow_dplyr_query 添加 rename_with s3 方法
- ARROW-15950 - [Go] 将 BitSetRunReader 提升到 internal/bitutils 包
- ARROW-15952 - [C++] 记录访问者并完成 Scalar::Accept
- ARROW-15955 - [打包][RPM] 将缺少的 json-devel 添加到 CentOS Stream 8 构建镜像
- ARROW-15956 - [Java] 合并 Flight 集成测试代码
- ARROW-15963 - [Go][Parquet] 简化 ReaderAtSeeker 接口
- ARROW-15968 - [C++] 更新 AsyncGenerator 语义,仅在所有未完成的 future 完成后才发出终端项
- ARROW-15972 - [Java][文档] 添加入门部分
- ARROW-15974 - [C++] 迁移 flight/types.h 头定义以使用 Result<>
- ARROW-15975 - [C++] 记录类型特征和内联访问者
- ARROW-15976 - [C++] 清理执行计划示例的注释
- ARROW-15979 - [C++][文档] 在文档中公开 parquet::WriterProperties 的更多函数
- ARROW-15984 - [C++] 将 RecordBatchReader API 更改为使用 Result<>
- ARROW-15989 - [R] 为 Table 和 RecordBatch 添加 rbind 和 cbind
- ARROW-15994 - [C++] 撤销 taskify 更改
- ARROW-15995 - [GO] 提高“sum_float64_neon”性能
- ARROW-15998 - [文档][CI] 使用 sphinx-design 选项卡代替 sphinx-tabs
- ARROW-15999 - [Python] 为使用 hypothesis 的测试关闭截止时间
- ARROW-16007 - [R] grepl 绑定对 NA 输入返回 FALSE
- ARROW-16011 - [R] 如果 lintr 发现问题,CI 作业应失败
- ARROW-16014 - [C++] 创建更多基准测试以测量表达式评估开销
- ARROW-16026 - [C++] 添加对串行执行器的支持,以将异步生成器公开为可迭代对象
- ARROW-16032 - [C++] 将 FlightClient API 迁移到 Result<>
- ARROW-16033 - [C++] 将 schema 传递给使用接收器节点
- ARROW-16038 - [R] 当 mutate 的
.keep
选项被设置时,与 dplyr 的行为不同 - ARROW-16042 - [GO] 修复头文件预处理器问题
- ARROW-16044 - [Julia] 从 apache/arrow 中移除
- ARROW-16046 - [文档][FlightRPC][Python] 确保 Flight Python API 已文档化
- ARROW-16049 - [C++][FlightRPC] 修复 Flight SQL 的 ColumnMetadata 构造函数可见性
- ARROW-16053 - [C++][FlightRPC] 修复不稳定的测试 TestAuthHandler.FailUnauthenticatedCalls
- ARROW-16055 - [C++][Gandiva] 使用对象代码缓存时,在缓存命中期间跳过不必要的工作
- ARROW-16057 - [Python] 处理 RecordBatch 类、方法、属性和构造函数的文档字符串
- ARROW-16058 - [Python] 处理 Table 类、方法、属性和构造函数的文档字符串
- ARROW-16059 - [Python] 处理 Tensor 类的文档字符串
- ARROW-16061 - [R][CI] 加速 Windows 3.6 构建
- ARROW-16062 - [Python] 将 libarrow_python include 定义移到其自己的文件
- ARROW-16064 - [Java][C++][FlightRPC] 为 FlightSQL 上的类型名称添加缺少的列元数据
- ARROW-16065 - [FlightRPC][文档] 改进 Flight 文档
- ARROW-16068 - [C++][FlightRPC] 将剩余的 flight API 迁移到使用 Result<>
- ARROW-16069 - [C++][FlightRPC] 重构 gRPC 错误代码处理
- ARROW-16073 - [R] 在 Windows 上提供 tzdb 后清理日期时间单元测试
- ARROW-16074 - [文档] 记录连接
- ARROW-16079 - [Python] 处理 Parquet 模式和元数据中的文档字符串
- ARROW-16082 - [Flight][Go] 允许指定 net.Listener
- ARROW-16098 - [JS] 不要在 table 和 recordbatch 迭代器中返回 null
- ARROW-16102 - [C++] 添加对使用系统 gRPC 和捆绑 GCS 进行构建的支持
- ARROW-16104 - [打包] 添加对 Ubuntu 22.04 的支持
- ARROW-16105 - [C++][Gandiva] 添加对 LLVM 14 的支持
- ARROW-16109 - [Python] 添加 dataset 标记以进行测试以避免失败
- ARROW-16114 - [文档][Python] 记录 Parquet FileMetaData
- ARROW-16117 - [JS] 提高解码 UTF8 性能
- ARROW-16120 - [Python] ParquetDataset 弃用:将 Deprecation 更改为 FutureWarnings
- ARROW-16121 - [Python] 弃用 ParquetDataset 的 (common_)metadata(_path) 属性
- ARROW-16122 - [Python] 更改 use_legacy_dataset 默认值并弃用 parquet.write_to_dataset 中不再支持的关键字
- ARROW-16128 - [C++][FlightRPC] 修复 Windows 上 Flight SQL 静态构建
- ARROW-16132 - [打包][deb][CUDA] 放宽 libcuda1 依赖
- ARROW-16154 - [R] 通过
handle_csv_read_error()
和handle_parquet_io_error()
的错误需要更好的错误跟踪 - ARROW-16156 - [R] 阐明 .onAttach() 中未启用的功能的警告消息
- ARROW-16158 - [C++][R] 将 ARROW_ENGINE 重命名为 ARROW_SUBSTRAIT
- ARROW-16166 - [C++][Compute] 用于组装连接输出的实用程序
- ARROW-16167 - [JS] 重构 get 和 set 访问者
- ARROW-16173 - [C++] 为时间函数/内核添加基准测试
- ARROW-16176 - [发布][C#] 在 Ubuntu 22.04 上使用 .NET 6.0
- ARROW-16186 - [C++][GANDIVA] 为 decimal、quarter、xor 等添加别名和测试…
- ARROW-16187 - [Go][Parquet] 在读取时正确利用 BufferedStream 和缓冲区大小
- ARROW-16192 - [Go] 删除 v8 的弃用别名
- ARROW-16193 - [Go] 将 CPU 发现包替换为 golang.org/x/sys/cpu 模块
- ARROW-16198 - [CI][打包][Python] 更新 VCPKG 版本
- ARROW-16201 - [R] 3.4 上的 SafeCallIntoR
- ARROW-16203 - [发布] 发布时删除所有旧工件
- ARROW-16204 - [C++][Dataset] 用于写入数据集的默认错误 existing_data_behaviour 忽略单个文件
- ARROW-16208 - [JS] 升级依赖项
- ARROW-16210 - [JS] 实现 tableFromJSON 并支持 vectorFromArray 中的结构向量
- ARROW-16214 - [GLib][Parquet] 添加 GParquetFileMetadata
- ARROW-16229 - [CI] 临时从夜间测试中删除 turbodbc 测试
- ARROW-16232 - [C++] 将 OpenTelemetry 包含在 LICENSE.txt 中
- ARROW-16240 - [Python] 在 pq.write_to_dataset 中支持 row_group_size/chunk_size 关键字,use_legacy_dataset=False
- ARROW-16242 - [Go] xerrors.Errorf 和 xerrors.Is 已弃用,修复 linting
- ARROW-16245 - [GLib][Parquet] 添加 GParquetRowGroupMetadata
- ARROW-16247 - [GLib] 添加 GArrowGCSFileSystem
- ARROW-16250 - [GLib][Parquet] 添加 GParquetColumnChunkMetadata
- ARROW-16251 - [GLib][Parquet] 添加 GParquetStatistics 及其家族
- ARROW-16252 - [CI][Archery] 在夜间报告中突出显示失败构建的数量
- ARROW-16256 - [文档] 记录支持的格式版本
- ARROW-16257 - [R] 将 as_date 和 as_datetime 分解成单独的函数
- ARROW-16264 - [C++][CI] arrow-compute-hash-join-node-test 中的 Valgrind 超时
- ARROW-16276 - [R] 发布新闻
- ARROW-16277 - [Python] 没有针对 macOS arm64 的构建。
- ARROW-16280 - [C++] 避免在 Expression::type() 中复制 shared_ptr
- ARROW-16282 - [CI] [C#] 自从将 ubuntu 升级到 22.04 后,c-sharp 上的版本验证一直失败
- ARROW-16283 - [Go] 清理新缓冲读取器中的 panics
- ARROW-16284 - [Python][打包] 使用 delocate-fuse 创建 universal2 wheels
- ARROW-16291 - [Java]: Java 食谱支持 JSE17
- ARROW-16292 - [Java][文档] 升级 JSE17/JSE18 的 Java 文档
- ARROW-16294 - [C++] 提升 parquet 预读性能
- ARROW-16296 - [GLib] 为 GArrowRoundMode 添加缺失的类型转换
- ARROW-16303 - [C++] 在文件 IO 中检查 EINTR
- ARROW-16308 - [CI] 升级 Windows 运行器版本,因为 windows-2016 已弃用
- ARROW-16314 - [Python][CI] 在 Windows 验证构建中跳过 cython 测试
- ARROW-16325 - [R] 使用 gcc12 添加 R 包的任务
- ARROW-16327 - [Java][CI]: 为 Java 17 CI 流程添加支持
- ARROW-16334 - [Archery][CI] 在夜间报告电子邮件中使用构建链接而不是分支链接
- ARROW-16338 - [CI] 更新 Azure Windows 镜像,因为 vs2017-win2016 已停用
- ARROW-16347 - [Release] 在验证脚本中转义反引号
- ARROW-16349 - [Release][Packaging][RPM] 从 KEYS 中移除 ed25519 密钥
- ARROW-16350 - [Dev][Archery] 在错误消息注释中添加缺少的换行符
- ARROW-16352 - [GLib] 修复 enums.h 安装位置错误的问题
- ARROW-16354 - [Packaging][RPM] 更新 artifacts 模式列表
- ARROW-16355 - [Dev] 更新 verify-release-candidate.sh 以并行编译 cpp
- ARROW-16373 - [Docs][CI] 对 CI 文档进行一些小改进
- ARROW-16387 - [C++] 将 -Wshorten-64-to-32 添加到 clang 测试的 CHECKIN 警告列表中
- ARROW-16390 - [C++] 如果同时调用,Dataset 初始化可能会出现段错误
- ARROW-16408 - [C++] 在 SQLite FlightSQL 示例中添加对 DATE 类型的支持
- ARROW-16411 - [Website] 从 Google Analytics 迁移到 Matomo
- ARROW-16412 - [Java] 更新 README 以引用编译文档
- ARROW-16416 - [C++] 在 Substrait 中支持强制转换函数
- ARROW-16428 - [Release] 为环境变量添加前缀
- ARROW-16445 - [R] [Doc] 为“在 Linux 上安装 Arrow 包”文章添加简短摘要
- ARROW-16455 - [CI] [Packaging] Anaconda 存储空间不足,无法用于 linux-ppc64le