Apache Arrow 8.0.0 (2022 年 5 月 6 日)
这是一个重要的版本,包含了超过 3 个月的开发成果。
下载
贡献者
此版本包含来自 127 位不同贡献者的 636 个提交。
$ git shortlog -sn apache-arrow-7.0.0..apache-arrow-8.0.0
43 Antoine Pitrou
40 David Li
39 Sutou Kouhei
36 Alenka Frim
29 Weston Pace
25 Rok
22 Dragoș Moldovan-Grünfeld
22 Joris Van den Bossche
20 Jonathan Keane
20 Krisztián Szűcs
19 Raúl Cumplido
17 Will Jones
16 Dewey Dunnington
13 david dali susanibar arce
12 Matthew Topol
10 Nic Crane
10 Yibo Cai
10 Vibhatha Abeykoon
9 Dominik Moritz
9 SHIMA Tatsuya
8 Neal Richardson
8 Sanjiban Sengupta
8 okadakk
8 Jacob Wujciak-Jens
7 Tobias Zagorni
7 Alessandro Molina
7 William Butler
6 Dhruv Vats
5 Yuqi Gu
5 Johnnathan
4 Anthony Louis
4 Projjal Chanda
4 Fiona La
4 Micah Kornfield
4 Bryan Cutler
3 Yaron Gvili
3 Ian Alexander Joiner
3 Vinicius Roque
3 ViniciusSouzaRoque
3 emkornfield
3 Chenxi Li
2 Jorge C. Leitao
2 Jose Almeida
2 assignUser
2 Uwe L. Korn
2 Todd Farmer
2 Tim Van Wassenhove
2 Rob Saccoccio
2 Alvin Chunga
2 Stephanie Hazlitt
2 Jeroen van Straten
2 Kyle Barron
2 Sasha Krassovsky
2 Eduardo Ponce
2 Salonijain27
2 liyafan82
2 JabariBooker
2 michalursa
2 Matthijs Brobbel
2 Danielle Navarro
2 Maya Anderson
2 Even Rouault
2 Joost Hoozemans
1 zhixingheyi-tian
1 SAm Albers
1 Alex McRae
1 Alfred Mountfield
1 Ali Amiri
1 Andrew Higgins
1 Andrew Strelsky
1 Andrii Oriekhov
1 Andy Teucher
1 Benjamin Kietzman
1 Benson Muite
1 Bob Matcuk
1 Chris Casola
1 Colin Jermain
1 Corentin
1 Dongjoon Hyun
1 Dooyoung-Hwang
1 Edward Visel
1 Elena Henderson
1 Frederic Branczyk
1 Haowei Yu
1 Hongze Zhang
1 Isaac Brodsky
1 James Duong
1 Johan Mattsson
1 João Pedro
1 Kazuaki Ishizaki
1 Kevin Gurney
1 Kian-Meng Ang
1 Laurent Goujon
1 Leo Di Donato
1 Li Jin
1 Min-Young Wu
1 MrMallIronmaker
1 Nate Clark
1 Nicolas Moreau
1 Nivia
1 Pradeep Garigipati
1 Rafael Telles
1 Romain Francois
1 Ryan Blue
1 Aakash Kumar
1 Sam Albers
1 Siddhant Rao
1 Stephan T. Lavavej
1 Thomas J. Fan
1 Tom Drabas
1 William Ayd
1 Xinyu Zeng
1 Yue Ni
1 Zac Farrell
1 bkmgit
1 burntcustard
1 fabiencelier
1 hankvyang
1 hzuo
1 iurysalino
1 jvictorhuguenin
1 jwijffels
1 karldw
1 marcbernot
1 okadak
1 ptaylor
1 shegden
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -csn apache-arrow-7.0.0..apache-arrow-8.0.0
105 David Li
102 Antoine Pitrou
84 Sutou Kouhei
72 Jonathan Keane
47 Krisztián Szűcs
46 Joris Van den Bossche
30 Weston Pace
25 Nic Crane
23 Pindikura Ravindra
22 Matthew Topol
16 Alessandro Molina
15 Yibo Cai
15 Neal Richardson
14 Dominik Moritz
5 Bryan Cutler
5 GitHub
3 Ian Cook
2 liyafan82
2 Micah Kornfield
1 Matt Topol
1 Li Jin
1 Chao Sun
变更日志
Apache Arrow 8.0.0 (2022-05-06)
Bug 修复
- ARROW-5248 - [Python] 支持 zoneinfo / dateutil 时区
- ARROW-7350 - [Python] 将 Parquet 统计信息解码为标量
- ARROW-9664 - [Python] Array/ChunkedArray.to_pandas 不支持 types_mapper 关键字
- ARROW-11415 - [R] map_batches 不接受数据集作为参数
- ARROW-13168 - [C++][R] 为 Windows 启用运行时时区数据库
- ARROW-13594 - [CI] 再次启用 nightly turbodbc 构建
- ARROW-13922 - [Python] 修复 len(path_or_paths) == 1 时 ParquetDataset 抛出错误的问题
- ARROW-14047 - [C++] [Parquet] FileReader 在重复读取时返回不一致的结果
- ARROW-14215 - [R][CI] Conda Windows 构建因库名称中的空格而失败
- ARROW-14256 - [CI][Package] 重新启用已禁用的 conda 打包构建
- ARROW-14389 - [C++][Gandiva] 修复 LIKE 表达式的性能错误
- ARROW-14638 - [C++][R] Arch Linux 上未知的 C 编译器/ccache
- ARROW-14647 - [JS] 修复负数的 bignumToNumber
- ARROW-14665 - [JAVA] 修复 JdbcToArrow ResultSet 迭代错误
- ARROW-14708 - [C++] 添加缺失的 abseil 依赖项以启用静态 flight 构建
- ARROW-14908 - [C++][R] 数据集哈希连接在 Windows 上发生段错误
- ARROW-14911 - [C++] arrow-compute-hash-join-node-test 失败
- ARROW-14960 - [C++] 根据我们未采用的 Google 样式指南中的更改,向 Arrow 样式指南添加异常
- ARROW-15018 - [Python] DataFrame 索引在 Feather 序列化往返期间被修改
- ARROW-15092 - [R] 在非 Linux 系统上支持 create_package_with_all_dependencies()
- ARROW-15253 - [Python] 带有扩展类型索引的空 dataframe 的 to_pandas 中出现错误
- ARROW-15272 - [Java] 在 ArrowVectorIterator#create 中将清理失败添加为已抑制
- ARROW-15291 - [C++][Python] StructArray.to_numpy 和 to_pandas 如果包含 ExtensionArray 则发生段错误
- ARROW-15312 - [R][C++] 使用 is.na() 过滤 Parquet 数据集会遗漏一些行
- ARROW-15401 - [Python] Gdb 测试在 Windows 和 Apple M1 上失败
- ARROW-15426 - [C++][Gandiva] 更新 InExpressionNode 验证
- ARROW-15444 - [C++] 使用 GCC 7.5 编译在 aggregate_basic.cc 中失败
- ARROW-15465 - [Python] 在数据集测试中添加一些缺失的 parquet 标记
- ARROW-15502 - [Java] 检测 Arrow 文件读取器中的异常页脚大小
- ARROW-15504 - [Python][CI] 确保测试可选组件
- ARROW-15509 - [Go][Parquet] Parquet cmds 崩溃
- ARROW-15511 - [Python][C++] 删除 numpy 索引器中的引用管理
- ARROW-15514 - [C++][Gandiva] 添加标志以启用 Gandiva 对象代码
- ARROW-15520 - [C++] 限定
arrow_vendored::date::format()
以实现 C++20 兼容性 - ARROW-15533 - [C++] 在 CI 中检查 ARROW_WITH_OPENTELEMETRY
- ARROW-15539 - [Archery] 将 ARROW_JEMALLOC 添加到构建选项
- ARROW-15541 - [Python] 提高最低 Cython 版本
- ARROW-15544 - [Go][Parquet] 修复原始架构 base64 解码
- ARROW-15546 - [FlightRPC][C++] 删除 cookie 标头中的引号
- ARROW-15555 - [Release] 不要推送发布标签,因为它已经存在
- ARROW-15580 - [Python] 使 pytz 成为 PyArrow 的实际可选依赖项
- ARROW-15593 - [C++] 使 fork 后 ThreadPool 重新初始化线程安全
- ARROW-15598 - [C++][Gandiva] 避免在生成的代码中使用硬编码的原始指针地址
- ARROW-15599 - [R] 使用
T
col 类型选项从 CSV 文件中将列转换为亚秒时间戳 - ARROW-15603 - [C++] 删除未使用的变量
- ARROW-15604 - [C++][CI] 带有 OpenTracing 的零星 ThreadSanitizer 失败
- ARROW-15604 - [C++][CI] 带有 OpenTracing 的零星 ThreadSanitizer 失败
- ARROW-15607 - [C++] 修复 AVX 检测的错误 CPUID 标志
- ARROW-15626 - [GLib] 修复 GArrowGIOInputStream 可能无法读取足够数据的错误
- ARROW-15627 - [R] 修复联合数据集统一架构
- ARROW-15648 - [C++][Gandiva] 修复 Gandiva 缓存的大小
- ARROW-15651 - [JavaScript] Structs 错误地初始化空值
- ARROW-15652 - [C++] 修复来自 parquet 命名空间内部的 GDB 美化打印
- ARROW-15659 - [R] strptime 应返回 NA(而非错误)与格式不匹配
- ARROW-15664 - [C++] parquet 读取器由于非法 SIMD 指令而发生段错误
- ARROW-15667 - [R] 使用 ARROW_BUILD_STATIC=OFF 测试开发构建
- ARROW-15674 - [C++][Gandiva] Like 函数在某些情况下无法正确处理包含特殊字符的模式
- ARROW-15677 - [R] 在 ArrowObjects 上调用 invalidate() 方法会导致后续段错误
- ARROW-15679 - [R] count 应返回一个未分组的 dataframe
- ARROW-15688 - [C++] add_checked 不会因持续时间溢出而报错
- ARROW-15699 - [C++][Gandiva] 修复 left 和 right func 的实现…
- ARROW-15700 - [C++] Ubuntu 18.04 上的编译错误
- ARROW-15705 - [JavaScript] 允许在 StructBuilder 中的子项上追加 null
- ARROW-15710 - [C++] arrow-threading-utility-test 上出现间歇性死锁
- ARROW-15715 - [Go] ipc 修剪数组上的值偏移量
- ARROW-15718 - [C++] 增加线程限制以解决线程问题
- ARROW-15720 - [CI] 修复 nightly dask 构建(跳过因 Array.to_pandas 使用错误而导致的失败测试)
- ARROW-15723 - [Python] Segfault orcWriter 写入表
- ARROW-15727 - [Python] 允许将 MonthDayNano 间隔列表转换为 Pandas
- ARROW-15728 - [Python] 减少 zstd test_ipc 的熵
- ARROW-15743 - [R] 尽管错误消息另有说明,但
skip
未连接到 open_dataset 上的skip_rows
- ARROW-15746 - [Release][Java] 将缺失的工件添加到 tasks.yml
- ARROW-15748 - [Python] Round temporal 选项默认单位为
day
,但文档中说明为second
。后续 - ARROW-15748 - [Python] Round temporal 选项默认单位为
day
,但文档中说明为second
- ARROW-15757 - [Python] 缺少现有数据行为的绑定使其无法维护旧行为
- ARROW-15760 - [C++] 避免在 cmake 中对 git 的硬依赖(改为从 github 下载 tarball)
- ARROW-15770 - [CI] 并非所有 python 测试都在 CI 作业上运行
- ARROW-15772 - [Go][Flight] 服务器基本身份验证中间件/拦截器错误地进行 base64 解码
- ARROW-15778 - [Java] 将本机字节序设置为 schema
- ARROW-15783 - [Python] 在写入时初始化静态 pandas 数据
- ARROW-15784 - [C++][Python] 删除不再使用的标志 enable_parallel_column_conversion
- ARROW-15791 - [Go] ipc FileWriter 负 WaitGroup 计数器
- ARROW-15794 - [CI][Crossbow] 由于 types_mapper 中的错误导致 Nightly 构建失败
- ARROW-15815 - [C++][Parquet] 修复无效输入时的未定义行为
- ARROW-15819 - [R] R 文档版本切换器在 MacOS 上的 Safari 浏览器中无法工作
- ARROW-15830 - [C++] 确保在运行 Substrait 生成之前目标目录存在
- ARROW-15837 - [C++][Python] 澄清 ListArray::offsets() 的文档
- ARROW-15845 - [Python][Packaging] 修复 macOS wheel 构建
- ARROW-15847 - [Python][CI] 确保我们有一个禁用了 Parquet 加密的 Python 每日构建
- ARROW-15847 - [Python] 使用 Parquet 构建但不使用 Parquet 加密失败
- ARROW-15848 - [Gandiva][C++] 修复函数 istrue 和 is not true
- ARROW-15851 - [C++] 在使用 gRPC 构建时启用 RE2
- ARROW-15852 - [JS] 修复
Table.getByteLength()
抛出的错误 - ARROW-15857 - [R] rhub/fedora-clang-devel 无法安装 ‘sass’ (rmarkdown 依赖项)
- ARROW-15863 - [Packaging][C++][Python] 修复 conda 包构建
- ARROW-15869 - [C++] 修复 Valgrind 失败(未初始化的值)
- ARROW-15888 - [Doc][Python] 使开发说明现代化
- ARROW-15892 - [C++] Dataset APIs 需要 s3:ListBucket 权限
- ARROW-15895 - [R] R 文档版本切换器在使用 Chrome 浏览器时,按下后退按钮后消失又重新出现
- ARROW-15898 - [CI] 更彻底地清理旧的 conda nightly 版本
- ARROW-15905 - [Python][C++] 修复构建 PyArrow 时的 CMake 警告
- ARROW-15928 - [C++] 修复崩溃并实现对 replace_with_mask 函数的 chunked array 支持
- ARROW-15929 - [R] io_thread_count 实际上是 CPU 线程数
- ARROW-15946 - [Go] 修复在写入嵌套数据时 pqarrow.NewColumnWriter 中的内存泄漏
- ARROW-15949 - [Python] 当 Parquet 被禁用时,不强制要求 Parquet 加密
- ARROW-15951 - [CI][Python] “测试 wheel” 步骤虽然有测试错误,但仍然成功
- ARROW-15954 - [Java] 在升级后删除 mac native netty kqueue 依赖
- ARROW-15960 - [C++] 修复 adaptive int builder 边缘情况下的崩溃
- ARROW-15962 - [C++][GANDIVA] 修复 unhex 错误返回
- ARROW-15965 - [C++][Python] 将 RoundToMultipleOptions 的 Scalar 构造函数添加到 Python
- ARROW-15970 - [R][CI] 重新启用 DuckDB dev 测试
- ARROW-15973 - [CI] 将 nightly 报告拆分为三个:Tests、Packaging、Release
- ARROW-15982 - [Python] parquet.read_table 无法解析 home 目录路径
- ARROW-15985 - [CI] 修复当没有要删除的文件时 conda-clean 失败的问题
- ARROW-15987 - [C++][FlightRPC] 解决 AppVeyor 上的 arrow-flight-test 崩溃的问题
- ARROW-15993 - [CI] 将 sphinx-tabs 添加到 ci/conda_env_sphinx.txt
- ARROW-16012 - [C++] 当 Minio 未完全初始化时,在测试中重试 S3 请求
- ARROW-16013 - [C++][Python] 在 NumPyStridedConverter 中使用负步长时,会发生带符号溢出
- ARROW-16016 - [C++] 修复递归 ccache 调用错误
- ARROW-16019 - [C++] 尽量减少 Minio 连接错误
- ARROW-16021 - [C++] MinGW 上的 arrow-compute-hash-join-node-test 超时
- ARROW-16025 - [Python][C++] 修复关闭 ORCFileWritter 时的段错误
- ARROW-16031 - [C++][Gandiva] 修复 Soundex 错误生成
- ARROW-16035 - [Java] 处理空的 JDBC ResultSet
- ARROW-16043 - [C++][Filesystem][S3] 添加缺失的空内容以用于创建目录
- ARROW-16048 - [Python] 避免将空缓冲区地址暴露给 Python 缓冲区协议
- ARROW-16051 - [Gandiva][C++] 修复 datediff 回归构建
- ARROW-16052 - [R] 未定义的全局函数 %>%
- ARROW-16060 - [C++] 对 timestamp(“s”) 和 date32 的 subtract_checked 支持
- ARROW-16071 - [R] 更多未定义的全局函数
- ARROW-16078 - 将捆绑的 zlib 升级到 1.2.12
- ARROW-16099 - [JS] 被压缩的 RecordBatches 应该抛出一个错误
- ARROW-16107 - [Dev][Archery] 修复 archery crossbow latest-prefix 查询
- ARROW-16110 - [C++] GcsFileSystem::Make 忽略 IOContext
- ARROW-16113 - [Python] 在字段子集的情况下,Partitioning.dictionaries 会被字典编码
- ARROW-16131 - [C++] 支持在 IPC 文件的批次中保存和检索自定义元数据
- ARROW-16134 - [C++][GANDIVA] 修复 Concat_WS 错误返回
- ARROW-16136 - [Gandiva][C++] 修复 AddMappings 函数大小过大的问题
- ARROW-16139 - [Python] tests/test_dataset.py::test_write_dataset_s3 中的崩溃
- ARROW-16143 - [Java] 升级 jackson 依赖项 CVE-2020-36518
- ARROW-16143 - [Java] 升级 jackson 依赖项 CVE-2020-36518
- ARROW-16146 - [C++] arrow-gcsfs-test 超时
- ARROW-16148 - [C++] TPC-H 生成器清理
- ARROW-16152 - [C++] 修复 Substrait 中未知函数导致的段错误
- ARROW-16159 - [C++][Python] 允许 FileSystem::DeleteDirContents 在目录缺失时成功
- ARROW-16162 - [C++][FlightRPC] 修复 Ubuntu 18.04 上的 Flight 构建
- ARROW-16163 - [Go] 当与 ZSTD 压缩一起使用时,IPC FileReader 会发生内存泄漏
- ARROW-16165 - [CI][Archery] 修复 nightly query 到 crossbow 以发送报告
- ARROW-16169 - [C++][Gandiva] 修复 convert_fromUTF8_binary() 中的空字符串情况
- ARROW-16181 - [CI][C++] TPCH 节点测试中的 Valgrind 失败
- ARROW-16182 - [C++][CI] ThreadSanitizer 下的 TPCH 节点测试超时
- ARROW-16185 - [C++] 修复 strptime 内核中未初始化的输出数据
- ARROW-16197 - [Docs] 修复损坏的链接
- ARROW-16205 - [C++][FlightRPC] 不要使用 constexpr std::initializer_list
- ARROW-16209 - [JS] 支持在 Tables 上设置任意 symbols
- ARROW-16215 - [C++][FlightRPC] 修复 Windows 上 Flight 测试中的段错误
- ARROW-16216 - [Python][FlightRPC] 当 Flight 不可用时修复 test_flight.py
- ARROW-16219 - [CI] 修复 git 配置以防止 SCM 工具失败
- ARROW-16223 - [C++] 修复 decimal 减少 scale 舍入
- ARROW-16225 - [C++][Parquet] 修复加密 AAD 随机字节生成的长度
- ARROW-16233 - [Python][Packaging] test_zoneinfo_tzinfo_to_string 在 Windows 上的 packaging wheels 上由于 zoneinfo._common.ZoneInfoNotFoundError 而失败
- ARROW-16235 - [C++] 修复 MinGW 导致的构建失败、编译器警告
- ARROW-16236 - [Python] [Packaging] test_s3fs_limited_permissions_create_bucket 在 MAC OS wheel 构建上由于权限被拒绝而失败
- ARROW-16237 - [Docs] Apache Impala 不再处于孵化阶段
- ARROW-16238 - [C++] 修复预缓冲 IPC 读取时的空指针解引用
- ARROW-16261 - [C++] 使用 missing_dir_ok=True 在 HDFS 上修复 DeleteDirContents
- ARROW-16262 - [CI][Integration] 跳过 kartothek 集成中失败的测试
- ARROW-16278 - [CI] 修复 brew 上的 git 安装失败
- ARROW-16278 - [CI] 修复 brew 上的 git 安装失败
- ARROW-16278 - [CI] 修复 brew 上的 git 安装失败
- ARROW-16293 - [CI][GLib] 使测试稳定
- ARROW-16295 - [CI][Release] 对 verify-rc-source-windows 使用 windows-2019
- ARROW-16300 - pc.sort_indices 使用不存在的列抛出 malloc 错误
- ARROW-16301 - [C#][CI] 修复 .NET 6 的 docker 配置
- ARROW-16305 - [C++] 重命名期间遗漏了对 ARROW_ENGINE 的引用
- ARROW-16306 - [CI] 修复 ubuntu 上的 Nightly verify rc
- ARROW-16307 - [Java][FlightRPC] 跳过不稳定的测试 TestDoExchange.testClientCancel
- ARROW-16311 - [Java] 当未请求 table_schema 列时,不要返回该列
- ARROW-16312 - [C++][CI] 在 Windows 验证构建中安装 tzdata
- ARROW-16313 - [R] 确保始终初始化 assume_timezone 选项
- ARROW-16332 - [Release][Java] 添加 artifacts 上传验证
- ARROW-16336 - [Python] ParquetDataset - 向用户隐藏内部 (common_)metadata 相关的警告
- ARROW-16374 - [R][C++] 在 sanitazier 运行时跳过另一个 snappy 测试
- ARROW-16375 - [R][CI] 在 Windows 上将 test-r-devdocs 固定到 R 4.1
- ARROW-16393 - [JAVA] 更新选项规范以接受 query, catalog, schema 和 table 的值
- ARROW-16413 - [Python] 某些数据集 API 在使用 python 文件系统时挂起
- ARROW-16417 - [C++][Python] test_exec_plan.py / test_joins 中的段错误
- ARROW-16419 - [Python] 正确等待 ExecPlan 完成
- ARROW-16442 - [Python][Dataset] 修复 ORC 数据集的片段以使用 FileFragment 类
- PARQUET-2115 - [C++] Parquet 字典位宽限制为 32 位
- PARQUET-2118 - [C++] 不要假设标准指针
- PARQUET-2119 - [C++] 修复 DeltaBitPackDecoder 模糊测试发现的问题
- PARQUET-2123 - [C++] 修复 ScanFileContents 中的无效内存访问
- PARQUET-2124 - [C++] 移除 Parquet 字典 DCHECK
- PARQUET-2130 - 修复使用非标准键名进行调试时发生的崩溃。
- PARQUET-2131 - 数字值解码 DCHECK 应该是异常
新特性和改进
- ARROW-1888 - [C++] 实现 Struct Casts
- ARROW-3016 - [Docs][C++] 使用 perf 进行内存分析
- ARROW-3039 - [Go] 添加对 DictionaryArray 的支持
- ARROW-3998 - [C++] 添加 TPC-H 生成器
- ARROW-5107 - [Release] 验证非 RC 源代码和二进制构件
- ARROW-5598 - [Go] 将 array.Array{,Approx}Equal 重命名为 array.{,Approx}Equal
- ARROW-6780 - [C++][Parquet] 支持在读/写 parquet 时使用 DurationType (写入为 int64)
- ARROW-7174 - [Python] 公开 parquet dictionary_pagesize_limit 写入参数
- ARROW-7272 - [C++][Java][Dataset] RecordBatch 和 VectorSchemaRoot 之间的 JNI 桥梁
- ARROW-7914 - [Python] 允许 pandas datetime 作为 feather 的索引
- ARROW-9235 - [R] 读取和写入文件时支持
connection
类 - ARROW-9378 - [Go] 支持无符号字典索引
- ARROW-9947 - [Python] 用于 Parquet 文件加密的高级 Python API。
- ARROW-10643 - [Python] Pandas<->pyarrow 往返无法为空 dataframe 重新创建索引
- ARROW-10924 - [C++] 验证 ValidateArrayFull 中的时间数据
- ARROW-11071 - [R][CI] 使用 processx 在测试中设置 minio 和 flight 服务器
- ARROW-11259 - [Python] 允许创建对嵌套字段的字段引用
- ARROW-11989 - [C++][Python] 提高 ChunkedArray 访问元素的复杂性
- ARROW-12515 - [Dev][Wiki][Release] 修复并更新 Windows RC 验证脚本
- ARROW-12516 - [C++][Gandiva] 实现 castINTERVALDAY(varchar) 和 castINTERVALYEAR(varchar) 函数
- ARROW-12659 - [C++] 支持 is_valid 作为保证
- ARROW-12743 - [R] 为开发依赖项添加 DESCRIPTION 字段
- ARROW-13185 - [MATLAB] 创建单个 MEX 网关函数,该函数委托给特定的 C++ 函数
- ARROW-13204 - [MATLAB] 更新 MATLAB 接口的文档,以反映最新的 CMake 构建系统更改
- ARROW-13231 - [Doc] 添加 ORC 文档
- ARROW-13260 - [Doc] 托管不同发布的文档版本 + 版本切换器
- ARROW-13337 - [R] 定义 Math group 泛型
- ARROW-13375 - [C++][Gandiva] 在 Gandiva 上实现 POSITIVE 和 NEGATIVE Hive 函数
- ARROW-13409 - [C++][FlightRPC] 公开带有截止日期的服务器关闭
- ARROW-13564 - [Dev] 在集成 pull request 时,检查每条 commit 消息是否包含 “Co-authored-by:” 标签
- ARROW-13616 - [R] 速查表结构
- ARROW-13683 - [R] 测试 Windows UCRT R
- ARROW-13703 - [Python][R] 为新的数据集写入选项添加绑定
- ARROW-13993 - [C++][Compute] 添加 hash_one 聚合函数
- ARROW-14075 - [C++][CI] 为 VisualStudio 2019 添加 appveyor CI 作业,非 conda
- ARROW-14091 - [C++] add(date, duration) -> timestamp kernel
- ARROW-14093 - [C++] subtract(date, date) -> duration kernel
- ARROW-14094 - [C++] add(timestamp, duration) -> timestamp kernel
- ARROW-14095 - [C++] subtract(timestamp, duration) -> timestamp kernel
- ARROW-14096 - [C++] add(time, duration) -> time kernel
- ARROW-14097 - [C++] subtract(time, duration) -> time kernel
- ARROW-14098 - [C++] subtract(time, time) -> duration kernel
- ARROW-14099 - [C++] add(duration, duration) -> duration kernel
- ARROW-14100 - [C++] subtract(duration, duration) -> duration kernel
- ARROW-14101 - [C++] multiply(duration, integer) -> duration kernel
- ARROW-14102 - [C++] divide(duration, integer) -> duration kernel
- ARROW-14153 - [C++][Dataset] 在 ORC Scanner 中添加对 batch_size 的支持
- ARROW-14168 - [R] 仅警告一次关于 arrow 函数的差异
- ARROW-14169 - [R] factors 的 altrep
- ARROW-14199 - [R] 格式绑定(如果可能)
- ARROW-14266 - [R] 使用 WriteNode 写入查询
- ARROW-14279 - [Docs] 描述 PyArrow 库结构的初步尝试
- ARROW-14292 - [C++][Python] Tables 的 Join 基础
- ARROW-14293 - [Python] PyArrow 中的基本 Join 功能
- ARROW-14322 - [Doc] 添加关于如何将 Python 连接到其他语言的 Python 文档
- ARROW-14333 - [C++][Compute] 向比较内核添加 binary 和 LargeStringType 测试
- ARROW-14339 - [Docs] 将规范 URL 添加到 pkgdown (R) 文档
- ARROW-14442 - [R] 修复将时间戳与 "" 作为 tzone 转换时的行为
- ARROW-14444 - [C++] 将基于任务的模型实现到可执行管道中。
- ARROW-14498 - [Docs] 使重新生成带有附加 patch 的旧文档成为可能
- ARROW-14502 - [C++][Gandiva] 添加测试 DayOfMonth
- ARROW-14506 - [C++] Conda 支持 google-cloud-cpp
- ARROW-14553 - [Doc] Java Cookbook Release 1
- ARROW-14579 - [Documentation] 记录 CI
- ARROW-14591 - [R] 为 lubridate duration 类型实现绑定
- ARROW-14612 - [C++] 支持基于文件名的分区
- ARROW-14631 - [C++][Gandiva] 实现 Nextday 函数
- ARROW-14651 - [Release][Archery] 添加对重试下载的支持
- ARROW-14672 - [Docs] 记录如何在 Python 和 Java 之间交换数据
- ARROW-14679 - [R][C++] 在 joins 中处理 suffix 参数
- ARROW-14698 - [Docs][FlightRPC] 为 Flight SQL 添加 API 文档
- ARROW-14702 - [Doc][C++] 记录线程模型
- ARROW-14745 - [R] 启用真正的 duckdb 流式传输
- ARROW-14776 - [Website] 不要在合并提交消息中包含压缩的提交
- ARROW-14798 - [C++][Python][R] 将 container window 添加到 PrettyPrintOptions
- ARROW-14808 - [R] 为
lubridate::date()
实现绑定 - ARROW-14810 - [R] 为 lubridate 的
date_decimal()
和decimal_date()
实现绑定 - ARROW-14815 - [R]
lubridate::semester()
的绑定 - ARROW-14817 - [R] 为
lubridate::tz()
实现绑定 - ARROW-14823 - [R] 为 lubridate::leap_year 实现绑定
- ARROW-14824 - [R] 为 lubridate::epiyear() 实现绑定
- ARROW-14825 - [C++] 用于提取epiyear的时间分量提取函数
- ARROW-14826 - [R] 为
lubridate::dst()
实现绑定 - ARROW-14827 - [C++] 用于提取dst指示符的时间分量提取函数
- ARROW-14893 - [C++] 允许从 URI 创建 GCS 文件系统
- ARROW-14927 - [CI] 将 Fedora 33 升级到 Fedora 35
- ARROW-14942 - [R] lubridate 的 dpicoseconds、dnanoseconds、desconds、dmilliseconds、dmicroseconds 的绑定
- ARROW-14943 - [R] lubridate 的 ddays、dhours、dminutes、dmonths、dweeks、dyears 的绑定
- ARROW-14944 - [R] 实现
lubridate::make_difftime()
- ARROW-14963 - [Doc] 向代码块添加复制按钮扩展
- ARROW-14993 - [C++] CSV 写入器基准测试
- ARROW-14997 - [Python][Doc] 向 API 文档添加 thread_count 函数
- ARROW-15013 - [R] 在 R 级别公开 concatenate
- ARROW-15015 - [R] 用于确保所有测试都运行的测试/ CI 标志?
- ARROW-15020 - [R] 为新的数据集写入选项添加绑定
- ARROW-15040 - [R] 启用 write_csv_arrow 以将 Dataset 或 arrow_dplyr_query 作为输入
- ARROW-15061 - [C++] 为内核函数和 exec plan 节点添加日志记录
- ARROW-15062 - [C++] 将内存信息添加到当前 spans
- ARROW-15064 - [C++] 在 CSV 写入器中向量化 CheckStringHasNoStructuralChars
- ARROW-15066 - [C++] 允许使用非捆绑的 OpenTelemetry
- ARROW-15067 - [C++] 向 scanner 添加跟踪 spans
- ARROW-15080 - [Python][C++] 启用元组转换为 interval
- ARROW-15089 - [C++][Compute] 实现内核以查找给定键的 MapArray 项目
- ARROW-15098 - [R] 为
lubridate::duration()
和/或as.difftime()
添加绑定 - ARROW-15118 - [C++] 如果所有输入对于 Scalar Kernels 都是有效的,则避免位图缓冲区
- ARROW-15152 - [C++][Compute] 实现 hash_list 聚合函数
- ARROW-15156 - [Doc] 为 Java 文档实现教程
- ARROW-15157 - [Doc] 新贡献者指南 v2
- ARROW-15163 - [R] 8.0.0 的 lubridate 函数
- ARROW-15167 - [R] 提高十进制转换的效率
- ARROW-15168 - [R] 添加 S3 泛型以创建主要的 Arrow 对象
- ARROW-15178 - [Java][Docs] Java 教程:Java 的开发人员文档
- ARROW-15180 - 记录如何为 C++ 功能添加 JNI 绑定
- ARROW-15183 - [Python][Docs] 添加缺少的数据集写入选项
- ARROW-15192 - [Java] 允许使用 Jackson 2.12 及更高版本
- ARROW-15195 - [MATLAB] 在 macOS 上为 MATLAB 接口启用 GitHub Actions CI
- ARROW-15197 - [C++] UTF-8 字符串重复内核
- ARROW-15212 - [C++] 处理连接中的 suffix 参数
- ARROW-15215 - [C++] 合并 replace_with_mask、case_when、coalesce、choose、fill_null_forward、fill_null_backward 之间的内核数据复制实用程序
- ARROW-15223 - [C++] 实现 Not Between 三元内核
- ARROW-15238 - [C++] 具有 substrait 消费者的 ARROW_ENGINE 模块
- ARROW-15239 - [C++][Compute] 添加 Bloom 过滤器实现
- ARROW-15258 - [C++] 用于从表创建源节点的简单选项
- ARROW-15262 - [C++] 创建 ToTable sink 节点
- ARROW-15281 - [C++] 实现检索片段文件名的能力
- ARROW-15282 - [C++][FlightRPC] 将数据方法与底层传输分离
- ARROW-15294 - [R] 删除 arrow-without-arrow 和其他 Solaris 技巧
- ARROW-15296 - [CI][GO] 将 Go staticcheck linting 添加到 CI lint 作业
- ARROW-15299 - [R] 调查 {remotes} 依赖项“soft”与 TRUE
- ARROW-15313 - [C++][Java][FlightRPC] 实现 flight-sql 的类型信息方法
- ARROW-15314 - [C++][Java][FlightRPC] 在 Flight SQL 返回的 Arrow 模式上添加缺少的元数据
- ARROW-15321 - [Dev][Python] 也对 Cython 生成的方法进行 numpydoc 验证
- ARROW-15346 - [Doc][Guide] Arrow 代码库 - 次要更正
- ARROW-15347 - [Doc][Guide] 更新新贡献者指南中的测试部分
- ARROW-15348 - [Doc][Guide] PR 的生命周期 - 次要更正
- ARROW-15349 - [Doc][Guide] 现有贡献者页面 - 更新
- ARROW-15350 - [Doc][Guide] 添加样式和 linters 信息部分
- ARROW-15351 - [Doc][Guide] R 绑定的其他教程
- ARROW-15352 - [Doc][Guide] R 包和 make clean
- ARROW-15353 - [Doc][Guide] CI 主题简介并链接到现有文档
- ARROW-15364 - [Python] 更新读取文档字符串中的文件系统条目以反映当前行为
- ARROW-15366 - [Docs] 自动化 R 和非 R 版本切换器的包版本递增
- ARROW-15367 - [Python] 改进 8.0.0 的类和方法文档字符串
- ARROW-15369 - [Doc] 调整示例以使用对 str 指针的新支持
- ARROW-15374 - [C++][FlightRPC] 在数据方法中添加对 MemoryManager 的支持
- ARROW-15389 - [C++][Dev] 改进 GDB 插件中的 Array 预览
- ARROW-15400 - [Go][CI] 在 arm 机器上进行构建练习
- ARROW-15410 - [C++][Datasets] 改进扫描 parquet 时数据集 API 的内存使用
- ARROW-15418 - [Go][Flight] 更新 gRPC 版本,隐藏 impl 详细信息
- ARROW-15425 - [C++] 将文件格式中的 delta 字典添加到集成测试
- ARROW-15428 - [Python] 解决 Parquet 类和函数中的文档字符串
- ARROW-15429 - [Python] 解决 ChunkedArray 类、方法、属性和构造函数的文档字符串
- ARROW-15431 - [Python] 解决 Schema 中的文档字符串
- ARROW-15432 - [Python] 解决 CSV 文档字符串
- ARROW-15440 - [Go] 使用 Arm64 GoLang 汇编实现“unpack_bool”
- ARROW-15450 - [Python][Wheel] Flight 测试在 macOS 测试期间收到 SIGKILL
- ARROW-15462 - [GLib] 添加 GArrow{Month,DayTime,MonthDayNano}Interval{Scalar,Array,ArrayBuilder}
- ARROW-15468 - [R][CI] 测试 DuckDB 开发分支的 crossbow 作业
- ARROW-15471 - [R] R 中的 ExtensionType 支持
- ARROW-15472 - [Website] 添加 Flight SQL 博客文章
- ARROW-15477 - [C++][Python] 允许从数组和类型创建 (FixedSize/Large)ListArray
- ARROW-15480 - [R] 扩展模式/colnames 不匹配错误消息
- ARROW-15483 - [Release] 改进验证脚本
- ARROW-15487 - [FlightRPC][C++][GLib][Python][R] 实现 FlightClient::Close
- ARROW-15489 - [R] 扩展 RecordBatchReader 的可用性
- ARROW-15491 - [Website] 轮换 2022 年的 PMC 主席
- ARROW-15497 - [C++][Homebrew] 使用 Clang Tools 12
- ARROW-15501 - [Java] 支持验证十进制向量
- ARROW-15503 - [GLib][Release] 避免弃用警告
- ARROW-15505 - [C++][Compute] 支持产品聚合中的空类型
- ARROW-15506 - [C++][Compute] 支持 hash_sum/hash_product/hash_mean 中的 Null 类型
- ARROW-15510 - [C++][FlightRPC] 向基准测试添加 CUDA 内存管理器支持
- ARROW-15515 - [C++] 使用新选项更新 ExecPlan 示例代码和文档
- ARROW-15517 - [R] 在 write_dataset() 中使用 WriteNode
- ARROW-15523 - [Python] 支持将 Datasets 作为 Joins 的输入
- ARROW-15524 - [Python] 使 joins 能够接收 Tables 作为输入
- ARROW-15525 - [Python] 使 joins 能够输出 Table 作为结果。
- ARROW-15526 - [Python] 支持 Dataset.join
- ARROW-15527 - [Python] 使 Joins 能够执行 join 操作
- ARROW-15532 - [C++] 修复 StringClassifyDoc 的未使用警告
- ARROW-15542 - [GLib][Parquet] 添加 GParquet*Metadata
- ARROW-15550 - [C++] 添加可选的调试内存检查
- ARROW-15551 - [C++][FlightRPC] 更新 gRPC TLS 选项检测以支持 1.43
- ARROW-15552 - [Doc][Format] 删除关于 base64 的错误提及
- ARROW-15556 - [Release] 添加一个脚本来更新 Homebrew 包
- ARROW-15569 - [Packaging][deb] 使用 gem 而不是 apt 来安装 gobject-introspection gem
- ARROW-15570 - [CI][Nightly] 删除 centos-8 R nightly 作业
- ARROW-15572 - [Java][Docs] 将安装部分添加到 Java 文档
- ARROW-15573 - [Java][Doc] 记录 Apache Arrow 内存管理
- ARROW-15574 - [Java][Doc] 查看现有文档
- ARROW-15575 - [Java][文档] Datasets 教程
- ARROW-15576 - [Java][文档] 为2D数据记录 VectorSchemaRoots
- ARROW-15577 - [Java][文档] 添加 Arrow Flight 文档
- ARROW-15578 - [Java][文档] 记录 C 数据接口以及如何与其他语言交互
- ARROW-15579 - [C++] 添加 MemoryManager::CopyBuffer(const Buffer&)
- ARROW-15594 - [C++][FlightRPC] 将 Deserialize(const Buffer&) 添加到各种 Flight 类型
- ARROW-15595 - [发布][Ruby] 添加对 MFA 的支持
- ARROW-15600 - [C++][FlightRPC] 添加最小的 Flight SQL 查询示例
- ARROW-15601 - [文档][发布] 更新发布后脚本以移动稳定文档 + 保留开发文档
- ARROW-15605 - [CI][R] 在我们的 autobrew CI 作业中继续使用旧的 macos 运行器
- ARROW-15606 - [CI][R] 添加执行 R 包的 brew 构建
- ARROW-15609 - [C++][Compute] 支持仅带有键的 hash_aggregate
- ARROW-15611 - [C++] 将 arrow::ipc::internal::json::ArrayFromJSON 迁移到 Result<>
- ARROW-15614 - [C++] 添加 sqrt 二进制标量内核
- ARROW-15617 - [文档][C++] 记录环境变量
- ARROW-15619 - [C++] 用于提取 is_leap_year 指示符的时间组件提取函数
- ARROW-15623 - [C++][Python] 更新 developers/python.rst (控制台块 + archery 安装中的 “”)
- ARROW-15625 - [C++] 在示例可执行文件名中将下划线转换为连字符
- ARROW-15629 - [GLib] 添加 garrow_{,large_}string_array_builder_append_string_len()
- ARROW-15630 - [发布][MSYS2] 也更新反向依赖项
- ARROW-15631 - [打包][RPM] 将主版本添加到 libs 包
- ARROW-15632 - [R] 剪除捆绑的 libarrow 源代码
- ARROW-15633 - [R] 跳过需要网络连接的 s3_bucket 示例
- ARROW-15634 - [C++][打包] 提高 MacOS 的 java-jars nightly 构建的编译速度
- ARROW-15643 - [C++] 允许通过 cast 选择 StructArray 的字段子集
- ARROW-15650 - [MATLAB] 重命名 MEX 网关函数
- ARROW-15653 - [R][CI] 修复捆绑的 cpp 源代码的测试
- ARROW-15656 - [C++][R] 使 valgrind 构建稍微快一些
- ARROW-15657 - [C++][Java] 将 Apache ORC 升级到 1.7.3
- ARROW-15665 - [C++] 修复 strptime 中输入无效时的 error_is_null
- ARROW-15665 - [C++] 将错误处理选项添加到 StrptimeOptions
- ARROW-15670 - [C++/Python/打包] 更新 conda pinnings 并在 Windows 上启用 GCS
- ARROW-15672 - [C++] 启用 CSV 写入器来控制字段分隔符
- ARROW-15673 - [R] 如果未安装 DuckDB,则正常出错
- ARROW-15680 - [C++] 当舍入到周的倍数时,时间 floor/ceil/round 应该接受 week_starts_monday
- ARROW-15682 - [CI] Github 开始将“windows-latest”标记从 windows 2019 迁移到 windows 2022
- ARROW-15683 - [网站][Rust][DataFusion] 发布 7.0.0 版本公告博客
- ARROW-15690 - [开发] 更新硬编码 master 作为默认值的 GitHub Actions 工作流程
- ARROW-15692 - [开发] 更新发布脚本以使用默认分支
- ARROW-15694 - [开发] 更新 apache/arrow-site GitHub Actions deploy.yml 网站部署工作流程,以支持在推送到 main 时触发
- ARROW-15697 - [R] 将徽标和元标记添加到 pkgdown 网站
- ARROW-15698 - [集成] 在测试中私有化了一些代码
- ARROW-15701 - [R] month() 应该允许整数输入
- ARROW-15706 - [C++][FlightRPC] 实现 UCX 传输
- ARROW-15707 - [C++][FlightRPC] 使 Flight 测试在各种传输中更具可重用性
- ARROW-15708 - [R][CI] 跳过 clang sanitizer 上的 snappy 编码的 parquets
- ARROW-15709 - [C++] 如果执行“内联”构建,则 ARROW_ENGINE 的编译失败
- ARROW-15709 - [C++] 还原更改
- ARROW-15709 - [C++] 如果执行“内联”构建,则 ARROW_ENGINE 的编译失败
- ARROW-15712 - [R] 为
Expression
对象添加一个type
方法 - ARROW-15714 - [C++][Gandiva] 增加 gandiva protobuf 解析器中的 protobuf 递归限制
- ARROW-15717 - [文档] 将 hash_one 添加到文档
- ARROW-15721 - [文档][FlightRPC] 将 Flight/Flight SQL 添加到子项目
- ARROW-15722 - [Java] 改进具有不正确子项的嵌套类型的错误消息
- ARROW-15726 - [C++] 如果未提供 projected_schema,但存在绑定的投影表达式,那么我们应该使用它来推断 projected_schema
- ARROW-15739 - [C++] 将 xsimd 更新到最新版本
- ARROW-15740 - [C++][Compute] 基准测试 element wise min/max
- ARROW-15741 - [文档][格式] 阐明 C 流接口的线程安全性
- ARROW-15742 - [Go] 使用 Arm64 GoLang 汇编实现 ‘bitmap_neon’
- ARROW-15744 - [Gandiva][C++] 为间隔类型添加 NEGATIVE 函数
- ARROW-15749 - [Ruby] 添加对 Month Interval Type 的 #values 的支持
- ARROW-15750 - [Ruby] 添加对 Month Interval Type 的 #raw_records 的支持
- ARROW-15755 - [Java] 支持 Java 17
- ARROW-15763 - [C++] 提高 CSV 写入器性能
- ARROW-15766 - [R] 实现 lubridate::duration() 的绑定
- ARROW-15769 - [C++] 生成更少的算术内核
- ARROW-15775 - [R] 清理 as.* 方法以使用 build_expr()
- ARROW-15776 - [Python] 公开 IpcReadOptions
- ARROW-15777 - [Python][Flight] 允许将 IpcReadOptions 传递给 FlightCallOptions
- ARROW-15781 - [Python] 在 ensure_complete_metadata 中释放 GIL
- ARROW-15782 - [C++] 修复 Findre2Alt.cmake 以首先检查 RE2_ROOT 变量
- ARROW-15788 - [C++][FlightRPC] 为替代传输准备基准测试
- ARROW-15789 - [C++] 将 OpenTelemetry 更新到 v1.2.0
- ARROW-15795 - [Java] 在带有 timezone 向量的时间戳中添加一个 timeZone 的 getter
- ARROW-15796 - [Python] Pickling ParquetFileFragment 不应获取元数据
- ARROW-15799 - [R] 更新 as.Date() 以支持与 epoch 不同的 origin
- ARROW-15800 - [R] 实现
lubridate::as_date()
和lubridate::as_datetime()
的绑定 - ARROW-15801 - [R] 实现 lubridate 日期时间帮助程序的绑定
- ARROW-15802 - [R]
lubridate::make_datetime()
和lubridate::make_date()
的绑定 - ARROW-15810 - [CI][Nightly] 严格检查 R 相关镜像
- ARROW-15814 - [R][文档] 改进 cast() 的文档
- ARROW-15817 - [R] 使用 TableSourceNode 而不是 InMemoryDataset
- ARROW-15818 - [R] 在 R 绑定中实现初始 Substrait 消费者
- ARROW-15820 - [C++][文档] 将 table_source 添加到 streaming_execution.rst & 阐明参数名称
- ARROW-15821 - [JS] 修复目录中 sourcemaps 的路径
- ARROW-15823 - [C++][Python] 添加将 Table 转换为 RecordBatchReader 的方法
- ARROW-15824 - [Python] 将 pyarrow.parquet 设为一个包
- ARROW-15827 - [R] 改进 write_dataset(…, max_rows_per_group) 的 UX
- ARROW-15831 - [Java] 升级 Flight 依赖项
- ARROW-15841 - [R] 实现 SafeCallIntoR 以安全地从另一个线程调用 R API
- ARROW-15844 - [发布][打包] 使用 ASCII 格式进行分离签名
- ARROW-15846 - [格式] 阐明 struct 有效性位图的存在
- ARROW-15850 - [C++] 安装中缺少 Engine substrait 标头
- ARROW-15854 - [C++] 改进 CSV 写入器代码
- ARROW-15860 - [Python] 记录 RecordBatchReader
- ARROW-15864 - [Java][文档] 更新 Arrow nightly Maven 发布文档
- ARROW-15866 - [打包][Ubuntu] 放弃对 Ubuntu 21.04 的支持
- ARROW-15870 - [Python] 开始针对 parquet.read_table 中使用 use_legacy_dataset=True 提出弃用警告
- ARROW-15871 - [Python] 开始针对 ParquetDataset 关键字提出弃用警告,这些关键字在新 API 中将不再支持
- ARROW-15873 - [CI] 从 Ubuntu 21.04 迁移到 22.04
- ARROW-15875 - [R] 为输入流公开 ReadMetadata
- ARROW-15882 - [Python][CI] 确保我们在 nightly hypothesis 构建中运行 hypothesis 测试
- ARROW-15885 - [Ruby] 添加对 DayTime Interval Type 的 #values 的支持
- ARROW-15886 - [Ruby] 添加对 DayTimeInterval 类型的 #raw_records 的支持
- ARROW-15890 - [CI][Python] 使用 venv 代替 virtualenv
- ARROW-15896 - [Python][C++] 为文件系统 “找不到文件” 错误添加 errno 详细信息
- ARROW-15900 - [C++] 支持 Substrait 读取 Feather 格式的本地文件
- ARROW-15902 - [网站] 添加新的提交者: Raphael Taylor-Davies, Wang Xudong, Yijie Shen, Kun Liu
- ARROW-15916 - [打包][RPM] 添加对 CentOS Stream 8 的支持
- ARROW-15917 - [Java][文档] 记录如何使用 Flight 工件
- ARROW-15918 - [Ruby][{day:, millisecond:}, …] )
- ARROW-15919 - [C++] 添加函数,该函数与时间戳和持续时间数学运算不具有交换性
- ARROW-15921 - [格式][FlightRPC][C++][Java] 澄清 FlightEndpoint.locations 的解释
- ARROW-15923 - [打包][Linux] 启用 GCS 支持
- ARROW-15924 - [Ruby] 添加对 MonthDayNanoInterval 类型的 #values 的支持
- ARROW-15925 - [Ruby] 添加对 MonthDayNanoInterval 类型的 #raw_records 的支持
- ARROW-15931 - [网站] 将显式的 Apache LICENSE.txt 和 NOTICE.txt 文件添加到 apache/arrow-site 仓库
- ARROW-15932 - [C++][FlightRPC] 向通用 Flight 套件添加更多测试
- ARROW-15934 - [Python] 在 Python 中公开 write_batch_size
- ARROW-15935 - [Ruby] 为 Arrow::DictionaryArray#values 添加测试
- ARROW-15939 - [Python] 为 JSON 选项类添加 pickle 支持
- ARROW-15940 - [Gandiva][C++] 为 decimal 数据类型添加 NEGATIVE 函数
- ARROW-15941 - [C++] 允许使用环境变量覆盖 IO 线程的数量
- ARROW-15944 - [文档][C++] 记录在 Arch Linux 上构建的依赖项
- ARROW-15947 - [R] 重命名 arrow_dplyr_query 的 s3 方法
- ARROW-15950 - [Go] 将 BitSetRunReader 提升到 internal/bitutils 包
- ARROW-15952 - [C++] 记录 Visitors 并完成 Scalar::Accept
- ARROW-15955 - [打包][RPM] 将缺少的 json-devel 添加到 CentOS Stream 8 构建镜像
- ARROW-15956 - [Java] 合并 Flight 集成测试代码
- ARROW-15963 - [Go][Parquet] 简化 ReaderAtSeeker 接口
- ARROW-15968 - [C++] 更新 AsyncGenerator 语义,仅在所有未完成的 future 完成后才发出一个终端项目
- ARROW-15972 - [Java][Doc] 添加入门部分
- ARROW-15974 - [C++] 迁移 flight/types.h 标头定义以使用 Result<>
- ARROW-15975 - [C++] 记录类型特征和内联 visitors
- ARROW-15976 - [C++] 清理执行计划示例上的注释
- ARROW-15979 - [C++][Doc] 在文档中公开 parquet::WriterProperties 的更多函数
- ARROW-15984 - [C++] 更改 RecordBatchReader API 以使用 Result<>
- ARROW-15989 - [R] rbind & cbind 用于 Table & RecordBatch
- ARROW-15994 - [C++] 撤消 taskify 更改
- ARROW-15995 - [GO] 提高 ‘sum_float64_neon’ 性能
- ARROW-15998 - [文档][CI] 使用 sphinx-design 选项卡代替 sphinx-tabs
- ARROW-15999 - [Python] 关闭使用 hypothesis 进行测试的截止日期
- ARROW-16007 - [R] grepl 绑定为 NA 输入返回 FALSE
- ARROW-16011 - [R] 如果 lintr 发现问题,CI 作业应该失败
- ARROW-16014 - [C++] 创建更多基准来测量表达式评估开销
- ARROW-16026 - [C++] 添加对串行执行器 exposing an async generator as an iterable 的支持
- ARROW-16032 - [C++] 迁移 FlightClient API 到 Result<>
- ARROW-16033 - [C++] 将模式传递给消耗型接收器节点
- ARROW-16038 - [R] 当设置 mutate 的
.keep
选项时,与 dplyr 的行为不同 - ARROW-16042 - [GO] 修复头文件预处理器问题
- ARROW-16044 - [Julia] 从 apache/arrow 中移除
- ARROW-16046 - [文档][FlightRPC][Python] 确保记录了 Flight Python API
- ARROW-16049 - [C++][FlightRPC] 修复 Flight SQL 的 ColumnMetadata 构造函数可见性
- ARROW-16053 - [C++][FlightRPC] 修复不稳定的测试 TestAuthHandler.FailUnauthenticatedCalls
- ARROW-16055 - [C++][Gandiva] 使用对象代码缓存时,跳过缓存命中期间的不必要工作
- ARROW-16057 - [Python] 解决 RecordBatch 类、方法、属性和构造函数的文档字符串
- ARROW-16058 - [Python] 解决 Table 类、方法、属性和构造函数的文档字符串
- ARROW-16059 - [Python] 解决 Tensor 类的文档字符串
- ARROW-16061 - [R][CI] 加速 windows 3.6 构建
- ARROW-16062 - [Python] 将 libarrow_python 包含定义移动到它自己的文件中
- ARROW-16064 - [Java][C++][FlightRPC] 为 FlightSQL 上类型名称添加缺少的列元数据
- ARROW-16065 - [FlightRPC][文档] 改进 Flight 文档
- ARROW-16068 - [C++][FlightRPC] 迁移剩余的 flight API 以使用 Result<>
- ARROW-16069 - [C++][FlightRPC] 重构 gRPC 错误代码处理
- ARROW-16073 - [R] 一旦 tzdb 在 Windows 上可用,清理日期时间单元测试
- ARROW-16074 - [文档] 记录 joins
- ARROW-16079 - [Python] 解决 Parquet 模式和元数据中的文档字符串
- ARROW-16082 - [Flight][Go] 允许指定 net.Listener
- ARROW-16098 - [JS] 不要返回 table 和 recordbatch 迭代器中的 null
- ARROW-16102 - [C++] 添加对使用系统 gRPC 和捆绑的 GCS 进行构建的支持
- ARROW-16104 - [打包] 添加对 Ubuntu 22.04 的支持
- ARROW-16105 - [C++][Gandiva] 添加对 LLVM 14 的支持
- ARROW-16109 - [Python] 添加数据集标记以进行测试以避免失败
- ARROW-16114 - [文档][Python] 记录 Parquet FileMetaData
- ARROW-16117 - [JS] 提高解码 UTF8 的性能
- ARROW-16120 - [Python] ParquetDataset 弃用:将 Deprecation 更改为 FutureWarnings
- ARROW-16121 - [Python] 弃用 ParquetDataset 的 (common_)metadata(_path) 属性
- ARROW-16122 - [Python] 更改 use_legacy_dataset 默认值,并弃用 parquet.write_to_dataset 中不再支持的关键字
- ARROW-16128 - [C++][FlightRPC] 修复 Windows 上的 Flight SQL 静态构建
- ARROW-16132 - [打包][deb][CUDA] 放宽 libcuda1 依赖项
- ARROW-16154 - [R] 传递给
handle_csv_read_error()
和handle_parquet_io_error()
的错误需要更好的错误追踪 - ARROW-16156 - [R] 澄清 .onAttach() 中未启用的功能的警告消息
- ARROW-16158 - [C++][R] 将 ARROW_ENGINE 重命名为 ARROW_SUBSTRAIT
- ARROW-16166 - [C++][Compute] 用于组装 join 输出的实用程序
- ARROW-16167 - [JS] 重构 get 和 set visitors
- ARROW-16173 - [C++] 为 temporal 函数/内核添加基准
- ARROW-16176 - [Release][C#] 在 Ubuntu 22.04 上使用 .NET 6.0
- ARROW-16186 - [C++][GANDIVA] 为 decimal、quarter、xor 等添加别名和测试…
- ARROW-16187 - [Go][Parquet] 在读取时正确利用 BufferedStream 和缓冲区大小
- ARROW-16192 - [Go] 移除已弃用的 v8 别名
- ARROW-16193 - [Go] 用 golang.org/x/sys/cpu 模块替换 CPU 发现包
- ARROW-16198 - [CI][打包][Python] 更新 VCPKG 版本
- ARROW-16201 - [R] SafeCallIntoR on 3.4
- ARROW-16203 - [Release] 删除发布时所有旧的 artifacts
- ARROW-16204 - [C++][Dataset] 用于写入数据集的默认 error existing_data_behaviour 忽略单个文件
- ARROW-16208 - [JS] 升级依赖项
- ARROW-16210 - [JS] 实现 tableFromJSON 并在 vectorFromArray 中支持 struct vector
- ARROW-16214 - [GLib][Parquet] 添加 GParquetFileMetadata
- ARROW-16229 - [CI] 临时从 nightly tests 中删除 turbodbc 测试
- ARROW-16232 - [C++] 在 LICENSE.txt 中包含 OpenTelemetry
- ARROW-16240 - [Python] 在 pq.write_to_dataset 中使用 use_legacy_dataset=False 时,支持 row_group_size/chunk_size 关键字
- ARROW-16242 - [Go] xerrors.Errorf 和 xerrors.Is 已弃用,修复 linting
- ARROW-16245 - [GLib][Parquet] 添加 GParquetRowGroupMetadata
- ARROW-16247 - [GLib] 添加 GArrowGCSFileSystem
- ARROW-16250 - [GLib][Parquet] 添加 GParquetColumnChunkMetadata
- ARROW-16251 - [GLib][Parquet] 添加 GParquetStatistics 及其家族
- ARROW-16252 - [CI][Archery] 在 nightly 报告中突出显示失败构建的数量
- ARROW-16256 - [Docs] 文档说明支持的格式版本
- ARROW-16257 - [R] 将 as_date 和 as_datetime 分解为单独的函数
- ARROW-16264 - [C++][CI] arrow-compute-hash-join-node-test 中的 Valgrind 超时
- ARROW-16276 - [R] 发布新闻
- ARROW-16277 - [Python] 没有适用于 macOS arm64 的构建。
- ARROW-16280 - [C++] 避免在 Expression::type() 中复制 shared_ptr
- ARROW-16282 - [CI] [C#] 自将 ubuntu 升级到 22.04 以来,c-sharp 上的发布验证失败
- ARROW-16283 - [Go] 清理新缓冲读取器中的 panic
- ARROW-16284 - [Python][Packaging] 使用 delocate-fuse 创建 universal2 wheels
- ARROW-16291 - [Java]: 支持 Java Cookbooks 的 JSE17
- ARROW-16292 - [Java][Doc] 升级 JSE17/JSE18 的 java 文档
- ARROW-16294 - [C++] 提高 parquet 预读的性能
- ARROW-16296 - [GLib] 添加 GArrowRoundMode 缺失的转换
- ARROW-16303 - [C++] 检查文件 IO 中的 EINTR
- ARROW-16308 - [CI] 由于 windows-2016 已弃用,请升级 windows runner 版本。
- ARROW-16314 - [Python][CI] 跳过在 windows 验证构建中运行 cython 测试
- ARROW-16325 - [R] 为带有 gcc12 的 R 包添加任务
- ARROW-16327 - [Java][CI]: 添加对 Java 17 CI 流程的支持
- ARROW-16334 - [Archery][CI] 在 nightly 报告电子邮件上使用构建链接而不是分支链接
- ARROW-16338 - [CI] 更新 azure windows 映像,因为 vs2017-win2016 已停用
- ARROW-16347 - [Release] 转义验证脚本中的反引号
- ARROW-16349 - [Release][Packaging][RPM] 从 KEYS 中删除 ed25519 密钥
- ARROW-16350 - [Dev][Archery] 在错误消息注释中添加缺失的换行符
- ARROW-16352 - [GLib] 修复错误的 enums.h 安装位置
- ARROW-16354 - [Packaging][RPM] 更新 artifacts 模式列表
- ARROW-16355 - [Dev] 更新 verify-release-candidate.sh 以并行编译 cpp
- ARROW-16373 - [Docs][CI] 对 CI 文档的小改进
- ARROW-16387 - [C++] 将 -Wshorten-64-to-32 添加到 clang 测试的 CHECKIN 警告列表
- ARROW-16390 - [C++] 如果同时调用数据集初始化可能会发生段错误
- ARROW-16408 - [C++] 在 SQLite FlightSQL 示例中添加对 DATE 类型的支持
- ARROW-16411 - [Website] 从 Google Analitics 迁移到 Matomo
- ARROW-16412 - [Java] 更新了 README 以引用编译文档
- ARROW-16416 - [C++] 在 Substrait 中支持 cast 函数
- ARROW-16428 - [Release] 向 ENV 变量添加前缀
- ARROW-16445 - [R] [Doc] 为在 Linux 上安装 Arrow 包的文章添加简短摘要
- ARROW-16455 - [CI] [Packaging] linux-ppc64le 的 Anaconda 存储大小超出限制