Apache Arrow 1.0.0 (2020年7月24日)
这是一个涵盖超过3个月开发的主要版本。
下载
贡献者
此版本包含来自 100 位不同贡献者的 771 个提交。
$ git shortlog -sn apache-arrow-0.17.0..apache-arrow-1.0.0
125 Wes McKinney
72 Neal Richardson
61 Antoine Pitrou
56 Sutou Kouhei
55 Krisztián Szűcs
30 Joris Van den Bossche
24 Benjamin Kietzman
23 David Li
21 Kazuaki Ishizaki
19 Qingping Hou
18 Andy Grove
18 François Saint-Jacques
17 Neville Dipale
16 Yibo Cai
16 liyafan82
15 Ryan Murray
14 Micah Kornfield
10 Uwe L. Korn
9 Paddy Horan
8 Jorge C. Leitao
8 Projjal Chanda
7 Frank Du
7 Romain Francois
6 Kenta Murata
6 Maarten A. Breddels
6 Max Burke
5 Mahmut Bulut
4 Mark Hildreth
4 Yuan Zhou
3 Adam Szmigin
3 Raphael Taylor-Davies
3 Zhuo Peng
3 rdettai
2 Bobby Wagner
2 Eric Erhardt
2 Prudhvi Porandla
2 R. Tyler Croy
2 Sagnik Chakraborty
2 Vamsi
2 Yordan Pavlov
2 c-jamie
2 dota17
2 mayuropensource
2 tianchen
2 tianchen92
1 Alex Baden
1 Ben Kimock
1 Bryan Cutler
1 Chad Dougherty
1 Christian Hudon
1 Cuong Nguyen
1 David Anthoff
1 Dmitry Kalinkin
1 Drazen Urch
1 Erin Ryan
1 Eyal Leshem
1 Frank Smith
1 German I Ramirez-Espinoza
1 Hongze Zhang
1 Ilija Puaca
1 Itamar Turner-Trauring
1 Jacek Pliszka
1 Jens Glaser
1 Ji Liu
1 Jörn Horstmann
1 Kyle Brandt
1 Kyle McCarthy
1 Laurent Goujon
1 Li, Jiajia
1 Maarten Breddels
1 Masaki Kozuki
1 Mohamed Zenadi
1 Nick Poorman
1 Pand9
1 Paul Dix
1 Paul Taylor
1 Praveen
1 Robert Borkowski
1 Rok
1 Sergey Fedoseev
1 Shuai Zhang
1 Simon Watts
1 Stéphane Campinas
1 Suvayu Ali
1 Sven Wagner-Boysen
1 TP Boudreau
1 Takuya Kato
1 Tobias Mayer
1 Wakahisa
1 Weston Steimel
1 Yuqi Gu
1 Zachary Gramana
1 Ze'ev Maor
1 alamb
1 alimcmaster1
1 amol
1 chenguoping
1 ritchie46
1 rvernica
1 xuyiming
补丁提交者
以下 Apache 提交者将贡献的补丁合并到代码库中。
$ git shortlog -csn apache-arrow-0.17.0..apache-arrow-1.0.0
231 Wes McKinney
85 Antoine Pitrou
74 Krisztián Szűcs
68 Neal Richardson
67 Sutou Kouhei
44 François Saint-Jacques
35 Andy Grove
34 Neville Dipale
21 Benjamin Kietzman
17 GitHub
17 Micah Kornfield
12 Chao Sun
12 Paddy Horan
8 David Li
8 Praveen
7 Joris Van den Bossche
5 Bryan Cutler
5 Eric Erhardt
5 Uwe L. Korn
4 Yosuke Shiro
3 Jacques Nadeau
3 Pindikura Ravindra
3 Sebastien Binet
2 liyafan82
1 Kenta Murata
变更日志
Apache Arrow 1.0.0 (2020-07-24)
错误修复
- ARROW-1692 - [Python, Java] UnionArray 往返测试不工作
- ARROW-3329 - [Python] 将 decimal(38, 4) 转换为 int64 时出错
- ARROW-3861 - [Python] ParquetDataset().read columns 参数始终返回分区列
- ARROW-4018 - [C++] RLE 解码器可能不兼容大端序
- ARROW-4309 - [文档] 添加一个 docker-compose 条目,用于构建启用 CUDA 的文档
- ARROW-4600 - [Ruby] Arrow::DictionaryArray#[] 应该返回索引数组中的项
- ARROW-5158 - [打包][Wheel] 在 wheel 包中符号链接库
- ARROW-5310 - [Python] 从空目录创建 ParquetDataset 时提供更好的错误消息
- ARROW-5359 - [Python] 在 pyarrow 中为 pa.Table.to_pandas 提供 timestamp_as_object 支持
- ARROW-5572 - [Python] 在 parquet 读取中传递无效过滤器时引发错误消息
- ARROW-5666 - [Python] 读取数据集时,分区(字符串)值中的下划线被删除
- ARROW-5744 - [C++] 对于超过 2GB 限制的 BinaryArray 类型,不要在 Table::CombineChunks 中出错
- ARROW-5875 - [FlightRPC] 在集成测试中测试 RPC 功能
- ARROW-6235 - [R] 未实现从 arrow::BinaryArray 到 R 字符向量的转换
- ARROW-6523 - [C++][Dataset] arrow_dataset 目标不依赖于任何东西
- ARROW-6848 - [C++] 构建时指定 -std=c++11 而不是 -std=gnu++11
- ARROW-7018 - [R] Arrow <–> R 转换中的非 UTF-8 数据
- ARROW-7028 - [R] 日期往返测试导致不同的 R 存储模式
- ARROW-7084 - [C++] ArrayRangeEquals 是否应该检查完整的类型相等性?
- ARROW-7173 - [集成] 添加测试以验证 Map 字段名称可以是任意的
- ARROW-7208 - [Python] 将目录传递给 ParquetFile 类会产生令人困惑的错误消息
- ARROW-7273 - [Python] 允许使用不可为空的空字段 / 写入 parquet 时崩溃
- ARROW-7480 - [Rust] [DataFusion] 当聚合 + 分组列与所选列不匹配时,查询失败/不正确
- ARROW-7610 - [Java] 完成对 64 位整数分配的支持
- ARROW-7654 - [Python] 在 csv.ConvertOptions 中将 column_types 设置为 Schema 的功能未记录
- ARROW-7681 - [Rust] 显式查找 BufReader 将丢弃内部缓冲区
- ARROW-7702 - [C++][Dataset] 提供(可选)确定性批次顺序
- ARROW-7782 - [Python] 将 write_to_dataset 与 partition_cols 一起使用时丢失索引信息
- ARROW-7840 - [Java] [集成] Java 可执行文件失败
- ARROW-7925 - [C++][文档] cpp/development.rst 中关于运行 IWYU 和其他任务的说明已过时
- ARROW-7939 - [Python] 读取使用 snappy 压缩的 parquet 文件时崩溃
- ARROW-7967 - [CI][Crossbow] 在 autobrew 作业中固定 macOS 版本以匹配 CRAN
- ARROW-8050 - [Python][打包] 不要在 wheel 包中包含生成的 Cython 源文件
- ARROW-8078 - [Python] 文档中缺少关于字段和模式数据类型的链接
- ARROW-8115 - [Python] 混合 NaT 和 datetime 对象时转换不工作
- ARROW-8251 - [Python] pandas.ExtensionDtype 无法在使用 write_to_dataset 的往返测试中幸存
- ARROW-8344 - [C#] StringArray.Builder.Clear() 会损坏随后构建的数组内容
- ARROW-8360 - [C++][Gandiva] 修复日期/时间函数的 date32 支持
- ARROW-8374 - [R] 当数组的每个数组没有相同的字典时,将表转换为 DictonaryType 向量将出错
- ARROW-8392 - [Java] 修复向量值比较的溢出相关极端情况
- ARROW-8448 - [软件包] 无法使用 ubuntu-focal 构建 apt 软件包
- ARROW-8455 - [Rust] [Parquet] 对部分兼容的文件进行 Arrow 列读取
- ARROW-8455 - [Rust] [Parquet] 对部分兼容的文件进行 Arrow 列读取
- ARROW-8471 - [C++][集成] /u?int64/ 作为 JSON::number 的回归
- ARROW-8472 - [Go][集成] 将 64 位整数表示为 JSON::string
- ARROW-8473 - [Rust] rust/parquet 自述文件中的“统计信息支持”不正确
- ARROW-8480 - [Rust] 没有分配失败检查
- ARROW-8503 - [打包][deb] 无法为 RC 构建 apache-arrow-archive-keyring
- ARROW-8505 - [发布][C#] Apache.Arrow.AssemblyInfo.cs 导致“sourcelink 测试”失败
- ARROW-8508 - [Rust] FixedSizeListBuilder 的 ListBuilder 创建了错误的偏移量
- ARROW-8510 - [C++] 使用“Visual Studio 15 2017 Win64”生成器时,arrow/dataset/file_base.cc 无法编译,并出现内部编译器错误
- ARROW-8511 - [开发者][发布] 如果 C++ 编译失败,Windows 发布验证脚本不会停止
- ARROW-8514 - [开发者] Windows wheel 验证脚本不检查 Python 3.5
- ARROW-8529 - [C++] 修复在 GetBatchWithDict[Spaced] 中使用 NextCounts() 的问题
- ARROW-8535 - [Rust] Arrow crate 未指定 arrow-flight 版本
- ARROW-8536 - [Rust] 在任何父目录中都找不到 format/Flight.proto
- ARROW-8537 - [C++] ARROW-8523 导致的性能下降
- ARROW-8539 - [CI] “AMD64 MacOS 10.15 GLib & Ruby”失败
- ARROW-8554 - [C++][基准测试] 修复构建错误“无法绑定左值”
- ARROW-8556 - [R] 如果有多个 zstd 安装,则找不到 zstd 符号
- ARROW-8566 - [R] 将 POSIXct 写入 spark 时出错
- ARROW-8568 - [C++][Python] 在调试模式下进行十进制转换时崩溃
- ARROW-8577 - [Plasma] 在没有 CUDA 设备的机器上,启用 CUDA 构建的 PlasmaClient::Connect() 始终失败
- ARROW-8583 - [C++][文档] Dataset 命名空间中未记录的参数
- ARROW-8584 - [打包][C++] deb 构建中的 Protobuf 链接错误
- ARROW-8585 - [打包][Python] 由于链接错误,Windows wheel 无法构建
- ARROW-8586 - [R] 在 CentOS 7 上安装失败
- ARROW-8587 - [C++] 链接 arrow-flight-perf-server 时出现编译错误
- ARROW-8592 - [C++] 文档仍然将 LLVM 7 列为使用的编译器
- ARROW-8593 - [C++] 使用 musl libc 时,Parquet file_serialize_test.cc 无法构建
- ARROW-8598 - [Rust] 当项目计数不是 T::lanes() 的倍数时,simd_compare_op 会创建长度不正确的缓冲区
- ARROW-8602 - [CMake] 在 Linux 上交叉编译时修复 ws2_32 链接问题
- ARROW-8603 - [文档] 修复 Sphinx doxygen 注释
- ARROW-8604 - [R][CI] 更新 CI 以使用 R 4.0
- ARROW-8608 - [C++] 将 vendored mpark/variant.h 更新到最新版本以修复 NVCC 编译问题
- ARROW-8609 - [C++] ORC JNI 桥在空 arrow 缓冲区上崩溃
- ARROW-8610 - [Rust] 禁用 simd 功能时运行 arrow crate 时出现 DivideByZero
- ARROW-8613 - [C++][数据集] 无法解析分区值时引发错误
- ARROW-8615 - [R] 改善错误信息并在 read_feather 中强制使用 RandomAccessFile
- ARROW-8617 - [Rust] simd_load_set_invalid 在 aarch64 上不存在
- ARROW-8632 - [C++] 修复 array_union_test.cc 中的转换错误警告
- ARROW-8641 - [Python] Feather 回归:不再支持列选择中的排列
- ARROW-8643 - [Python] 由于频率断言,使用 pandas master 的测试失败
- ARROW-8644 - [Python] 由于不包含分区列的更改,Dask 集成测试失败
- ARROW-8646 - [Java] 允许 UnionListWriter 写入空值
- ARROW-8649 - [Java] [网站] 网站上的 Java 文档被隐藏
- ARROW-8657 - [Python][C++][Parquet] 使用 version='2.0' 时,从 0.16 到 0.17 的向前兼容性问题
- ARROW-8663 - [文档] 对 building.rst 的小修正
- ARROW-8680 - [Rust] ComplexObjectArrayReader 错误的空值 shuffling
- ARROW-8684 - [Python] 在 macOS 上使用 pyarrow wheel 时,Python 3.7.7 中出现 “SystemError: Bad call flags in _PyMethodDef_RawFastCallDict”
- ARROW-8689 - [C++] S3 基准测试链接失败
- ARROW-8693 - [Python] Dataset.get_fragments 在过滤时缺少隐式转换
- ARROW-8694 - [Python][Parquet] 从 Pandas DataFrame 创建的宽表加载时,parquet.read_schema() 失败
- ARROW-8701 - [Rust] 在 Raspberry Pi 上未解析的导入 `crate::compute::util::simd_load_set_invalid`
- ARROW-8704 - [C++] 修复 Parquet 在无效输入时崩溃的问题 (OSS-Fuzz)
- ARROW-8705 - [Java] ComplexCopier 正在跳过空值
- ARROW-8706 - [C++][Parquet] 跟踪 PARQUET-1857 的 JIRA 问题(未加密的 INT16_MAX Parquet 行组限制)
- ARROW-8710 - [Rust] IPC writer 中的 Continuation marker 未正确写入,并且流未刷新
- ARROW-8722 - [开发] “archery docker run -e” 不起作用
- ARROW-8726 - [C++][数据集] 错误指定的 DirectoryPartitioning 错误地使用文件名作为值
- ARROW-8728 - [C++] 位图操作可能导致缓冲区溢出
- ARROW-8729 - [C++][数据集] 仅选择分区列会导致表为空
- ARROW-8734 - [R] 改进 nightly build 安装
- ARROW-8741 - [Python][打包] Windows wheels 保留 VS2015
- ARROW-8750 - [Python] 如果可用,pyarrow.feather.write_feather 不会默认使用 lz4 压缩
- ARROW-8768 - [R][CI] 修复 nightly as-cran 的偶发故障
- ARROW-8775 - [C++][FlightRPC] 集成客户端未运行集成测试
- ARROW-8776 - [FlightRPC][C++] Flight/C++ 中间件在对 Java 服务器的失败调用中未收到标头
- ARROW-8798 - [C++] 修复 Parquet 在无效输入时崩溃的问题 (OSS-Fuzz)
- ARROW-8799 - [C++][数据集] 将列表列作为嵌套字典读取会导致段错误
- ARROW-8801 - [Python] 使用 pandas 读取带有 UTC 时间戳的 parquet 文件时出现内存泄漏
- ARROW-8802 - [C++][数据集] 读取列的子集时,架构元数据丢失
- ARROW-8803 - [Java] 在 VectorLoader 中加载缓冲区之前应设置行计数
- ARROW-8808 - [Rust] arrays/builder.rs 中被零除
- ARROW-8809 - [Rust] 集成测试中的架构不匹配
- ARROW-8811 - [Java] 修复 master 上的构建
- ARROW-8820 - [C++][Gandiva] 修复 date_trunc 函数以返回日期类型
- ARROW-8821 - [Rust] 嵌套二元表达式与 Like、NotLike 和 Not 运算符会导致类型转换错误
- ARROW-8825 - [C++] 无法使用 Wunused-parameter 标志编译 pass
- ARROW-8826 - [Crossbow] 远程 URL 应始终包含 .git
- ARROW-8832 - [Python] AttributeError: 模块 'pyarrow.fs' 没有属性 'S3FileSystem'
- ARROW-8848 - [CI][C/Glib] MinGW 构建错误
- ARROW-8848 - [CI][C/Glib] MinGW 构建错误
- ARROW-8858 - [FlightRPC] 确保标头统一公开
- ARROW-8860 - [C++] 嵌套数组的 IPC/Feather 解压缩损坏
- ARROW-8862 - [C++] NumericBuilder 不使用传递给 CTOR 的 MemoryPool
- ARROW-8863 - [C++] 当没有有效位图时,数组子类构造函数必须将 ArrayData::null_count 设置为 0
- ARROW-8869 - [Rust] [DataFusion] 类型强制优化器规则不支持新的扫描节点
- ARROW-8871 - [C++] Gandiva 构建失败
- ARROW-8872 - [CI] Travis-CI 作业失败(无法打开文件“ci/detect-changes.py”)
- ARROW-8874 - [C++][数据集] 当 ScanTask 因错误提前退出时,Scanner::ToTable 竞争
- ARROW-8878 - [R] 当 download.file.method 不是默认值时,try_download 会混淆
- ARROW-8882 - [C#] 将 .editorconfig 添加到 C# 代码
- ARROW-8888 - [Python] dataframe_to_arrays 中决定多线程转换的启发式方法导致转换速度慢
- ARROW-8889 - [Python] 将 RecordBatch 与 None 比较时,Python 3.7 SIGSEGV
- ARROW-8892 - [C++][CI] MSVC 的 CI 构建不构建基准测试
- ARROW-8909 - [Java] 使用 setSafe 进行乱序写入
- ARROW-8911 - [C++] 切片具有零块的 ChunkedArray 会导致段错误
- ARROW-8924 - [C++][Gandiva] castDATE_date32() 可能导致溢出
- ARROW-8925 - [Rust] [DataFusion] CsvExec::schema() 返回错误的结果
- ARROW-8930 - [C++] libz.so 与 liborc.a 链接错误
- ARROW-8932 - [C++] liborc.a 的符号解析失败
- ARROW-8946 - [Python] 为 parquet.write_metadata metadata_collector 添加测试
- ARROW-8948 - [Java][集成] 启用重复字段名集成测试
- ARROW-8951 - [C++] 修复 compute/kernels/scalar_cast_temporal.cc 中的编译器警告
- ARROW-8954 - [网站] ca-certificates 应该列在安装说明中
- ARROW-8957 - [FlightRPC][C++] 由于 IpcOptions 导致构建失败
- ARROW-8959 - [Rust] 新的基准测试 crate 使用旧 API 导致构建损坏
- ARROW-8962 - [C++] 使用 clang-4.0 链接失败
- ARROW-8968 - [C++][Gandiva] 在 s390x 上显示链接警告消息
- ARROW-8975 - [FlightRPC][C++] 修复不稳定的 MacOS 测试
- ARROW-8977 - [R] 具有架构的 Table$create 在某些字典索引类型下崩溃
- ARROW-8978 - [C++][计算] “条件跳转或移动取决于未初始化的值” Valgrind 警告
- ARROW-8980 - [Python] 使用磁盘中的架构时,元数据呈指数级增长
- ARROW-8982 - [CI] 在 TravisCI 中删除对 s390x 的 allow_failures
- ARROW-8986 - [Archery][ursabot] 修复基准差异签出 origin/master
- ARROW-9000 - [Java] 使用 JDK14 构建崩溃
- ARROW-9009 - [C++][数据集] 读取 Parquet 文件时,应从架构的元数据中删除 ARROW:schema
- ARROW-9013 - [C++] 验证枚举样式的 CMake 选项
- ARROW-9020 - [Python] read_json 不会遵守 parse_options 中的 explicit_schema
- ARROW-9024 - [C++/Python] 在 conda-clean 作业中安装 anaconda-client
- ARROW-9026 - [C++/Python] 强制从 arrow-nightlies conda 存储库中删除包
- ARROW-9037 - [C++][C] 无法导入空计数 == -1 的数组(可以导出)
- ARROW-9057 - [Rust] 投影应该在 InMemoryScan 上工作而不会出错
- ARROW-9059 - [Rust] 切片数组数据的文档符号错误
- ARROW-9066 - [Python] 在 isnull() 中引发正确的错误
- ARROW-9071 - [C++] MakeArrayOfNull 生成无效的 ListArray
- ARROW-9077 - [C++] 修复 aggregate/scalar-compare 基准测试 null_percent 计算
- ARROW-9080 - [C++] arrow::AllocateBuffer 返回 Result<unique_ptr<Buffer>>
- ARROW-9082 - [Rust] - 当流未以(可选)0xFFFFFFFF 0x00000000 结尾时,流读取器失败
- ARROW-9084 - [C++] 当 ZSTD_SOURCE=SYSTEM 时,CMake 无法找到 zstd target
- ARROW-9085 - [C++][CI] Appveyor CI 测试失败
- ARROW-9087 - [C++] 缺少 HDFS 选项解析
- ARROW-9098 - RecordBatch::ToStructArray 无法处理 0 列的记录批次
- ARROW-9105 - [C++] ParquetFileFragment 扫描不处理分区字段上的过滤器
- ARROW-9120 - [C++] 使用文件名中的“codegen”对 C++ 文件进行 Lint 和格式化
- ARROW-9121 - [C++] 当路径为空时,不要擦除文件系统
- ARROW-9122 - [C++] 调整 ascii_lower/ascii_upper 批量转换以处理切片数组
- ARROW-9126 - [C++] 修剪后的 Boost 包无法在 Windows 上构建
- ARROW-9127 - [Rust] 更新 thrift 库依赖项
- ARROW-9134 - [Python] Parquet 分区将 Int32 降级为 float64
- ARROW-9141 - [R] 更新跨包文档链接
- ARROW-9142 - [C++] random::RandomArrayGenerator::Boolean “probability” 文档记录错误/不正确
- ARROW-9143 - [C++] RecordBatch::Slice 错误地将不可为空字段的内部 null_count 设置为未知
- ARROW-9146 - [C++][数据集] 使用过滤器 + 不匹配的架构扫描 Fragment 不应中止
- ARROW-9151 - [R][CI] 修复 Rtools 4.0 构建:pacman 同步
- ARROW-9160 - [C++] 为精确匹配实现字符串/二进制包含
- ARROW-9174 - [Go] 测试在 386 (x86) 构建中出现 panic
- ARROW-9183 - [C++] 使用 gcc 4.9.2 构建 arrow-cpp 失败
- ARROW-9184 - [Rust][Datafusion] 没有投影的表扫描应该返回所有列
- ARROW-9194 - [C++] Array::GetScalar 未针对 decimal 类型实现
- ARROW-9195 - [Java] ByteFunctionsHelper 类中错误使用了 Unsafe.get from bytearray
- ARROW-9209 - [C++] 基准测试在 ARROW_IPC=OFF 和 ARROW_BUILD_TESTS=OFF 时构建失败
- ARROW-9219 - [R] Parquet 写入选项中的 coerce_timestamps 不起作用
- ARROW-9221 - ArrowBuf#setBytes(int, ByteBuffer) 不检查字节缓冲区的字节序
- ARROW-9223 - [Python] 修复结构体中时间戳的 to_pandas() 导出问题
- ARROW-9230 - [FlightRPC][Python] flight.connect() 未传递所有参数
- ARROW-9233 - [C++] NullArray 上的 is_null 应该对所有值都为 true
- ARROW-9236 - [Rust] CSV WriterBuilder 从不写入标题
- ARROW-9237 - [R] 在 Arch Linux 上安装 0.17 版本
- ARROW-9238 - [C++][CI] ipc 和 flight 中循环机制的一些测试覆盖率
- ARROW-9252 - [集成] GitHub Actions 集成测试作业未针对 apache/arrow-testing 中的“黄金”0.14.1 文件进行测试
- ARROW-9260 - [CI] “ARM64v8 Ubuntu 20.04 C++” 失败
- ARROW-9260 - [CI] “ARM64v8 Ubuntu 20.04 C++” 失败
- ARROW-9261 - [Python][打包] manylinux wheel 中的 S3FileSystem curl 错误
- ARROW-9274 - [Rust] [集成测试] 从 json 文件中将 i64 读取为字符串
- ARROW-9282 - [R] 删除 _EXTPTR_PTR 的使用
- ARROW-9284 - [Java] getMinorTypeForArrowType 为密集联合类型返回稀疏的次要类型
- ARROW-9288 - [C++][Dataset] 使用 HivePartitioning 将分区字段发现为字典类型会导致段错误
- ARROW-9297 - [C++][Dataset] 数据集扫描器无法处理大型二进制列(> 2 GB)
- ARROW-9298 - [C++] 修复无效输入导致的崩溃 (OSS-Fuzz)
- ARROW-9303 - [R] Linux 静态构建应始终捆绑依赖项
- ARROW-9305 - [Python] Windows wheel 构建中的依赖项加载失败
- ARROW-9315 - [Java] 修复 testAllocationManagerType 的失败
- ARROW-9317 - [Java] arrow-memory 的一些测试用例
- ARROW-9326 - [Python] Setuptools 49.1.0 似乎破坏了我们的 Python 3.6 构建
- ARROW-9326 - [Python] Setuptools 49.1.0 似乎破坏了我们的 Python 3.6 构建
- ARROW-9326 - [Python] Setuptools 49.1.0 似乎破坏了我们的 Python 3.6 构建
- ARROW-9330 - [C++] 修复损坏的 IPC 输入导致的崩溃 (OSS-Fuzz)
- ARROW-9334 - [开发][Archery] 推送祖先 Docker 镜像
- ARROW-9336 - [Ruby] 使用缺少键的结构体创建 RecordBatch 会导致表格格式错误
- ARROW-9343 - [C++][Gandiva] CastINT/Float 函数应该处理字符串中的前导/尾随空格
- ARROW-9347 - [Python] 测试在最新的 fsspec 中失败
- ARROW-9350 - [C++][CI] 夜间 valgrind 作业失败
- ARROW-9351 - [C++][CI] 夜间 test-ubuntu-18.04-cpp-cmake32 失败
- ARROW-9353 - [Python][CI] 夜间 dask 集成作业失败
- ARROW-9354 - [C++] Turbodbc 最新版本在集成测试中构建失败
- ARROW-9355 - [R] 修复 -Wimplicit-int-float-conversion
- ARROW-9360 - [CI][Crossbow] 夜间 homebrew-cpp 作业超时
- ARROW-9363 - [C++][Dataset] ParquetDatasetFactory schema:pandas 元数据丢失
- ARROW-9368 - [Python] 将 split_by_row_group() 中的 predicate 参数重命名为 filter
- ARROW-9373 - [C++] 修复无效输入导致的 Parquet 崩溃 (OSS-Fuzz)
- ARROW-9380 - [C++] compute::CallFunction 中的段错误
- ARROW-9384 - [C++] 无效 IPC 输入导致内存不足 (OSS-Fuzz)
- ARROW-9385 - [Python] [CI] jpype 集成失败
- ARROW-9389 - [C++] 无法通过 CallFunction 调用 isin/match
- ARROW-9397 - [R] 在 Linux 构建中构建 libarrow 时将 CC/CXX 传递给 cmake
- ARROW-9408 - [集成] 由于 numpy 64 位错误,测试无法在 Windows 中运行
- ARROW-9409 - [CI][Crossbow] 夜间 conda-r 失败
- ARROW-9410 - [CI][Crossbow] 再次修复 homebrew-cpp
- ARROW-9413 - [Rust] 修复 master 分支上的 clippy lint
- ARROW-9415 - [C++] Arrow 无法在 Power9 上编译
- ARROW-9416 - [Go] 为某些数据类型添加测试用例
- ARROW-9417 - [C++][IPC] 消息中的大小以本地字节序写入
- ARROW-9418 - [R] nyc-taxi Parquet 文件未在 Windows 上以二进制模式下载
- ARROW-9419 - [C++] 测试“fill_null”函数是否适用于切片输入,扩展测试
- ARROW-9428 - [C++] 更新缓冲区分配函数的文档
- ARROW-9436 - [C++][CI] fill_null 内核测试中的 Valgrind 错误
- ARROW-9438 - [CI] Spark 集成测试失败
- ARROW-9439 - [C++] 修复无效 IPC 输入导致的崩溃 (OSS-Fuzz)
- ARROW-9440 - [Python] 在 PyArrow 中公开 Fill Null Compute Kernel
- ARROW-9443 - [C++] 捆绑的 bz2 构建应该只构建 libbz2
- ARROW-9448 - [Java] ArrowBuf 和 BaseAllocator 之间的循环初始化导致空缓冲区的 HistoricalLog 为 null
- ARROW-9449 - [R] 去除 arrow.so 符号
- ARROW-9450 - [Python] “pytest pyarrow” 收集测试并开始执行需要超过 10 秒
- ARROW-9456 - [Python] 未导入 pyarrow.parquet 时 Dataset 出现段错误
- ARROW-9458 - [Python] 数据集扫描器仅支持单线程
- ARROW-9460 - [C++] BinaryContainsExact 无法处理模式中的双字符
- ARROW-9461 - [Rust] 读取 Date32 和 Date64 错误 - 它们被错误地转换为 RecordBatch
- ARROW-9476 - [C++][Dataset] 具有字典类型的 HivePartitioning 发现对于多个字段失败
- ARROW-9486 - [C++][Dataset] 支持将 InExpression::set_ 隐式转换为 dict
- ARROW-9497 - [C++][Parquet] 修复由格式错误的 repetition/definition 级别引起的故障
- ARROW-9499 - [C++] AdaptiveIntBuilder::AppendNull 不增加 null 计数
- ARROW-9500 - [C++] 修复 gcc 7.5.0 上 -O3 构建中 std::to_string 导致的段错误
- ARROW-9501 - [C++][Gandiva] 在结束日期是月份的最后一天时,在 timestampdiff() 中添加逻辑
- ARROW-9503 - [Rust] 比较切片数组是错误的
- ARROW-9504 - [Python] ChunkedArray.take 上出现段错误
- ARROW-9506 - [打包][Python] 修复 macOS wheel 构建失败
- ARROW-9512 - [C++] lambda 内部可变参数模板解包无法使用 gcc 编译
- ARROW-9524 - [CI][Gandiva] C++ 单元测试 arrow-ipc-read-write 在 gandiva 夜间构建中失败
- ARROW-9527 - [Rust] 删除不需要的 dev-dependencies
- PARQUET-1839 - [C++] values_read 未在 ReadBatchSpaced 中更新
- PARQUET-1857 - [C++][Parquet] ParquetFileReader 无法读取超过 32767 个行组的文件
- PARQUET-1865 - [C++] parquet/encoding_benchmark.cc 中使用的 C++17 功能导致故障
- PARQUET-1877 - [C++] 协调容器大小和字符串大小以解决内存问题
- PARQUET-1882 - [C++] 写入全 null 列然后使用 buffered_stream 读取它会导致进程中止
新功能和改进
- ARROW-300 - [格式] 使用 LZ4 或 ZSTD 向 IPC 消息协议添加 body 缓冲区压缩选项
- ARROW-842 - [Python] 处理来自 pandas 0.x 的更多类型的 null 哨兵对象
- ARROW-971 - [C++/Python] 将 Array.isvalid/notnull/isnull 实现为标量函数
- ARROW-974 - [网站] 向网站添加用例部分
- ARROW-1277 - 完成主要已实现数据类型的集成测试
- ARROW-1567 - [C++] 实现用一些标量替换值替换 null 值的“fill null”内核
- ARROW-1570 - [C++] 定义 API,用于从具有特定签名的标量输入和输出函数创建内核实例
- ARROW-1682 - [Python] 为读取 S3 上的 Parquet 文件目录添加文档/示例
- ARROW-1796 - [Python] 文件级别的 RowGroup 过滤
- ARROW-2260 - [C++][Plasma] plasma_store 应该显示使用情况
- ARROW-2444 - [Python][C++] 更好地处理读取空 parquet 文件
- ARROW-2702 - [Python] 检查 numpy_to_arrow.cc 中 Invalid 和 TypeError 错误的用法,以查看我们是否在每个实例中都使用了正确的错误类型
- ARROW-2714 - [C++/Python] 数组的可变步长切片
- ARROW-2912 - [网站] 构建更详细的社区登录页面,类似于 Apache Spark
- ARROW-3089 - [Rust] 为不同的 Arrow 数组添加 ArrayBuilder
- ARROW-3134 - [C++] 为具有可能不同块布局的分块数组集合实现 n 元迭代器
- ARROW-3154 - [Python][C++] 记录如何使用 Parquet 数据集写入 _metadata, _common_metadata 文件
- ARROW-3244 - [Python] 无需扫描的多文件 parquet 加载
- ARROW-3275 - [Python] 添加关于检查 Parquet 文件元数据的文档
- ARROW-3308 - [R] 将数据超过 2GB 的 R 字符向量转换为 Large 类型
- ARROW-3317 - [R] 测试/支持从单个字符列超过 BinaryArray 2GB 容量的 data.frame 进行转换
- ARROW-3446 - [R] 记录 Arrow <-> R 类型映射
- ARROW-3509 - [C++] 子访问器命名不一致
- ARROW-3520 - [C++] 实现 List Flatten 内核
- ARROW-3688 - [Rust] 实现 PrimitiveArrayBuilder<T>.push_values
- ARROW-3827 - [Rust] 实现 UnionArray
- ARROW-4022 - [C++] 将 Datum 变体提升到 compute 命名空间之外
- ARROW-4221 - [格式] 在 COO 稀疏索引中添加规范标志
- ARROW-4390 - [R] 在 Feather 文件、IPC 消息中序列化“标记”元数据
- ARROW-4412 - [文档] 向 arrow 规范文档添加显式版本号
- ARROW-4427 - [文档] 将 Confluence Wiki 页面移动到 Sphinx 文档
- ARROW-4429 - [文档] 在开发者文档的“贡献”页面中添加 git rebase 提示
- ARROW-5035 - [C#] ArrowBuffer.Builder<bool> 已损坏
- ARROW-5082 - [Python][打包] 减小 macOS 和 manylinux1 wheel 的大小
- ARROW-5143 - [Flight] 启用包含字典的批次的集成测试
- ARROW-5279 - [C++] 支持在 IPC 流中读取增量字典
- ARROW-5377 - [C++] 将 IpcPayload 公开并添加 GetPayloadSize
- ARROW-5489 - [C++] 规范化内核和 ChunkedArray 行为
- ARROW-5548 - [文档] https://arrow.apache.org/docs/latest/ 不是最新版本
- ARROW-5649 - [集成][C++] 为扩展类型创建往返集成测试
- ARROW-5708 - [C#] 对 BooleanArray 的空值支持
- ARROW-5760 - [C++] 优化 Take 实现
- ARROW-5854 - [Python] 在 Array 类上公开比较内核
- ARROW-6052 - [C++] 将 arrow/array.h,cc 划分为 arrow/array/ 中的文件,类似于 builder 文件
- ARROW-6110 - [Java] 支持 LargeList 类型并添加与 C++ 的集成测试
- ARROW-6111 - [Java] 支持 LargeVarChar 和 LargeBinary 类型并添加与 C++ 的集成测试
- ARROW-6439 - [R] 在 R 中实现 S3 文件系统接口
- ARROW-6456 - [C++] 是否可以减少 compute/kernels/take.cc 中生成的目标代码?
- ARROW-6501 - [C++] 从 SparseIndex 中删除 non_zero_length 字段
- ARROW-6521 - [C++] 向 arrow:: 命名空间添加返回当前 ABI 版本的函数
- ARROW-6543 - [R] 支持 LargeBinary 和 LargeString 类型
- ARROW-6602 - [文档] 添加功能/实现矩阵
- ARROW-6603 - [C#] ArrayBuilder API 支持写入空值
- ARROW-6645 - [Python] 在转换为 Categorical 时更快地边界检查字典索引
- ARROW-6689 - [Rust] [DataFusion] 1.0.0 版本的查询执行增强
- ARROW-6691 - [Rust] [DataFusion] 使用 tokio 和 Futures 而不是生成线程
- ARROW-6775 - [C++] [Python] 关于几个 Array 实用函数的建议
- ARROW-6776 - [Python] 需要一个精简版的 pyarrow
- ARROW-6800 - [C++] 添加 CMake 选项以构建针对 C++14 或 C++17 工具链环境的库
- ARROW-6839 - [Java] 添加读写 IPC 文件页脚的“custom_metadata”字段的 API
- ARROW-6856 - [C++] 将 ArrayData 用于 ArrayData::dictionary,而不是 Array
- ARROW-6917 - ARROW-6917: [Archery][发布] 为维护版本添加对 JIRA 策展、变更日志生成和提交 cherry-pick 的支持
- ARROW-6945 - [Rust] 启用集成测试
- ARROW-6959 - [C++] 阐明计算内核的首选签名
- ARROW-6978 - [R] 添加 sum 和 mean 计算内核的绑定
- ARROW-6979 - [R] 在 autobrew 公式中启用 jemalloc
- ARROW-6982 - [R] 添加比较和布尔内核的绑定
- ARROW-7009 - [C++] 重构 filter/take 内核以使用 Datum 而不是重载
- ARROW-7010 - [C++] 支持从 decimal128 到 float32 和 float64/double 的有损转换
- ARROW-7011 - [C++] 实现从 float/double 到 decimal128 的转换
- ARROW-7012 - [C++] 阐明 ChunkedArray 分块策略和 policy
- ARROW-7068 - [C++] 将 ListArray 的偏移量公开为 Int32Array
- ARROW-7075 - [C++] 布尔内核不应在 Call() 中分配内存
- ARROW-7175 - [网站] 添加一个安全页面来跟踪漏洞何时被修补
- ARROW-7229 - [C++] 统一 ConcatenateTables API
- ARROW-7230 - [C++] 在 Gandiva 中使用自带的 std::optional 而不是 boost::optional
- ARROW-7237 - [C++] 将 Result<T> 添加到 arrow/json 的 API 中
- ARROW-7243 - [文档] 将通用的“实现状态”表添加到每种原生语言实现的 README 以及顶级 README 中
- ARROW-7285 - [C++] 确保 C++ 实现满足已 clarified 的字典规范
- ARROW-7300 - [C++][Gandiva] 实现将字符串转换为整数/浮点数的函数
- ARROW-7313 - [C++] 添加用于从数组槽中检索标量的函数
- ARROW-7371 - [GLib] 添加 Datasets 绑定
- ARROW-7375 - [Python] 公开 C++ MakeArrayOfNull
- ARROW-7391 - [Python] 从绑定层删除不必要的类
- ARROW-7495 - [Java] 从 ArrowBuf 中删除“空”概念,替换为自定义引用管理器
- ARROW-7605 - [C++] 创建并安装包含 Arrow 构建的所有依赖项的静态库
- ARROW-7607 - [C++] 在 cpp/examples 中添加使用 Arrow 作为另一个 CMake 项目依赖项的最小示例
- ARROW-7673 - [C++][Dataset] 重新访问文件发现失败模式
- ARROW-7676 - [打包][Python] 确保 wheel 脚本中未构建静态库
- ARROW-7699 - [Java] 支持批量连接密集联合向量
- ARROW-7705 - [Rust] 初始排序实现
- ARROW-7717 - [CI] 对 Spark 的最新版本进行夜间集成测试
- ARROW-7759 - [C++][Dataset] 为 CSV 支持添加 CsvFileFormat
- ARROW-7778 - [C++] 支持 JSON 集成格式中的嵌套字典
- ARROW-7784 - [C++] diff.cc 编译速度极慢
- ARROW-7801 - [开发者] 添加 issue_comment 工作流以修复 lint/style/codegen
- ARROW-7803 - [R][CI] Autobrew/homebrew 测试不应总是从 master 安装
- ARROW-7831 - [Java] 在可变宽度向量上调用 splitAndTransferTo 时不必要的缓冲区分配
- ARROW-7831 - [Java] 在可变宽度向量上调用 splitAndTransferTo 时不必要的缓冲区分配
- ARROW-7902 - [集成] 取消跳过嵌套字典集成测试
- ARROW-7910 - [C++] 提供可移植查询页面大小的函数
- ARROW-7924 - [Rust] 为浮点类型添加排序
- ARROW-7950 - [Python] 初始化 pandas API shim 时,如果用户安装的 pandas 版本过旧,则通知用户
- ARROW-7955 - [Java] 为文件/流 IPC 支持大缓冲区
- ARROW-8020 - [Java] 实现向量验证功能
- ARROW-8023 - [网站] 撰写一篇关于 C 数据接口的博文
- ARROW-8025 - [C++] 实现转换为 Binary 和 FixedSizeBinary
- ARROW-8025 - [C++] 实现转换为 Binary 和 FixedSizeBinary
- ARROW-8046 - [开发者][集成] Makefile.docker 的目标名称已损坏
- ARROW-8062 - [C++][Dataset] 从 _metadata/_common_metadata 文件创建 Parquet Dataset 工厂
- ARROW-8065 - [C++][Dataset] 解开 Dataset、Fragment 和 ScanOptions
- ARROW-8074 - [C++][Dataset] FileSystemDataset 中是否支持类文件对象(缓冲区)?
- ARROW-8108 - [Java] 为字典编码器提取公共接口
- ARROW-8111 - [C++][CSV] 支持 MM/DD/YYYY 日期格式
- ARROW-8114 - [Java][集成] 启用 custom_metadata 集成测试
- ARROW-8121 - [Java] 增强 Java 代码的代码风格检查(在逗号、分号和类型转换后添加空格)
- ARROW-8149 - [C++/Python] 在 conda 配方中启用 CUDA 支持
- ARROW-8157 - [C++][Gandiva] 支持使用 LLVM 9 构建
- ARROW-8162 - [格式][Python] 为 CSF 稀疏张量添加序列化
- ARROW-8169 - [Java] 通过主动分配内存来提高 JDBC 适配器的性能
- ARROW-8171 考虑为 Avro 适配器迭代器中的固定宽度向量预先分配内存
- ARROW-8190 - [C++][Flight] 允许在 Flight IPC 消息读取器和写入器类中设置 IpcWriteOptions 和 IpcReadOptions
- ARROW-8229 - [Java] 将 ArrowBuf 移至 Arrow 包中
- ARROW-8230 - [Java] 将 Netty 内存管理器移至单独的模块中
- ARROW-8261 - [Rust] [DataFusion] LogicalPlanBuilder.limit() 应采用文字参数
- ARROW-8263 - [Rust] [DataFusion] 为支持的 SQL 函数添加文档
- ARROW-8281 - [R] Windows conda 上 arrow.dll 的名称冲突
- ARROW-8283 - [Python][Dataset] pa.dataset.FileSystemDataset 中静默删除不存在的文件
- ARROW-8287 - [Rust] Arrow 示例应使用实用程序来打印结果
- ARROW-8293 - [Python] 对 python/examples 也运行 flake8
- ARROW-8297 - [FlightRPC][C++] 为 C++ 实现 Flight DoExchange
- ARROW-8301 - [R] 在 C 数据接口中处理 ChunkedArray 和 Table
- ARROW-8312 - [Java][Gandiva] 改进 IN 表达式支持
- ARROW-8314 - [Python] 提供一种选择 Table 的列子集的方法
- ARROW-8318 - [C++][Dataset] Dataset 应该实例化 Fragment
- ARROW-8399 - [Rust] 扩展内存对齐以包含其他架构
- ARROW-8413 - [C++] 重构 DefLevelsToBitmap
- ARROW-8422 - [Rust] [Parquet] 实现将 Arrow 模式转换为 Parquet 模式的函数
- ARROW-8430 - [CI] 为 Github Actions 配置自托管运行器
- ARROW-8434 - [C++] Ipc RecordBatchFileReader 多次反序列化 Schema
- ARROW-8440 - [C++] 优化 simd 头文件
- ARROW-8443 - [Gandiva][C++] 修复特殊情况下 round/truncate 无操作的问题
- ARROW-8447 - [C++][Dataset] 确保 Scanner::ToTable 保留 ScanTasks 的顺序
- ARROW-8467 - [C++] 使用 ArrayFromJSON 的测试用例假设仅是小端平台
- ARROW-8474 - [CI][Crossbow] 跳过一些不需要运行的夜间构建
- ARROW-8477 - [C++] 为 Windows 启用长文件名读写
- ARROW-8481 - [Java] 提供基于 Unsafe API 的分配管理器
- ARROW-8483 - [Ruby] Arrow::Table 文档改进
- ARROW-8485 - [Integration][Java] 实现扩展类型集成
- ARROW-8486 - [C++] arrow-utility-test 在大端平台上导致失败
- ARROW-8487 - [FlightRPC][C++] 可以指定目标有效负载大小
- ARROW-8488 - [R] 将 VALUE_OR_STOP 替换为 ValueOrStop
- ARROW-8496 - [C++] 优化 ByteStreamSplitDecodeScalar
- ARROW-8497 - [Archery] 向构建中添加缺少的组件
- ARROW-8499 - [C++][Dataset] 在 ScannerBuilder 中,如果投影器不为空,则 batch_size 将不起作用
- ARROW-8500 - [C++] 在记录批次和表格的 Filter 实现中使用选择向量
- ARROW-8501 - [Packaging][RPM] 在 CentOS 6 上将 devtoolset 升级到 8
- ARROW-8502 - [Release][APT][Yum] 忽略所有 arm64 验证
- ARROW-8504 - [C++] 添加运行长度读取器
- ARROW-8506 - [c++] 缺少测试以验证 RLE 中 bit_width > 8 的 expected_buffer
- ARROW-8507 - [Release] 在 changelog.py 中自动检测 .git 目录
- ARROW-8509 - [GLib] 添加低级记录批处理读/写函数
- ARROW-8512 - [C++] 删除未使用的 compute expr 原型代码
- ARROW-8513 - [Python] 在 Python 中公开带有 Table 输入的 Take
- ARROW-8515 - [C++] Bitmap ToString 应该有一个按字节分组的选项
- ARROW-8516 - [Rust] 在 PrimitiveBuilder::append_slice 中插入 BufferBuilder<BooleanType> 速度慢
- ARROW-8517 - [Developer][Release] 更新 Crossbow RC 验证设置以适应自 0.16.0 以来的更改
- ARROW-8520 - [Developer] 使用 .asf.yaml 将 GitHub 通知定向到电子邮件列表和 JIRA
- ARROW-8521 - [Developer] 在 Changelog 中将子任务、任务、测试和愿望问题类型分组为“改进”
- ARROW-8522 - [Developer] 添加环境变量选项以切换是否在发布验证脚本中安装临时 NodeJS
- ARROW-8524 - [CI] 释放 github actions 上的空间
- ARROW-8526 - [Python] 修复数据集测试中非确定性行顺序失败的问题
- ARROW-8531 - [C++] 弃用 ARROW_USE_SIMD CMake 选项
- ARROW-8538 - [Packaging] 从 homebrew 公式中移除 boost
- ARROW-8540 - [C++] 创建内存分配基准测试
- ARROW-8541 - [Release] 不要自动删除以前的源代码版本
- ARROW-8542 - [Release] 修复网站发布后脚本中的校验和 url
- ARROW-8543 - [C++] IO: 单遍合并算法
- ARROW-8544 - [CI][Crossbow] 将 status.json 添加到夜间构建的 gh-pages 摘要中以绕过速率限制
- ARROW-8548 - [Website] 0.17 版本发布公告
- ARROW-8549 - [R] 0.17 版本发布后的各种清理工作
- ARROW-8550 - [CI] 不要在 fork 上运行 cron GHA 作业
- ARROW-8551 - [CI][Gandiva] 使用 LLVM 8 构建 gandiva linux jar
- ARROW-8552 - [Rust] 支持 parquet 行的列迭代
- ARROW-8553 - [C++] 优化未对齐的位图操作
- ARROW-8555 - [FlightRPC][Java] 为 Java 实现 Flight DoExchange
- ARROW-8558 - [Rust] GitHub Actions 缺少 rustfmt
- ARROW-8559 - [Rust] 在主要的 arrow crate 中合并记录批处理读取器特征
- ARROW-8560 - [Rust] MutableBuffer resize 的文档不正确
- ARROW-8561 - [C++][Gandiva] 停止使用已弃用的 google::protobuf::MessageLite::ByteSize()
- ARROW-8562 - [C++] IO: 使用 S3 存储指标参数化 I/O 合并
- ARROW-8563 - [Go] 将 newBuilder 公开的小改动
- ARROW-8564 - [Website] 将 Ubuntu 20.04 LTS 添加到支持的软件包列表中
- ARROW-8569 - [CI] 升级 xcode 版本以测试 homebrew 公式
- ARROW-8571 - [C++] 将 AppVeyor 镜像切换到 VS 2017
- ARROW-8572 - [Python] 公开 UnionArray.array 和其他字段
- ARROW-8573 - [Rust] 升级到 Rust 1.44 nightly
- ARROW-8574 - [Rust] 为所有普通类型实现 Debug
- ARROW-8575 - [Developer] 添加 issue_comment 工作流以 rebase PR
- ARROW-8590 - [Rust] 在 DataFusion 中使用 Arrow pretty print 实用程序
- ARROW-8591 - [Rust] 在 DictionaryArray 中反向查找键
- ARROW-8597 - [Rust] arrow crate lint 和可读性改进
- ARROW-8606 - [CI] 不要在 ci/ 中的任何文件更改时触发所有构建
- ARROW-8607 - [R][CI] 在 R 4.0 发布后取消中断构建
- ARROW-8611 - [R] 无法在 Ubuntu 18.04 R 3.6.3 上安装 arrow 0.17
- ARROW-8612 - [GLib] 添加 GArrowReadOptions 和 GArrowWriteOptions
- ARROW-8616 - [Rust] 默认关闭显式 SIMD
- ARROW-8619 - [C++] 为 interval 类型使用不同的 Type::type 值
- ARROW-8622 - [Rust] Parquet crate 在 aarch64 上无法编译
- ARROW-8623 - [C++][Gandiva] 减少 Boost 的使用,从头文件中移除 Boost 头文件
- ARROW-8624 - [Website] 安装页面应提及 arrow-dataset 软件包
- ARROW-8628 - [CI][Dev] 使用 archery 包装 docker-compose 命令
- ARROW-8629 - [Rust] 消除 ZST 分配的间接寻址
- ARROW-8633 - [C++] 添加 ValidateAscii 函数
- ARROW-8634 - [Java] 创建一个示例
- ARROW-8639 - [C++][Plasma] 需要 gflags
- ARROW-8645 - [C++] plasma 缺少 gflags 依赖项
- ARROW-8647 - [C++][Dataset] 可选择将分区字段值编码为字典类型
- ARROW-8648 - [Rust] 优化 Rust CI 构建时间
- ARROW-8650 - [Rust] [Website] 将文档添加到 Arrow 网站
- ARROW-8651 - [Python][Dataset] 支持 Dataset 对象的序列化
- ARROW-8655 - [C++][Dataset][Python][R] 为发现的 Dataset 保留分区信息
- ARROW-8656 - [Python] 在 Windows wheel 构建中切换到 VS2017
- ARROW-8659 - [Rust] ListBuilder 和 FixedSizeListBuilder 容量
- ARROW-8660 - [C++][Gandiva] 减少对 Boost 的依赖
- ARROW-8662 - [CI] 合并 appveyor 脚本
- ARROW-8664 - [Java] 向所有 Vector 类型添加跳过空值检查
- ARROW-8668 - [Packaging][APT][Yum][ARM] 使用 Travis CI 的 ARM 机器构建软件包
- ARROW-8669 - [C++] 将 IpcWriteOptions 参数添加到 GetRecordBatchSize()
- ARROW-8671 - [C++] 使用 ARROW-300 中批准的 IPC 正文压缩元数据
- ARROW-8671 - [C++] 使用 ARROW-300 中批准的 IPC 正文压缩元数据
- ARROW-8682 - [Ruby][Parquet] 添加对列级压缩的支持
- ARROW-8687 - [Java] 完成 io.netty.buffer.ArrowBuf 的移动
- ARROW-8690 - [Python] 清理 dataset+parquet 测试,现在顺序是确定的
- ARROW-8692 - [C++] 从 S3 下载时避免内存复制
- ARROW-8695 - [Java] 删除内存模块中对 PlatformDependent 的引用
- ARROW-8696 - [Java] 将测试转换为集成测试
- ARROW-8699 - [R] 修复自动 r_to_py 转换
- ARROW-8702 - [打包][C#] 在发布过程中构建 NuGet 包
- ARROW-8703 - [R] schema$metadata 应该进行正确的类型限定
- ARROW-8707 - [持续集成] 由于 dockerhub 凭据错误,Docker 推送失败
- ARROW-8708 - [持续集成] 利用 github actions 缓存 docker-compose 卷
- ARROW-8711 - [Python] 在 read_csv 转换选项中公开 strptime 时间戳解析
- ARROW-8717 - [持续集成][打包] 将 boost 添加到 homebrew 的构建依赖项中
- ARROW-8720 - [C++] 修复 checked_pointer_cast
- ARROW-8721 - [持续集成] 修复 R 构建矩阵
- ARROW-8723 - [Rust] 删除 SIMD 特定的基准测试代码
- ARROW-8724 - [打包][deb][RPM] 使用主机中的目录作为构建目录
- ARROW-8725 - [Rust] rust parquet 数据源代码中冗余的目录遍历
- ARROW-8727 - [C++] 不需要 StringConverter<T> 的结构初始化来将字符串解析为其他类型
- ARROW-8730 - [Rust] 对函数参数使用 slice 而不是 &Vec
- ARROW-8733 - [C++][数据集][Python] ParquetFileFragment 应该提供对 parquet FileMetadata 的访问
- ARROW-8736 - [Rust] [DataFusion] 表 API 应该提供 schema() 方法
- ARROW-8740 - [持续集成] 修复 pandas master cron 测试中的 archery 选项
- ARROW-8742 - [C++][Python] 为 Flight 客户端添加对相互 TLS 的支持
- ARROW-8743 - [C++][持续集成] 在 s390x 上添加测试作业
- ARROW-8744 - [Rust] 即使在到达迭代结束之后,ParquetIterator 的 next 方法也应该是安全调用的
- ARROW-8745 - [C++] Bitmap.ToString 在大端平台上导致失败
- ARROW-8747 - [C++] 启用压缩的 Feather 测试在大端平台上导致失败
- ARROW-8751 - [Rust] ParquetFileArrowReader 应该能够读取空 parquet 文件而不会出错
- ARROW-8752 - [Rust] 删除未使用的 hashmap
- ARROW-8753 - [C++][持续集成] 在 ARM 上添加测试作业
- ARROW-8754 - [C++][持续集成] 在大端平台上为其他组件启用测试
- ARROW-8756 - [C++] Bitmap 字测试在大端平台上导致失败
- ARROW-8757 - [C++] Plasma 头文件以本机端序写入
- ARROW-8758 - [R] 更新以兼容 dplyr 1.0
- ARROW-8759 - [C++] TestPlasmaSerialization.DeleteReply 测试在大端平台上失败
- ARROW-8762 - [C++][Gandiva] 将 Gandiva 的 BitmapAnd 替换为通用实现
- ARROW-8763 - [C++] 创建类似 RandomAccessFile::WillNeed 的 API
- ARROW-8764 - [C++] 使 ReadRangeCache 中的 ThreadPool 可配置
- ARROW-8766 - [Python] 基于 Python 回调的 FileSystem 实现
- ARROW-8769 - [C++] 添加便捷方法以按名称访问 StructScalar 中的字段
- ARROW-8770 - [C++][持续集成] 在 s390x 上启用 arrow-csv-test
- ARROW-8772 - [C++] 将 SumKernel 基准测试扩展到更多类型
- ARROW-8777 - [Rust] Parquet.rs 不支持读取固定大小的二进制字段。
- ARROW-8778 - [C++][Gandiva] SelectionVector 相关测试在大端平台上失败
- ARROW-8779 - [R] 实现到 List<Struct> 的转换
- ARROW-8781 - [持续集成][C++] 在 GHA MinGW 作业上启用 ccache
- ARROW-8782 - [Rust] [DataFusion] 添加基于 NYC Taxi 数据集的基准测试
- ARROW-8783 - [Rust] [DataFusion] 逻辑计划应包含 ParquetScan 和 CsvScan 条目
- ARROW-8784 - [Rust] [DataFusion] 从 LogicalPlan 中删除 Arc 的使用
- ARROW-8785 - [Python][打包] 使用启用的 MIMALLOC 构建 Windows wheels
- ARROW-8786 - [打包][rpm] 在 CentOS 8 构建中使用捆绑的 zstd
- ARROW-8788 - [C#] 数组构建器使用位打包缓冲区构建器而不是布尔数组构建器来实现有效性映射
- ARROW-8789 - [Rust] 为集成测试二进制文件添加单独的 crate
- ARROW-8790 - [C++][持续集成] 在 s390x 上启用 arrow-flight-test
- ARROW-8791 - [Rust] 使用现有字典值创建 StringDictionaryBuilder
- ARROW-8792 - [C++] 改进声明式计算函数/内核开发框架,规范调用约定
- ARROW-8793 - [C++] BitUtil::SetBitsTo 可能不需要内联
- ARROW-8794 - [C++] 扩展从 parquet 读取 arrow 的基准测试覆盖范围
- ARROW-8795 - [C++] 有限的 iOS 支持
- ARROW-8800 - [C++] 将 arrow::ChunkedArray 拆分到 arrow/chunked_array.h 中
- ARROW-8804 - [R][持续集成] Rtools40 升级的后续工作
- ARROW-8814 - [开发][发布] 二进制上传脚本不断引发区域设置警告
- ARROW-8815 - [开发][发布] 二进制上传脚本应在意外的 bintray 请求错误时重试
- ARROW-8818 - [Rust] 由于 Flatbuffers/Union 问题导致在 master 上构建失败
- ARROW-8822 - [Rust] [DataFusion] 将 MemoryScan 变体添加到 LogicalPlan
- ARROW-8827 - [集成测试] Rust 集成测试的初始框架
- ARROW-8830 - [GLib] 针对不可寻址 GIO 输出流添加 Tell 的支持
- ARROW-8831 - [Rust] simd_compare_op 中不完整的 SIMD 实现
- ARROW-8833 - [Rust] 在集成测试二进制文件中实现 VALIDATE 模式
- ARROW-8834 - [Rust] 为集成测试实现 arrow-file-to-stream
- ARROW-8835 - [Rust] 为集成测试实现 arrow-stream-to-file
- ARROW-8836 - [网站] 自动更新版权结束年份
- ARROW-8837 - [Rust] 添加 Null 类型
- ARROW-8838 - [Rust] 文件读取器无法从有效文件中读取标头
- ARROW-8839 - [Rust] datafusion 逻辑计划应该支持在没有提供 schema 的情况下扫描 csv
- ARROW-8840 - [Rust] datafusion ExecutionError 应该实现 std::error:Error trait
- ARROW-8841 - [C++] 为 PLAIN spaced 添加基准测试和单元测试
- ARROW-8843 - [C++] 优化 BitmapEquals 未对齐的情况
- ARROW-8844 - [C++] 优化 TransferBitmap 未对齐的情况
- ARROW-8846 - [开发][Python] 使用 Archery 自动格式化 Python 源代码
- ARROW-8847 - [C++] 在 Executor API 中传递任务大小/指标
- ARROW-8851 - [Python][文档] 修复 Python Plasma 文档中的 FutureWarnings
- ARROW-8852 - [R] 0.17.1 之后的调整
- ARROW-8854 - [Rust] [集成测试] 显示 arrow-json-integration-test 的输出
- ARROW-8855 - [Rust] [集成测试] 不支持数据类型 Date32(Day)
- ARROW-8856 - [Rust] [集成测试] 如果 MessageHeader 为 NONE,则返回空批次
- ARROW-8864 - [R] 为 Table/RecordBatch 添加方法,以与 data.frame 保持一致
- ARROW-8866 - [C++] 将 Type::UNION 拆分为 Type::SPARSE_UNION 和 Type::DENSE_UNION
- ARROW-8867 - [R] 支持转换 POSIXlt 类型
- ARROW-8875 - [C++] 使用 AWS SDK SetResponseStreamFactory 避免字节复制
- ARROW-8877 - [Rust] 添加 CSV 读取选项结构以简化 datafusion 接口
- ARROW-8880 - [R][Linux] 使 R 二进制安装更友好
- ARROW-8881 - [Rust] 添加大型列表和二进制支持
- ARROW-8885 - [R] 不要到处都包含所有内容
- ARROW-8886 - [C#] 决定并实现 Array 构建器调整大小到负大小时的适当行为
- ARROW-8887 - [Java] 在 clear/write 循环的情况下,复杂向量的缓冲区大小会快速增加
- ARROW-8890 - [R] 修复 C++ lint 问题
- ARROW-8895 - [C++] 为时间类型输入(包括时间戳)上的 filter 和 take 函数添加 C++ 单元测试
- ARROW-8896 - [C++] 使用 Take 重新实现 Cast 内核中的字典解包
- ARROW-8899 - [R] 添加 R 元数据,如 pandas 元数据,以实现往返保真度
- ARROW-8901 - [C++] 减少 take 内核的数量
- ARROW-8903 - [C++] 为内核执行实现优化的“不安全 take”以用于选择向量
- ARROW-8904 - [Python] 修复与子级/字段相关的已弃用 C++ API 的用法
- ARROW-8906 - [Rust] 支持读取多个 CSV 文件以进行 schema 推断
- ARROW-8907 - [Rust] 实现标量比较操作
- ARROW-8912 - [Ruby] 为 GC 保留 Arrow::Buffer 数据的引用
- ARROW-8913 - [Ruby] 使用 “field” 代替 “child”
- ARROW-8914 - [C++][Gandiva] Decimal128 相关测试在大端平台上失败
- ARROW-8915 - [开发][Archery] 要求 Click 7
- ARROW-8917 - [C++][Compute] 规范化 “元函数” 概念
- ARROW-8918 - [C++] 向 FunctionRegistry 添加强制转换 “元函数”,以解决分派到适当的类型特定 CastFunction 的问题
- ARROW-8922 - [C++] 实现示例字符串标量内核函数,以根据 ARROW-555 协助字符串内核构建
- ARROW-8923 - [C++] 通过将 ExecContext* 参数移动到末尾并添加默认值来提高 arrow::compute::CallFunction 的可用性
- ARROW-8926 - [C++] 改进 arrow/compute 中新的公共 API 的文档字符串并修复各种拼写错误
- ARROW-8927 - [C++] 在使用 cuda IPC 读/写记录批次时支持字典备忘录
- ARROW-8929 - [C++] 将 compute::Arity:VarArgs min_args 默认值更改为 0
- ARROW-8931 - [Rust] 在 arrow 计算内核中支持字典排序
- ARROW-8933 - [C++] 减少 vector_hash.cc 中生成的代码
- ARROW-8934 - [C++] 添加时间戳减法内核,别名为 int64 减法实现
- ARROW-8937 - [C++] 添加 “parse_strptime” 函数,用于使用内核框架进行字符串到时间戳的转换
- ARROW-8938 - [R] 为 arrow::compute::CallFunction 提供绑定
- ARROW-8940 - [Java] 修复集成测试的性能下降问题
- ARROW-8941 - [C++/Python] arrow-nightlies conda 存储库已满
- ARROW-8942 - [R] 在读取 CSV/JSON 时检测压缩
- ARROW-8943 - [C++][Dataset] 为 ParquetDatasetFactory 添加对分区的支持
- ARROW-8950 - [C++] 使 head 在 s3fs 中可选
- ARROW-8958 - [FlightRPC][Python] 为 Python 实现 Flight DoExchange
- ARROW-8960 - [次要] [格式] 修复注释中的拼写错误
- ARROW-8961 - [C++] 将 utf8proc 库添加到工具链
- ARROW-8963 - [C++][Parquet] 优化 Parquet cpp 的内存分配
- ARROW-8965 - [Python][文档] 用于 pip 夜间版本的 Pyarrow 文档引用了 404 的位置
- ARROW-8966 - [C++] 将 arrow::ArrayData 移动到单独的头文件中
- ARROW-8969 - [C++] 减少 compute/kernels/scalar_compare.cc 中生成的代码
- ARROW-8970 - [C++] 减小共享库/二进制代码大小(总体问题)
- ARROW-8972 - [Java] 支持大型 varchar/varbinary 向量的范围值比较
- ARROW-8973 - [Java] 支持大型 varchar/varbinary 向量的批量值追加
- ARROW-8974 - [C++] 优化 TransferBitmap 模板参数
- ARROW-8976 - [C++] compute::CallFunction 无法使用 ChunkedArray 进行过滤/提取
- ARROW-8979 - [C++] 实现位图字读取器和写入器
- ARROW-8984 - [R] 修改安装指南,因为现在存在 Windows conda 软件包
- ARROW-8985 - [格式] 将默认值为 16 的 “字节宽度” 字段添加到 Decimal Flatbuffers 类型,以实现向前兼容性
- ARROW-8989 - [C++] 记录 compute::FunctionRegistry 中可用的函数
- ARROW-8993 - [Rust] 在文本读取器中支持读取不可查找的源
- ARROW-8994 - [C++] 禁用 include-what-you-use cpplint 代码规范检查
- ARROW-8996 - [C++] 用于聚合 Sum/Mean 内核的运行时 SIMD 路径
- ARROW-8997 - [Archery] 基准测试格式化程序应具有友好的单位
- ARROW-9004 - [C++][Gandiva] 支持使用 LLVM 10 构建
- ARROW-9005 - [Rust] [DataFusion] 支持排序表达式
- ARROW-9007 - [Rust] 通过合并数组数据支持追加数组
- ARROW-9014 - [打包] 在 crossbow 中自动生成的版本的次要部分
- ARROW-9015 - [Java] 将 BaseAllocator 包设为私有
- ARROW-9016 - [Java] 删除对 Netty/Unsafe 分配器的直接引用
- ARROW-9017 - [Python] 重构 Scalar 类
- ARROW-9018 - [C++] 删除在 0.17.x 及以前版本中已弃用的 API
- ARROW-9021 - [Python] parquet.read_table 中的 filesystem 关键字未记录
- ARROW-9022 - [C++] 添加/减/乘算术内核并进行溢出检查
- ARROW-9029 - [C++] 为有效性位图的逐块计数实现 BitBlockCounter 接口
- ARROW-9030 - [Python] 清理 pyarrow.compat 的一些用法,将一些常用函数/符号移动到 lib.pyx
- ARROW-9031 - [R] 实现从 Type::UINT64 到 R 向量的转换
- ARROW-9032 - [C++] 将 arrow/util/bit_util.h 拆分为多个头文件
- ARROW-9034 - [C++] 实现 BitBlockCounter 的二进制(两个位图)版本
- ARROW-9042 - [C++] 添加具有环绕行为的减法和乘法算术内核
- ARROW-9043 - [Go] 将 LICENSE.txt 临时复制到 go/
- ARROW-9043 - [Go] 将 LICENSE.txt 临时复制到 go/
- ARROW-9045 - [C++] 改进和扩展 Take/Filter 基准测试
- ARROW-9046 - [C++][R] 将更多内容放入 type_fwds
- ARROW-9047 - [Rust] 设置长度为 0 的位集的 0 位会导致段错误
- ARROW-9050 - [发布] 使用 1.0.0 作为下一个版本
- ARROW-9051 - [GLib] 从 Array 引用 Array 相关对象
- ARROW-9052 - [CI][MinGW] 启用 Gandiva
- ARROW-9055 - [C++] 为布尔类型添加 sum/mean 内核
- ARROW-9058 - [打包][wheel] Boost 下载失败
- ARROW-9060 - [GLib] 添加对使用未安装的 Apache Arrow Datasets 构建 Apache Arrow Datasets GLib 的支持
- ARROW-9061 - [打包][APT][Yum][GLib] 添加 Apache Arrow Datasets GLib
- ARROW-9062 - [Rust] 支持将 JSON 读取到字典类型
- ARROW-9067 - [C++] 创建可重用的无分支/向量化索引边界检查函数
- ARROW-9070 - [C++] StructScalar 需要字段访问器方法
- ARROW-9073 - [C++] RapidJSON 包含目录检测不适用于 RapidJSONConfig.cmake
- ARROW-9074 - [GLib] 添加缺少的 arrow-json 检查
- ARROW-9075 - [C++] 优化 Filter 实现
- ARROW-9079 - [C++] 为算术内核编写基准测试
- ARROW-9083 - [R] 如果未超出界限,则将 int64、uint32、uint64 收集为 R 整数类型
- ARROW-9086 - [CI][Homebrew] 启用 Gandiva
- ARROW-9088 - [Rust] 最新版本的 arrow crate 无法编译到 wasm 目标
- ARROW-9089 - [Python] 基于 fsspec 的文件系统的 PyFileSystem 处理程序
- ARROW-9090 - [C++] 提升捆绑库的版本
- ARROW-9091 - [C++] 在没有为需要它们的函数传递任何选项到 CallFunction 时,使用函数的默认选项
- ARROW-9093 - [FlightRPC][C++][Python] 允许设置 gRPC 客户端选项
- ARROW-9094 - [Python] 在 manylinux wheel 中提升已编译依赖项的版本
- ARROW-9095 - [Rust] 修复 NullArray 以符合规范
- ARROW-9099 - [C++][Gandiva] 为字符串添加 TRIM 函数
- ARROW-9100 - [C++] 添加 ascii_lower 内核
- ARROW-9101 - [文档][C++][Python] 记录 CSV 和 JSON 读取器预期的编码
- ARROW-9102 - [打包] 上传构建的 manylinux docker 镜像
- ARROW-9106 - [C++] 添加 C++ 基础以简化文件转码
- ARROW-9108 - [C++][Dataset] 为时间戳列添加 Parquet 统计信息转换
- ARROW-9109 - [Python][打包] 在 manylinux wheel 中启用 S3 支持
- ARROW-9110 - [C++] 修复 macOS 上的 CPU 缓存大小检测
- ARROW-9112 - [R] 更新 autobrew 脚本位置
- ARROW-9115 - [C++] 在 ascii_lower / ascii_upper 内核中批量处理数据缓冲区,而不是使用 string_view 值迭代
- ARROW-9116 - [C++] 添加 BinaryArray::total_values_length()
- ARROW-9116 - [C++] 添加 BinaryArray::total_values_length()
- ARROW-9118 - [C++] 添加更通用的 BoundsCheck 函数,该函数还检查整数数组中的任意下限
- ARROW-9119 - [C++] 添加对使用系统静态 gRPC 构建的支持
- ARROW-9123 - [Python][wheel] 显式使用 libzstd.a
- ARROW-9124 - [Rust][Datafusion] DFParser 应使用 &str 而不是 String 来使用 sql 查询
- ARROW-9125 - [C++] 为 Valgrind 添加缺少的 arrow::internal::ZeroMemory() 的包含
- ARROW-9129 - [Python][JPype] 使用 JPype 0.7.5 时测试失败
- ARROW-9130 - [Python] 为 1.0.0 添加 pyarrow/compat.py 模块中已弃用的包装函数,这些函数将在以后移除
- ARROW-9131 - [C++] 更快的 ascii_lower 和 ascii_upper
- ARROW-9132 - [C++] 为具有常量字典的字典数据实现哈希内核
- ARROW-9133 - [C++] 添加 utf8_upper 和 utf8_lower
- ARROW-9137 - [GLib][Ruby] 允许分块读取 Parquet 文件(按 RowGroup)
- ARROW-9138 - [文档][格式] 确保格式版本在文档中硬编码
- ARROW-9139 - [Python] parquet read_table 不应使用 use_legacy_dataset
- ARROW-9144 - [CI] 由于 google 存储库中的最新更改,OSS-Fuzz 构建失败
- ARROW-9145 - [C++] 向 BooleanArray 添加 true_count / false_count 方法
- ARROW-9152 - [C++] 为 varbinary 类型创建专门的过滤器实现
- ARROW-9153 - [Python] 为 StructScalar 添加绑定
- ARROW-9154 - [开发者] 更好地使用 GitHub issue 模板
- ARROW-9155 - [Archery] “archery benchmark diff” 的默认设置精度较低但速度更快
- ARROW-9156 - [C++] 减小张量模块的代码大小
- ARROW-9157 - [Rust][Datafusion] 执行上下文的 create_physical_plan 应将 self 作为不可变引用
- ARROW-9158 - [Rust][Datafusion] 投影物理计划编译应保留可空性
- ARROW-9159 - [Python] 公开 isnull/isvalid 内核
- ARROW-9162 - [Python] 公开加/减/乘算术内核
- ARROW-9163 - [C++] 向 StringArray、LargeStringArray 添加方法,以验证其值是否均为 UTF-8
- ARROW-9166 - [网站] 添加概述页面
- ARROW-9167 - [文档][网站] /docs/c_glib/index.html 被覆盖
- ARROW-9168 - [C++][Flight] 允许 flight benchmark 使用单独的 TCP 连接
- ARROW-9173 - [C++] 记录如何在第三方 CMake 项目中使用 Arrow
- ARROW-9175 - [FlightRPC][C++][Python] 公开已连接的对等点
- ARROW-9176 - [Rust] 修复 Arrow 分配器中的内存泄漏
- ARROW-9178 - [R] 改进有关 CSV 读取器的文档
- ARROW-9179 - [R] 替换测试中 iris 数据集的用法
- ARROW-9180 - [开发者] 移除 whitelist、blacklist、slave 等用法
- ARROW-9181 - [C++] 在 Cast 内核实现中实例化更少的模板
- ARROW-9182 - [C++] 将“applicator”命名空间用于内核运算符到内核函子,简化参数拆箱
- ARROW-9185 - [C++] [Java][Gandiva] 使 llvm 构建优化可从 Java 配置
- ARROW-9188 - [C++] 不要总是静态链接 Brotli 库
- ARROW-9189 - [网站] 改进贡献者指南
- ARROW-9190 - [网站][C++] 添加关于简化和简化构建工作的博客文章
- ARROW-9191 - [Rust] 当 int96 毫秒为负数时不要 panic
- ARROW-9192 - [CI][Rust] 添加对运行 clippy 的支持
- ARROW-9193 - [C++] 添加从空终止字符串解析日期的方法
- ARROW-9197 - [C++] 改进数值转换:更快的性能和更小的二进制大小
- ARROW-9201 - [Archery] 使用“archery benchmark diff”时渲染人类可读的表格
- ARROW-9202 - [GLib] 添加 GArrowDatum
- ARROW-9203 - [打包][deb] 添加缺少的 gir1.2-arrow-dataset-1.0.install
- ARROW-9204 - [C++][Flight] 在 flight benchmark 中将 records_per_stream 更改为 int64
- ARROW-9205 - [文档] 修复 Columnar.rst 中的拼写错误
- ARROW-9206 - [C++][Flight] 在 flight benchmark 中测量延迟
- ARROW-9207 - [Python][Dataset] 清理内部 FileSource 类
- ARROW-9210 - [C++] 在 ArrayDataInlineVisitor 中使用 OptionalBitBlockCounter
- ARROW-9214 - [C++] 在 arrow/visitor_inline.h 中避免使用 util::optional,而是使用单独的可内联函数
- ARROW-9216 - [C++][Parquet] 将 BitBlockCounter 用于普通间隔编码/解码
- ARROW-9217 - [C++][Parquet] 为普通间隔编码/解码基准测试覆盖 0.01% 的空值
- ARROW-9220 - [C++] 如果 ARROW_WITH_UTF8PROC=OFF,则禁用相关的计算内核
- ARROW-9222 - [格式][提案] 从联合类型中移除有效位图
- ARROW-9224 - [开发][Archery] 克隆失败时复制本地存储库
- ARROW-9225 - [C++][Compute] 改进计数排序
- ARROW-9231 - [格式] 将 MetadataVersion 从 V4 增加到 V5
- ARROW-9234 - [GLib][CUDA] 添加对从缓冲区读取记录批次时字典备忘录的支持
- ARROW-9241 - [C++] 为 Decimal::bitWidth 添加向前兼容性检查
- ARROW-9242 - [Java] 为 Decimal::bitWidth 添加向前兼容性检查
- ARROW-9247 - [Python] 在绑定中公开 BinaryArray::total_values_length
- ARROW-9248 - [C++] 添加“list_size”函数,该函数返回给出列表单元格大小的 Int32Array/Int64Array
- ARROW-9249 - [C++] 实现“list_parent_indices”向量函数
- ARROW-9250 - [C++] 使用与 vector_hash.cc 相同的方法压缩 compute/kernels/scalar_set_lookup.cc 中生成的代码
- ARROW-9251 - [C++] 将集成测试的 JSON 测试代码移至 libarrow_testing
- ARROW-9254 - [C++] 提取一些整数转换内部结构,以便可以将其与时间转换重复使用
- ARROW-9255 - [C++] 使用 CMake 使用 CMake >= 3.7 构建捆绑的 Protobuf
- ARROW-9256 - [C++] 错误的变量名 ARROW_CXX_FLAGS
- ARROW-9258 - [格式] 添加 V5 MetadataVersion
- ARROW-9259 - [格式] 允许 Columnar.rst 中的无符号字典索引
- ARROW-9262 - [打包][Linux][CI] 使用 Ubuntu 18.04 在 Travis CI 上构建 ARM64 软件包
- ARROW-9263 - [C++] 基准测试:将 RegressionSetArgs 大小提升到 L2
- ARROW-9264 - [C++] 清理 Parquet Arrow Schema 代码
- ARROW-9265 - [C++] 添加对写入与库版本 <= 0.17.1 兼容的 MetadataVersion::V4 兼容 IPC 消息的支持
- ARROW-9268 - [C++] 为字符串添加 is{alnum,alpha,...} 内核
- ARROW-9272 - [C++][Python] 降低 python 到 arrow 转换的复杂性
- ARROW-9276 - [开发] 在生成 API 文档时启用 ARROW_CUDA
- ARROW-9277 - [C++] 修复读取 CSV 文件的文档
- ARROW-9278 - [C++] 实现 ARROW-9222 中的联合有效位图更改
- ARROW-9280 - [Rust] 将统计信息写入 Parquet 文件
- ARROW-9281 - [R] 在 R 构建中关闭 utf8proc
- ARROW-9283 - [Python] 公开 C++ 构建信息
- ARROW-9287 - [C++] 实现对无符号字典索引的支持
- ARROW-9289 - [R] 移除已弃用的函数
- ARROW-9290 - [Rust] [Parquet] 添加允许选择退出依赖项的功能
- ARROW-9291 - [R] 支持固定大小的二进制/列表类型
- ARROW-9292 - [Rust] 使用通过测试更新功能矩阵
- ARROW-9294 - [GLib] 添加 GArrowFunction
- ARROW-9300 - [Java] 将 Netty 内存分离到其自己的模块中
- ARROW-9306 - [Ruby] 添加对 Arrow::RecordBatch.new(raw_table) 的支持
- ARROW-9307 - [Ruby] 添加 Arrow::RecordBatchIterator#to_a
- ARROW-9308 - [格式] 将 Feature 枚举添加到 schema.fbs 以实现向前兼容性
- ARROW-9316 - [C++] 使用“Dataset”而不是“Datasets”
- ARROW-9321 - [C++][Dataset] 如果 ParquetFragment 行组不是从 _metadata 构建的,则允许为其“收集”统计信息
- ARROW-9322 - [R] 数据集文档润色
- ARROW-9323 - [Ruby] 添加 Red Arrow Dataset
- ARROW-9327 - 修复 arrow crate 的所有 clippy 错误
- ARROW-9328 - [C++][Gandiva] 为字符串添加 LTRIM、RTRIM、BTRIM 函数
- ARROW-9329 - [C++][Gandiva] 实现 castTimestampToDate 函数
- ARROW-9331 - [C++] 提高 Tensor 到 SparseTensor 转换的性能
- ARROW-9333 - [Python] 在 Python 中公开更多 IPC 写入选项
- ARROW-9335 - [网站] 更新 1.0 的网站
- ARROW-9337 - [R] C++ 库构建失败时,给出明确的消息
- ARROW-9339 - [Rust] Arrow README 中关于 SIMD 的注释不正确
- ARROW-9340 - [R] 使用 CRAN 版本的 decor 包
- ARROW-9341 - [GLib] 使用 arrow::Datum 版本的 Take()
- ARROW-9345 - [C++][Dataset] 具有字典类型的表达式应该可以与值类型的操作数一起使用
- ARROW-9346 - [C++][Python][数据集] 向 RowGroupInfo 添加 total_byte_size 元数据
- ARROW-9362 - [Java] 添加对写入 MetadataVersion::V4 兼容的 IPC 消息的支持,以兼容库版本 <= 0.17.1
- ARROW-9365 - [Go] 在 NewBuilder 中实现其余的类型化数组构建器
- ARROW-9370 - [Java] 提升 Netty 版本
- ARROW-9374 - [C++][Python] 暴露 MakeArrayFromScalar
- ARROW-9379 - [Rust] 支持无符号字典索引
- ARROW-9383 - [Python] 通过 fs 处理程序在数据集 API 中支持 fsspec 文件系统
- ARROW-9386 - [Rust] RecordBatch.schema() 不应返回 &Arc<Schema>
- ARROW-9390 - [C++] 审查计算函数名称
- ARROW-9390 - [C++] 审查计算函数名称
- ARROW-9390 - [C++] 审查计算函数名称
- ARROW-9391 - [Rust] 当记录批次只有一行时,Float32 值被解释为零
- ARROW-9393 - [文档] 更新 Java 支持的类型文档
- ARROW-9395 - [Python] 在 IPC API 中提供可配置的 MetadataVersion 以及环境变量,以便在需要时将默认值设置为 V4
- ARROW-9399 - [C++] 为无法识别的未来 MetadataVersion 添加向前兼容性检查
- ARROW-9403 - [Python] 添加 .tolist 作为 .to_pylist 的别名
- ARROW-9407 - [Python] 在数组构造函数中接受 pd.NA 作为缺失值
- ARROW-9411 - [Rust] 更新依赖项
- ARROW-9424 - [C++][Parquet] 禁用使用 LZ4 编解码器写入文件
- ARROW-9425 - [Rust][DataFusion] 使 ExecutionContext 可在线程之间共享
- ARROW-9427 - [Rust][DataFusion] 添加 pub fn ExecutionContext.tables()
- ARROW-9437 - [Python][打包] Homebrew 在 macOS wheel 构建中无法安装构建依赖项
- ARROW-9442 - [Python] 不要强制在 pyarrow_wrap_table 中调用 Validate()
- ARROW-9445 - [Python] 恢复 Array.equals 更改 + 在计算中公开比较运算符
- ARROW-9446 - [C++] 在 BuildInfo 中导出编译器信息
- ARROW-9447 - [Rust][DataFusion] 允许闭包作为 ScalarUDF
- ARROW-9452 - [Rust] [DataFusion] 提高 parquet 扫描的性能
- ARROW-9470 - [CI][Java] 并行运行 Maven
- ARROW-9472 - [R] 在 IPC API 中提供可配置的 MetadataVersion 以及环境变量,以便在需要时将默认值设置为 V4
- ARROW-9473 - [文档] 为 1.0 进行润色
- ARROW-9478 - [C++] 改进不支持的转换类型的错误消息
- ARROW-9484 - [文档] 将计算文档中的 is* 函数更新为 is_*
- ARROW-9485 - [R] 更好的共享库剥离
- ARROW-9493 - [Python][数据集] 默认情况下对字符串分区列进行字典编码
- ARROW-9508 - [发布][APT][Yum] 为 arm64 二进制文件启用验证
- ARROW-9509 - [发布] 不要在 Windows wheel 验证脚本中测试 Gandiva
- ARROW-9511 - [打包][发布] 将 conda 包的内部版本号设置为 0
- ARROW-9519 - [Rust] 改进从模式中按名称获取字段时的错误消息
- ARROW-9529 - [开发][发布] 改进发布验证脚本
- ARROW-9531 - [打包][发布] 更新 conda forge 依赖项固定
- ARROW-9534 - [Rust] [DataFusion] 实现为所有类型创建字面量表达式的函数
- PARQUET-1820 - [C++] 使用列过滤器提示来告知 Arrow 读取中的预取操作
- PARQUET-1843 - [C++] DictDecoderImpl::Decode 中不必要的赋值
- PARQUET-1855 - [C++] 改进关于 MetaData 所有权的文档
- PARQUET-1861 - [文档][C++] 解释 ReaderProperters.buffer_stream*