Apache Arrow 1.0.0 (2020 年 7 月 24 日)
这是一个主要版本,涵盖了 3 个多月的开发。
下载
贡献者
此版本包含来自 100 位不同贡献者的 771 个提交。
$ git shortlog -sn apache-arrow-0.17.0..apache-arrow-1.0.0
125 Wes McKinney
72 Neal Richardson
61 Antoine Pitrou
56 Sutou Kouhei
55 Krisztián Szűcs
30 Joris Van den Bossche
24 Benjamin Kietzman
23 David Li
21 Kazuaki Ishizaki
19 Qingping Hou
18 Andy Grove
18 François Saint-Jacques
17 Neville Dipale
16 Yibo Cai
16 liyafan82
15 Ryan Murray
14 Micah Kornfield
10 Uwe L. Korn
9 Paddy Horan
8 Jorge C. Leitao
8 Projjal Chanda
7 Frank Du
7 Romain Francois
6 Kenta Murata
6 Maarten A. Breddels
6 Max Burke
5 Mahmut Bulut
4 Mark Hildreth
4 Yuan Zhou
3 Adam Szmigin
3 Raphael Taylor-Davies
3 Zhuo Peng
3 rdettai
2 Bobby Wagner
2 Eric Erhardt
2 Prudhvi Porandla
2 R. Tyler Croy
2 Sagnik Chakraborty
2 Vamsi
2 Yordan Pavlov
2 c-jamie
2 dota17
2 mayuropensource
2 tianchen
2 tianchen92
1 Alex Baden
1 Ben Kimock
1 Bryan Cutler
1 Chad Dougherty
1 Christian Hudon
1 Cuong Nguyen
1 David Anthoff
1 Dmitry Kalinkin
1 Drazen Urch
1 Erin Ryan
1 Eyal Leshem
1 Frank Smith
1 German I Ramirez-Espinoza
1 Hongze Zhang
1 Ilija Puaca
1 Itamar Turner-Trauring
1 Jacek Pliszka
1 Jens Glaser
1 Ji Liu
1 Jörn Horstmann
1 Kyle Brandt
1 Kyle McCarthy
1 Laurent Goujon
1 Li, Jiajia
1 Maarten Breddels
1 Masaki Kozuki
1 Mohamed Zenadi
1 Nick Poorman
1 Pand9
1 Paul Dix
1 Paul Taylor
1 Praveen
1 Robert Borkowski
1 Rok
1 Sergey Fedoseev
1 Shuai Zhang
1 Simon Watts
1 Stéphane Campinas
1 Suvayu Ali
1 Sven Wagner-Boysen
1 TP Boudreau
1 Takuya Kato
1 Tobias Mayer
1 Wakahisa
1 Weston Steimel
1 Yuqi Gu
1 Zachary Gramana
1 Ze'ev Maor
1 alamb
1 alimcmaster1
1 amol
1 chenguoping
1 ritchie46
1 rvernica
1 xuyiming
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -csn apache-arrow-0.17.0..apache-arrow-1.0.0
231 Wes McKinney
85 Antoine Pitrou
74 Krisztián Szűcs
68 Neal Richardson
67 Sutou Kouhei
44 François Saint-Jacques
35 Andy Grove
34 Neville Dipale
21 Benjamin Kietzman
17 GitHub
17 Micah Kornfield
12 Chao Sun
12 Paddy Horan
8 David Li
8 Praveen
7 Joris Van den Bossche
5 Bryan Cutler
5 Eric Erhardt
5 Uwe L. Korn
4 Yosuke Shiro
3 Jacques Nadeau
3 Pindikura Ravindra
3 Sebastien Binet
2 liyafan82
1 Kenta Murata
变更日志
Apache Arrow 1.0.0 (2020-07-24)
Bug 修复
- ARROW-1692 - [Python, Java] UnionArray 往返不起作用
- ARROW-3329 - [Python] 将 decimal(38, 4) 转换为 int64 时出错
- ARROW-3861 - [Python] ParquetDataset().read columns 参数始终返回分区列
- ARROW-4018 - [C++] RLE 解码器可能与大端不兼容
- ARROW-4309 - [文档] 添加一个 docker-compose 条目,该条目构建启用 CUDA 的文档
- ARROW-4600 - [Ruby] Arrow::DictionaryArray#[] 应该返回索引数组中的项目
- ARROW-5158 - [Packaging][Wheel] 在 wheels 中使用符号链接库
- ARROW-5310 - [Python] 从空目录创建 ParquetDataset 时显示更好的错误消息
- ARROW-5359 - [Python] pyarrow 中 pa.Table.to_pandas 的 timestamp_as_object 支持
- ARROW-5572 - [Python] 在 parquet 读取中传递无效过滤器时引发错误消息
- ARROW-5666 - [Python] 读取数据集时,分区(字符串)值中的下划线被删除
- ARROW-5744 - [C++] 对于溢出 2GB 限制的 BinaryArray 类型,Table::CombineChunks 中不要出错
- ARROW-5875 - [FlightRPC] 在集成测试中测试 RPC 功能
- ARROW-6235 - [R] 未实现从 arrow::BinaryArray 到 R 字符向量的转换
- ARROW-6523 - [C++][Dataset] arrow_dataset 目标不依赖于任何东西
- ARROW-6848 - [C++] 构建时指定 -std=c++11 而不是 -std=gnu++11
- ARROW-7018 - [R] Arrow <–> R 转换中的非 UTF-8 数据
- ARROW-7028 - [R] 日期往返导致不同的 R 存储模式
- ARROW-7084 - [C++] ArrayRangeEquals 应该检查完整的类型相等性吗?
- ARROW-7173 - [Integration] 添加测试以验证 Map 字段名称可以是任意的
- ARROW-7208 - [Python] 将目录传递给 ParquetFile 类会给出令人困惑的错误消息
- ARROW-7273 - [Python] 允许/崩溃非空可空字段写入 parquet
- ARROW-7480 - [Rust] [DataFusion] 当聚合 + 分组的列与选定的列不匹配时,查询失败/不正确
- ARROW-7610 - [Java] 完成对 64 位 int 分配的支持
- ARROW-7654 - [Python] 在 csv.ConvertOptions 中将 column_types 设置为 Schema 的能力没有文档记录
- ARROW-7681 - [Rust] 显式查找 BufReader 将丢弃内部缓冲区
- ARROW-7702 - [C++][Dataset] 提供批次的(可选)确定性顺序
- ARROW-7782 - [Python] 将 write_to_dataset 与 partition_cols 一起使用时丢失索引信息
- ARROW-7840 - [Java] [Integration] Java 可执行文件失败
- ARROW-7925 - [C++][Documentation] 关于在 cpp/development.rst 中运行 IWYU 和其他任务的说明已经过时
- ARROW-7939 - [Python] 读取用 snappy 压缩的 parquet 文件时崩溃
- ARROW-7967 - [CI][Crossbow] 将 autobrew 作业中的 macOS 版本固定为与 CRAN 匹配
- ARROW-8050 - [Python][Packaging] 不要将生成的 Cython 源代码文件包含在 wheel 包中
- ARROW-8078 - [Python] 关于字段和模式 DataTypes 的文档中缺少链接
- ARROW-8115 - [Python] 混合 NaT 和 datetime 对象时转换不起作用
- ARROW-8251 - [Python] pandas.ExtensionDtype 无法通过 write_to_dataset 进行往返
- ARROW-8344 - [C#] StringArray.Builder.Clear() 损坏了后续构建的数组内容
- ARROW-8360 - [C++][Gandiva] 修复了 date/time 函数的 date32 支持
- ARROW-8374 - [R] 当数组不具有每个数组相同的 Dictionary 时,Table 到 DictonaryType 向量会出错
- ARROW-8392 - [Java] 修复向量值比较的溢出相关极端情况
- ARROW-8448 - [Package] 无法使用 ubuntu-focal 构建 apt 包
- ARROW-8455 - [Rust] [Parquet] 在部分兼容的文件上读取 Arrow 列
- ARROW-8455 - [Rust] [Parquet] 在部分兼容的文件上读取 Arrow 列
- ARROW-8471 - [C++][Integration] 回归到 /u?int64/ 作为 JSON::number
- ARROW-8472 - [Go][Integration] 将 64 位整数表示为 JSON::string
- ARROW-8473 - [Rust] rust/parquet 自述文件中的“统计支持”不正确
- ARROW-8480 - [Rust] 没有检查分配失败
- ARROW-8503 - [Packaging][deb] 无法为 RC 构建 apache-arrow-archive-keyring
- ARROW-8505 - [Release][C#] “sourcelink test” 被 Apache.Arrow.AssemblyInfo.cs 阻止
- ARROW-8508 - [Rust] FixedSizeListBuilder 的 ListBuilder 创建错误的偏移量
- ARROW-8510 - [C++] arrow/dataset/file_base.cc 无法使用“Visual Studio 15 2017 Win64”生成器进行内部编译器错误编译
- ARROW-8511 - [Developer][Release] 如果 C++ 编译失败,Windows 发布验证脚本不会停止
- ARROW-8514 - [Developer] Windows wheel 验证脚本不检查 Python 3.5
- ARROW-8529 - [C++] 修复 GetBatchWithDict[Spaced] 中 NextCounts() 的用法
- ARROW-8535 - [Rust] Arrow crate 未指定 arrow-flight 版本
- ARROW-8536 - [Rust] 无法在任何父目录中找到 format/Flight.proto
- ARROW-8537 - [C++] ARROW-8523 导致的性能下降
- ARROW-8539 - [CI] “AMD64 MacOS 10.15 GLib & Ruby” 失败
- ARROW-8554 - [C++][Benchmark] 修复构建错误“无法绑定左值”
- ARROW-8556 - [R] 如果安装了多个 zstd,则找不到 zstd 符号
- ARROW-8566 - [R] 将 POSIXct 写入 spark 时出错
- ARROW-8568 - [C++][Python] 在调试模式下进行十进制转换时崩溃
- ARROW-8577 - [Plasma] 在没有 CUDA 设备的计算机上,启用 CUDA 构建的 PlasmaClient::Connect() 始终失败
- ARROW-8583 - [C++][Doc] Dataset 命名空间中未记录的参数
- ARROW-8584 - [Packaging][C++] deb 构建中的 Protobuf 链接错误
- ARROW-8585 - [Packaging][Python] 由于链接错误,Windows wheels 无法构建
- ARROW-8586 - [R] CentOS 7 上的安装失败
- ARROW-8587 - [C++] 链接 arrow-flight-perf-server 时出现编译错误
- ARROW-8592 - [C++] 文档仍然将 LLVM 7 列为使用的编译器
- ARROW-8593 - [C++] Parquet file_serialize_test.cc 无法使用 musl libc 构建
- ARROW-8598 - [Rust] 当项目计数不是 T::lanes() 的倍数时,simd_compare_op 会创建长度不正确的缓冲区
- ARROW-8602 - [CMake] 修复 Linux 上交叉编译时的 ws2_32 链接问题
- ARROW-8603 - [Documentation] 修复 Sphinx doxygen 注释
- ARROW-8604 - [R][CI] 更新 CI 以使用 R 4.0
- ARROW-8608 - [C++] 将供应商 mpark/variant.h 更新到最新版本以修复 NVCC 编译问题
- ARROW-8609 - [C++] ORC JNI 桥接在空 arrow 缓冲区上崩溃
- ARROW-8610 - [Rust] 禁用 simd 功能时运行 arrow crate 时出现 DivideByZero
- ARROW-8613 - [C++][Dataset] 为无法解析的分区值引发错误
- ARROW-8615 - [R] 更好的错误并坚持在 read_feather 中使用 RandomAccessFile
- ARROW-8617 - [Rust] aarch64 上不存在 simd_load_set_invalid
- ARROW-8632 - [C++] 修复 array_union_test.cc 中的转换错误警告
- ARROW-8641 - [Python] feather 中的回归:不再支持列选择中的排列
- ARROW-8643 - [Python] 由于 freq 断言,使用 pandas master 进行的测试失败
- ARROW-8644 - [Python] 由于未包含分区列而导致 Dask 集成测试失败
- ARROW-8646 - [Java] 允许 UnionListWriter 写入空值
- ARROW-8649 - [Java] [网站] 网站上的 Java 文档被隐藏
- ARROW-8657 - [Python][C++][Parquet] 使用 version=’2.0’ 时从 0.16 向 0.17 的向前兼容性问题
- ARROW-8663 - [文档] building.rst 中的小修正
- ARROW-8680 - [Rust] ComplexObjectArrayReader 不正确的空值洗牌
- ARROW-8684 - [Python] 在 macOS 上使用 pyarrow wheel 时,Python 3.7.7 中出现“SystemError: Bad call flags in _PyMethodDef_RawFastCallDict”
- ARROW-8689 - [C++] S3 基准测试链接失败
- ARROW-8693 - [Python] 过滤时 Dataset.get_fragments 缺少隐式转换
- ARROW-8694 - [Python][Parquet] 从 Pandas DataFrame 创建的宽表时 parquet.read_schema() 失败
- ARROW-8701 - [Rust] Raspberry Pi 上未解决的导入 `crate::compute::util::simd_load_set_invalid`
- ARROW-8704 - [C++] 修复 Parquet 在无效输入上的崩溃 (OSS-Fuzz)
- ARROW-8705 - [Java] ComplexCopier 跳过空值
- ARROW-8706 - [C++][Parquet] 跟踪 PARQUET-1857 的 JIRA(未加密的 INT16_MAX Parquet 行组限制)
- ARROW-8710 - [Rust] 连续标记在 IPC 写入器中未正确写入,并且流未刷新
- ARROW-8722 - [Dev] “archery docker run -e” 不起作用
- ARROW-8726 - [C++][Dataset] 错误指定的 DirectoryPartitioning 错误地使用文件名作为值
- ARROW-8728 - [C++] 位图操作可能导致缓冲区溢出
- ARROW-8729 - [C++][Dataset] 仅选择分区列会导致空表
- ARROW-8734 - [R] 改进 nightly build 安装
- ARROW-8741 - [Python][打包] 为 Windows wheels 保留 VS2015
- ARROW-8750 - [Python] 如果可用,pyarrow.feather.write_feather 不默认使用 lz4 压缩
- ARROW-8768 - [R][CI] 修复 nightly as-cran 的虚假故障
- ARROW-8775 - [C++][FlightRPC] 集成客户端不运行集成测试
- ARROW-8776 - [FlightRPC][C++] Flight/C++ 中间件在调用 Java 服务器失败时未收到标头
- ARROW-8798 - [C++] 修复 Parquet 在无效输入上的崩溃 (OSS-Fuzz)
- ARROW-8799 - [C++][Dataset] 将列表列作为嵌套字典读取导致段错误
- ARROW-8801 - [Python] 使用 pandas 从带有 UTC 时间戳的 parquet 文件读取时出现内存泄漏
- ARROW-8802 - [C++][Dataset] 读取列的子集时,Schema 元数据丢失
- ARROW-8803 - [Java] 行计数应在 VectorLoader 中加载缓冲区之前设置
- ARROW-8808 - [Rust] arrays/builder.rs 中除以零
- ARROW-8809 - [Rust] 集成测试中的 schema 不匹配
- ARROW-8811 - [Java] 修复 master 上的构建
- ARROW-8820 - [C++][Gandiva] 修复 date_trunc 函数以返回日期类型
- ARROW-8821 - [Rust] 具有 Like、NotLike 和 Not 运算符的嵌套二进制表达式导致类型转换错误
- ARROW-8825 - [C++] 无法使用 Wunused-parameter 标志编译传递
- ARROW-8826 - [Crossbow] 远程 URL 应始终具有 .git
- ARROW-8832 - [Python] AttributeError: module ‘pyarrow.fs’ has no attribute ‘S3FileSystem’
- ARROW-8848 - [CI][C/Glib] MinGW 构建错误
- ARROW-8848 - [CI][C/Glib] MinGW 构建错误
- ARROW-8858 - [FlightRPC] 确保统一公开标头
- ARROW-8860 - [C++] IPC/Feather 解压缩对于嵌套数组已损坏
- ARROW-8862 - [C++] NumericBuilder 不使用传递给 CTOR 的 MemoryPool
- ARROW-8863 - [C++] 当没有有效性位图时,Array 子类构造函数必须将 ArrayData::null_count 设置为 0
- ARROW-8869 - [Rust] [DataFusion] 类型强制转换优化器规则不支持新的扫描节点
- ARROW-8871 - [C++] Gandiva 构建失败
- ARROW-8872 - [CI] Travis-CI 作业失败(无法打开文件 'ci/detect-changes.py')
- ARROW-8874 - [C++][Dataset] 当 ScanTask 提前退出并出现错误时 Scanner::ToTable 竞争
- ARROW-8878 - [R] 当 download.file.method 不是默认值时,try_download 会感到困惑
- ARROW-8882 - [C#] 将 .editorconfig 添加到 C# 代码
- ARROW-8888 - [Python] dataframe_to_arrays 中启发式决定多线程转换会导致转换速度慢
- ARROW-8889 - [Python] 将 RecordBatch 与 None 比较时,Python 3.7 SIGSEGV
- ARROW-8892 - [C++][CI] MSVC 的 CI 构建不构建基准测试
- ARROW-8909 - [Java] 使用 setSafe 乱序写入
- ARROW-8911 - [C++] 切片具有零个块的 ChunkedArray 会导致段错误
- ARROW-8924 - [C++][Gandiva] castDATE_date32() 可能导致溢出
- ARROW-8925 - [Rust] [DataFusion] CsvExec::schema() 返回不正确的结果
- ARROW-8930 - [C++] libz.so 与 liborc.a 的链接错误
- ARROW-8932 - [C++] liborc.a 的符号解析失败
- ARROW-8946 - [Python] 为 parquet.write_metadata metadata_collector 添加测试
- ARROW-8948 - [Java][Integration] 启用重复字段名称集成测试
- ARROW-8951 - [C++] 修复 compute/kernels/scalar_cast_temporal.cc 中的编译器警告
- ARROW-8954 - [网站] ca-certificates 应在安装说明中列出
- ARROW-8957 - [FlightRPC][C++] 由于 IpcOptions 而构建失败
- ARROW-8959 - [Rust] 由于使用旧 API 的新基准测试 crate 导致构建中断
- ARROW-8962 - [C++] 使用 clang-4.0 链接失败
- ARROW-8968 - [C++][Gandiva] 在 s390x 上显示链接警告消息
- ARROW-8975 - [FlightRPC][C++] 修复不稳定的 MacOS 测试
- ARROW-8977 - [R] 带有 schema 的 Table$create 在某些字典索引类型下崩溃
- ARROW-8978 - [C++][Compute] “条件跳转或移动依赖于未初始化的值” Valgrind 警告
- ARROW-8980 - [Python] 使用来自磁盘的 schema 时,元数据呈指数增长
- ARROW-8982 - [CI] 在 TravisCI 中删除 s390x 的 allow_failures
- ARROW-8986 - [Archery][ursabot] 修复 origin/master 的基准测试差异检出
- ARROW-9000 - [Java] 使用 JDK14 构建崩溃
- ARROW-9009 - [C++][Dataset] 读取 Parquet 文件时,应从 schema 的元数据中删除 ARROW:schema
- ARROW-9013 - [C++] 验证枚举样式的 CMake 选项
- ARROW-9020 - [Python] read_json 不会遵守 parse_options 中的 explicit_schema
- ARROW-9024 - [C++/Python] 在 conda-clean 作业中安装 anaconda-client
- ARROW-9026 - [C++/Python] 强制从 arrow-nightlies conda 存储库中删除软件包
- ARROW-9037 - [C++][C] 无法导入 null count == -1 的数组(可以导出)
- ARROW-9057 - [Rust] 投影应在 InMemoryScan 上工作而不会出错
- ARROW-9059 - [Rust] 切片数组数据的文档符号错误
- ARROW-9066 - [Python] 在 isnull() 中引发正确的错误
- ARROW-9071 - [C++] MakeArrayOfNull 创建无效的 ListArray
- ARROW-9077 - [C++] 修复 aggregate/scalar-compare 基准测试 null_percent 计算
- ARROW-9080 - [C++] arrow::AllocateBuffer 返回 Result<unique_ptr<Buffer>>
- ARROW-9082 - [Rust] - 当 steam 未以 (可选) 0xFFFFFFFF 0x00000000 结尾时,Stream reader 失败”
- ARROW-9084 - [C++] 当 ZSTD_SOURCE=SYSTEM 时,CMake 无法找到 zstd 目标
- ARROW-9085 - [C++][CI] Appveyor CI 测试失败
- ARROW-9087 - [C++] 缺少 HDFS 选项解析
- ARROW-9098 - RecordBatch::ToStructArray 无法处理具有 0 列的 record batches
- ARROW-9105 - [C++] ParquetFileFragment 扫描无法处理分区字段上的过滤器
- ARROW-9120 - [C++] 使用文件名中带有 “codegen” 的文件进行 Lint 和格式化 C++ 文件
- ARROW-9121 - [C++] 当路径为空时,请勿擦除文件系统
- ARROW-9122 - [C++] 调整 ascii_lower/ascii_upper 批量转换以处理切片数组
- ARROW-9126 - [C++] 精简的 Boost 捆绑包无法在 Windows 上构建
- ARROW-9127 - [Rust] 更新 thrift 库依赖项
- ARROW-9134 - [Python] Parquet 分区将 Int32 降级为 float64
- ARROW-9141 - [R] 更新跨包文档链接
- ARROW-9142 - [C++] random::RandomArrayGenerator::Boolean “probability” 错误记录 / 不正确
- ARROW-9143 - [C++] RecordBatch::Slice 错误地将非可为空字段的内部 null_count 设置为未知
- ARROW-9146 - [C++][Dataset] 扫描带有过滤器 + 不匹配 schema 的 Fragment 不应中止
- ARROW-9151 - [R][CI] 修复 Rtools 4.0 构建:pacman sync
- ARROW-9160 - [C++] 为精确匹配实现字符串/二进制包含
- ARROW-9174 - [Go] 测试在 386 (x86) 构建中出现 panic
- ARROW-9183 - [C++] 无法使用 gcc 4.9.2 构建 arrow-cpp
- ARROW-9184 - [Rust][Datafusion] 没有投影的表扫描应返回所有列
- ARROW-9194 - [C++] Array::GetScalar 未为 decimal 类型实现
- ARROW-9195 - [Java] ByteFunctionsHelper 类中从 bytearray 错误使用 Unsafe.get
- ARROW-9209 - [C++] ARROW_IPC=OFF 和 ARROW_BUILD_TESTS=OFF 时,基准测试构建失败
- ARROW-9219 - [R] Parquet写入选项中的coerce_timestamps不起作用
- ARROW-9221 - ArrowBuf#setBytes(int, ByteBuffer) 不检查字节缓冲区的字节序
- ARROW-9223 - [Python] 修复structs中时间戳的to_pandas()导出
- ARROW-9230 - [FlightRPC][Python] flight.connect() 没有传递所有参数
- ARROW-9233 - [C++] NullArray上的is_null对所有值应为true
- ARROW-9236 - [Rust] CSV WriterBuilder 从不写入header
- ARROW-9237 - [R] Arch Linux上的0.17安装
- ARROW-9238 - [C++][CI] ipc和flight中轮询的一些测试覆盖率
- ARROW-9252 - [集成] GitHub Actions集成测试作业不对apache/arrow-testing中的“gold” 0.14.1文件进行测试
- ARROW-9260 - [CI] “ARM64v8 Ubuntu 20.04 C++”失败
- ARROW-9260 - [CI] “ARM64v8 Ubuntu 20.04 C++”失败
- ARROW-9261 - [Python][打包] S3FileSystem在manylinux wheels中的curl错误
- ARROW-9274 - [Rust] [集成测试] 从json文件中读取i64作为字符串
- ARROW-9282 - [R] 删除_EXTPTR_PTR的使用
- ARROW-9284 - [Java] getMinorTypeForArrowType为dense union类型返回sparse minor类型
- ARROW-9288 - [C++][Dataset] 将分区字段发现为字典类型与HivePartitioning发生段错误
- ARROW-9297 - [C++][Dataset] Dataset扫描器无法处理大型二进制列 (> 2 GB)
- ARROW-9298 - [C++] 修复无效输入时的崩溃 (OSS-Fuzz)
- ARROW-9303 - [R] Linux静态构建应始终捆绑依赖项
- ARROW-9305 - [Python] Windows wheel构建中的依赖项加载失败
- ARROW-9315 - [Java] 修复testAllocationManagerType的失败
- ARROW-9317 - [Java] arrow-memory的一些测试用例
- ARROW-9326 - [Python] Setuptools 49.1.0似乎破坏了我们的Python 3.6构建
- ARROW-9326 - [Python] Setuptools 49.1.0似乎破坏了我们的Python 3.6构建
- ARROW-9326 - [Python] Setuptools 49.1.0似乎破坏了我们的Python 3.6构建
- ARROW-9330 - [C++] 修复损坏的IPC输入时的崩溃 (OSS-Fuzz)
- ARROW-9334 - [Dev][Archery] 推送祖先docker镜像
- ARROW-9336 - [Ruby] 使用缺少键的structs创建RecordBatch会导致表格式错误
- ARROW-9343 - [C++][Gandiva] 来自字符串的CastINT/Float函数应该处理前导/尾随空格
- ARROW-9347 - [Python] 测试用最新的fsspec失败
- ARROW-9350 - [C++][CI] 每晚valgrind作业失败
- ARROW-9351 - [C++][CI] 每晚test-ubuntu-18.04-cpp-cmake32失败
- ARROW-9353 - [Python][CI] 每晚dask集成作业失败
- ARROW-9354 - [C++] Turbodbc最新版本无法在集成测试中构建
- ARROW-9355 - [R] 修复 -Wimplicit-int-float-conversion
- ARROW-9360 - [CI][Crossbow] 每晚homebrew-cpp作业超时
- ARROW-9363 - [C++][Dataset] ParquetDatasetFactory schema: pandas metadata 丢失
- ARROW-9368 - [Python] 在split_by_row_group()中将谓词参数重命名为filter
- ARROW-9373 - [C++] 修复无效输入时的Parquet崩溃 (OSS-Fuzz)
- ARROW-9380 - [C++] compute::CallFunction中的段错误
- ARROW-9384 - [C++] 无效IPC输入时内存不足 (OSS-Fuzz)
- ARROW-9385 - [Python] [CI] jpype 集成失败
- ARROW-9389 - [C++] 无法通过CallFunction调用isin/match
- ARROW-9397 - [R] 在Linux构建中构建libarrow时将CC/CXX传递给cmake
- ARROW-9408 - [集成] 由于numpy 64位错误,测试未在Windows中运行
- ARROW-9409 - [CI][Crossbow] 每晚conda-r失败
- ARROW-9410 - [CI][Crossbow] 再次修复homebrew-cpp
- ARROW-9413 - [Rust] 修复master上的clippy lint
- ARROW-9415 - [C++] Arrow无法在Power9上编译
- ARROW-9416 - [Go] 为某些数据类型添加测试用例
- ARROW-9417 - [C++][IPC] 以本机字节序写入的消息大小
- ARROW-9418 - [R] nyc-taxi Parquet文件未在Windows上以二进制模式下载
- ARROW-9419 - [C++] 测试“fill_null”函数是否适用于切片输入,扩展测试
- ARROW-9428 - [C++] 更新缓冲区分配函数的文档
- ARROW-9436 - [C++][CI] fill_null内核测试中的Valgrind错误
- ARROW-9438 - [CI] Spark 集成测试失败
- ARROW-9439 - [C++] 修复无效IPC输入时的崩溃 (OSS-Fuzz)
- ARROW-9440 - [Python] 在PyArrow中公开Fill Null Compute Kernel
- ARROW-9443 - [C++] 捆绑的bz2构建应仅构建libbz2
- ARROW-9448 - [Java] ArrowBuf和BaseAllocator之间的循环初始化导致空缓冲区的null HistoricalLog
- ARROW-9449 - [R] Strip arrow.so
- ARROW-9450 - [Python] “pytest pyarrow” 需要超过10秒来收集测试并开始执行
- ARROW-9456 - [Python] 未导入pyarrow.parquet时Dataset出现段错误
- ARROW-9458 - [Python] Dataset Scanner 仅是单线程的
- ARROW-9460 - [C++] BinaryContainsExact无法处理模式中的双字符
- ARROW-9461 - [Rust] 读取Date32和Date64时出错 - 它们被错误地转换为RecordBatch
- ARROW-9476 - [C++][Dataset] HivePartitioning发现具有字典类型的多个字段失败
- ARROW-9486 - [C++][Dataset] 支持将InExpression::set_隐式转换为dict
- ARROW-9497 - [C++][Parquet] 修复由格式错误的重复/定义级别导致的失败
- ARROW-9499 - [C++] AdaptiveIntBuilder::AppendNull 不会增加null计数
- ARROW-9500 - [C++] 修复在gcc 7.5.0上使用std::to_string在-O3构建中发生的段错误
- ARROW-9501 - [C++][Gandiva] 当结束日期是一个月的最后一天时,在timestampdiff()中添加逻辑
- ARROW-9503 - [Rust] 比较切片数组是错误的
- ARROW-9504 - [Python] ChunkedArray.take上的段错误
- ARROW-9506 - [Packaging][Python] 修复macOS wheel构建失败
- ARROW-9512 - [C++] 具有gcc的lambda内部的可变参数模板解包无法编译
- ARROW-9524 - [CI][Gandiva] C++单元测试arrow-ipc-read-write在gandiva每晚构建中失败
- ARROW-9527 - [Rust] 删除不必要的dev-dependencies
- PARQUET-1839 - [C++] ReadBatchSpaced中values_read未更新
- PARQUET-1857 - [C++][Parquet] ParquetFileReader无法读取超过32767个行组的文件
- PARQUET-1865 - [C++] 在parquet/encoding_benchmark.cc中使用的C++17功能导致失败
- PARQUET-1877 - [C++] 协调容器大小与字符串大小以解决内存问题
- PARQUET-1882 - [C++] 写入全空列然后使用buffered_stream读取它会中止该过程
新特性和改进
- ARROW-300 - [Format] 使用LZ4或ZSTD向IPC消息协议添加body缓冲区压缩选项
- ARROW-842 - [Python] 处理来自pandas 0.x的更多种类的null sentinel 对象
- ARROW-971 - [C++/Python] 将Array.isvalid/notnull/isnull实现为标量函数
- ARROW-974 - [网站] 向网站添加用例部分
- ARROW-1277 - 完成主要实现的数据类型的集成测试
- ARROW-1567 - [C++] 实现“填充空值”内核,该内核使用一些标量替换值替换空值
- ARROW-1570 - [C++] 定义API,用于从标量输入和输出的函数以及具有特定签名的函数创建内核实例
- ARROW-1682 - [Python] 添加文档/示例,用于读取S3上Parquet文件的目录
- ARROW-1796 - [Python] 文件级别的RowGroup过滤
- ARROW-2260 - [C++][Plasma] plasma_store 应该显示使用情况
- ARROW-2444 - [Python][C++] 更好地处理读取空的parquet文件
- ARROW-2702 - [Python] 检查numpy_to_arrow.cc中Invalid和TypeError错误的使用情况,以查看我们是否在每个实例中使用正确的错误类型
- ARROW-2714 - [C++/Python] 数组的可变步长切片
- ARROW-2912 - [网站] 构建更详细的社区登陆页面,类似于Apache Spark
- ARROW-3089 - [Rust] 为不同的Arrow数组添加ArrayBuilder
- ARROW-3134 - [C++] 为具有可能不同分块布局的块状数组集合实现 n 元迭代器
- ARROW-3154 - [Python][C++] 说明如何使用 Parquet 数据集编写 _metadata, _common_metadata 文件
- ARROW-3244 - [Python] 无扫描的多文件 Parquet 加载
- ARROW-3275 - [Python] 添加关于检查 Parquet 文件元数据的文档
- ARROW-3308 - [R] 将数据超过 2GB 的 R 字符向量转换为 Large 类型
- ARROW-3317 - [R] 测试/支持从具有单个字符列超过 BinaryArray 2GB 容量的 data.frame 转换
- ARROW-3446 - [R] 记录 Arrow <-> R 类型的映射
- ARROW-3509 - [C++] 不一致的子访问器命名
- ARROW-3520 - [C++] 实现 List Flatten 内核
- ARROW-3688 - [Rust] 实现 PrimitiveArrayBuilder<T>.push_values
- ARROW-3827 - [Rust] 实现 UnionArray
- ARROW-4022 - [C++] 将 Datum 变体从计算命名空间中提升出来
- ARROW-4221 - [Format] 在 COO 稀疏索引中添加规范标志
- ARROW-4390 - [R] 在 Feather 文件、IPC 消息中序列化“labeled”元数据
- ARROW-4412 - [DOCUMENTATION] 将显式版本号添加到 arrow 规范文档。
- ARROW-4427 - [Doc] 将 Confluence Wiki 页面移动到 Sphinx 文档
- ARROW-4429 - [Doc] 将 git rebase 提示添加到开发者文档的“Contributing”页面
- ARROW-5035 - [C#] ArrowBuffer.Builder<bool> 已损坏
- ARROW-5082 - [Python][Packaging] 减少 macOS 和 manylinux1 wheel 的大小
- ARROW-5143 - [Flight] 启用带有字典的批处理的集成测试
- ARROW-5279 - [C++] 支持在 IPC 流中读取增量字典
- ARROW-5377 - [C++] 将 IpcPayload 公开并添加 GetPayloadSize
- ARROW-5489 - [C++] 规范化内核和 ChunkedArray 行为
- ARROW-5548 - [Documentation] https://arrow.apache.org/docs/latest/ 不是最新的
- ARROW-5649 - [Integration][C++] 为扩展类型创建往返集成测试
- ARROW-5708 - [C#] BooleanArray 的 Null 支持
- ARROW-5760 - [C++] 优化 Take 实现
- ARROW-5854 - [Python] 在 Array 类上公开比较内核
- ARROW-6052 - [C++] 将 arrow/array.h,cc 分割到 arrow/array/ 中的文件中,类似于 builder 文件
- ARROW-6110 - [Java] 支持 LargeList 类型并添加与 C++ 的集成测试
- ARROW-6111 - [Java] 支持 LargeVarChar 和 LargeBinary 类型并添加与 C++ 的集成测试
- ARROW-6439 - [R] 在 R 中实现 S3 文件系统接口
- ARROW-6456 - [C++] 是否有可能减少 compute/kernels/take.cc 中生成的对象代码?
- ARROW-6501 - [C++] 从 SparseIndex 中删除 non_zero_length 字段
- ARROW-6521 - [C++] 添加一个函数到 arrow:: 命名空间,该函数返回当前的 ABI 版本
- ARROW-6543 - [R] 支持 LargeBinary 和 LargeString 类型
- ARROW-6602 - [Doc] 添加特性/实现矩阵
- ARROW-6603 - [C#] ArrayBuilder API 以支持写入 null 值
- ARROW-6645 - [Python] 当转换为 Categorical 时,更快地对字典索引进行边界检查
- ARROW-6689 - [Rust] [DataFusion] 1.0.0 版本的查询执行增强
- ARROW-6691 - [Rust] [DataFusion] 使用 tokio 和 Futures 代替生成线程
- ARROW-6775 - [C++] [Python] 关于几个 Array 实用函数的提案
- ARROW-6776 - [Python] 需要一个精简版的 pyarrow
- ARROW-6800 - [C++] 添加 CMake 选项以构建目标 C++14 或 C++17 工具链环境的库
- ARROW-6839 - [Java] 添加 APIs 以读取和写入 IPC 文件页脚的“custom_metadata”字段
- ARROW-6856 - [C++] 将 ArrayData 用于 ArrayData::dictionary,而不是 Array
- ARROW-6917 - ARROW-6917: [Archery][Release] 添加对 JIRA 整理、变更日志生成和维护版本提交 cherry-picking 的支持
- ARROW-6945 - [Rust] 启用集成测试
- ARROW-6959 - [C++] 澄清计算内核的首选签名是什么
- ARROW-6978 - [R] 为 sum 和 mean 计算内核添加绑定
- ARROW-6979 - [R] 在 autobrew 公式中启用 jemalloc
- ARROW-6982 - [R] 为 compare 和 boolean 内核添加绑定
- ARROW-7009 - [C++] 重构 filter/take 内核以使用 Datum 而不是重载
- ARROW-7010 - [C++] 支持从 decimal128 到 float32 和 float64/double 的有损转换
- ARROW-7011 - [C++] 实现从 float/double 到 decimal128 的转换
- ARROW-7012 - [C++] 阐明 ChunkedArray 分块策略和策略
- ARROW-7068 - [C++] 将 ListArray 的偏移量公开为 Int32Array
- ARROW-7075 - [C++] Boolean 内核不应在 Call() 中分配
- ARROW-7175 - [Website] 添加一个安全页面来跟踪何时修补漏洞
- ARROW-7229 - [C++] 统一 ConcatenateTables APIs
- ARROW-7230 - [C++] 在 Gandiva 中使用供应商提供的 std::optional 代替 boost::optional
- ARROW-7237 - [C++] 将 Result<T> 添加到 arrow/json 的 APIs
- ARROW-7243 - [Docs] 将通用的“实现状态”表添加到每个本机语言实现的 README,以及顶级 README
- ARROW-7285 - [C++] 确保 C++ 实现满足明确的字典规范
- ARROW-7300 - [C++][Gandiva] 实现从字符串转换为整数/浮点数的函数
- ARROW-7313 - [C++] 添加一个函数,用于从数组槽中检索标量
- ARROW-7371 - [GLib] 添加 Datasets 绑定
- ARROW-7375 - [Python] 公开 C++ MakeArrayOfNull
- ARROW-7391 - [Python] 从绑定层删除不必要的类
- ARROW-7495 - [Java] 从 ArrowBuf 中删除“empty”概念,替换为自定义 referencemanager
- ARROW-7605 - [C++] 创建并安装包含由 Arrow 构建的所有依赖项的静态库
- ARROW-7607 - [C++] 将使用 Arrow 作为另一个 CMake 项目的依赖项的最小示例添加到 cpp/examples
- ARROW-7673 - [C++][Dataset] 重新审视文件发现失败模式
- ARROW-7676 - [Packaging][Python] 确保静态库未在 wheel 脚本中构建
- ARROW-7699 - [Java] 支持在批处理中连接密集 union 向量
- ARROW-7705 - [Rust] 初始排序实现
- ARROW-7717 - [CI] 具有 Spark 最新版本的夜间集成测试
- ARROW-7759 - [C++][Dataset] 添加用于 CSV 支持的 CsvFileFormat
- ARROW-7778 - [C++] 支持 JSON 集成格式中的嵌套字典
- ARROW-7784 - [C++] diff.cc 编译速度非常慢
- ARROW-7801 - [Developer] 添加 issue_comment 工作流程以修复 lint/style/codegen
- ARROW-7803 - [R][CI] Autobrew/homebrew 测试不应始终从 master 安装
- ARROW-7831 - [Java] 在可变宽度向量上调用 splitAndTransferTo 时不必要的缓冲区分配
- ARROW-7831 - [Java] 在可变宽度向量上调用 splitAndTransferTo 时不必要的缓冲区分配
- ARROW-7902 - [Integration] 取消跳过嵌套字典集成测试
- ARROW-7910 - [C++] 提供以可移植方式查询页面大小的函数
- ARROW-7924 - [Rust] 添加浮点类型的排序
- ARROW-7950 - [Python] 初始化 pandas API shim 时,如果安装的 pandas 版本太旧,则通知用户
- ARROW-7955 - [Java] 支持文件/流 IPC 的大缓冲区
- ARROW-8020 - [Java] 实现向量验证功能
- ARROW-8023 - [Website] 撰写一篇关于 C 数据接口的博客文章
- ARROW-8025 - [C++] 实现转换为 Binary 和 FixedSizeBinary
- ARROW-8025 - [C++] 实现转换为 Binary 和 FixedSizeBinary
- ARROW-8046 - [Developer][Integration] Makefile.docker 的目标名称已损坏
- ARROW-8062 - [C++][Dataset] 从 _metadata/_common_metadata 文件创建 Parquet Dataset 工厂
- ARROW-8065 - [C++][Dataset] 解开 Dataset、Fragment 和 ScanOptions
- ARROW-8074 - [C++][Dataset] FileSystemDataset 中对类文件对象(缓冲区)的支持?
- ARROW-8108 - [Java] 提取字典编码器的通用接口
- ARROW-8111 - [C++][CSV] 支持 MM/DD/YYYY 日期格式
- ARROW-8114 - [Java][Integration] 启用 custom_metadata 集成测试
- ARROW-8121 - [Java] 增强 Java 代码的代码样式检查(在逗号、分号和类型转换后添加空格)
- ARROW-8149 - [C++/Python] 在 conda recipes 中启用 CUDA 支持
- ARROW-8157 - [C++][Gandiva] 支持使用 LLVM 9 进行构建
- ARROW-8162 - [Format][Python] 为 CSF 稀疏张量添加序列化
- ARROW-8169 - [Java] 通过主动分配内存来提高 JDBC 适配器的性能
- ARROW-8171 - 考虑在 Avro 适配器迭代器中预分配定宽向量的内存
- ARROW-8190 - [C++][Flight] 允许在 Flight IPC 消息读取器和写入器类中设置 IpcWriteOptions 和 IpcReadOptions
- ARROW-8229 - [Java] 将 ArrowBuf 移动到 Arrow 包中
- ARROW-8230 - [Java] 将 Netty 内存管理器移动到一个单独的模块
- ARROW-8261 - [Rust] [DataFusion] LogicalPlanBuilder.limit() 应该接受字面量参数
- ARROW-8263 - [Rust] [DataFusion] 添加对支持的 SQL 函数的文档
- ARROW-8281 - [R] Windows conda 上的 arrow.dll 名称冲突
- ARROW-8283 - [Python][Dataset] 在 pa.dataset.FileSystemDataset 中静默地丢弃不存在的文件
- ARROW-8287 - [Rust] Arrow 示例应使用实用程序打印结果
- ARROW-8293 - [Python] 也在 python/examples 上运行 flake8
- ARROW-8297 - [FlightRPC][C++] 为 C++ 实现 Flight DoExchange
- ARROW-8301 - [R] 在 C 数据接口中处理 ChunkedArray 和 Table
- ARROW-8312 - [Java][Gandiva] 改进 IN 表达式支持
- ARROW-8314 - [Python] 提供一种选择 Table 的列子集的方法
- ARROW-8318 - [C++][Dataset] Dataset 应该实例化 Fragment
- ARROW-8399 - [Rust] 扩展内存对齐以包含其他架构
- ARROW-8413 - [C++] 重构 DefLevelsToBitmap
- ARROW-8422 - [Rust] [Parquet] 实现将 Arrow schema 转换为 Parquet schema 的函数
- ARROW-8430 - [CI] 为 Github Actions 配置自托管 runners
- ARROW-8434 - [C++] Ipc RecordBatchFileReader 反序列化 Schema 多次
- ARROW-8440 - [C++] 改进 simd 头文件
- ARROW-8443 - [Gandiva][C++] 修复 round/truncate 对特殊情况不生效的问题
- ARROW-8447 - [C++][Dataset] 确保 Scanner::ToTable 保留 ScanTasks 的排序
- ARROW-8467 - [C++] 使用 ArrayFromJSON 的测试用例假定仅使用小端平台
- ARROW-8474 - [CI][Crossbow] 跳过一些我们不需要运行的 nightly 构建
- ARROW-8477 - [C++] 启用对 Windows 的长文件名读写
- ARROW-8481 - [Java] 提供基于 Unsafe API 的分配管理器
- ARROW-8483 - [Ruby] 改进 Arrow::Table 文档
- ARROW-8485 - [Integration][Java] 实现扩展类型集成
- ARROW-8486 - [C++] arrow-utility-test 在大端平台上导致失败
- ARROW-8487 - [FlightRPC][C++] 使其可以针对特定的 payload 大小
- ARROW-8488 - [R] 将 VALUE_OR_STOP 替换为 ValueOrStop
- ARROW-8496 - [C++] 改进 ByteStreamSplitDecodeScalar
- ARROW-8497 - [Archery] 向构建添加缺失的组件
- ARROW-8499 - [C++][Dataset] 在 ScannerBuilder 中,如果 projecter 不为空,batch_size 将不起作用
- ARROW-8500 - [C++] 在 Record Batches 和 Tables 的 Filter 实现中使用选择向量
- ARROW-8501 - [Packaging][RPM] 在 CentOS 6 上将 devtoolset 升级到 8
- ARROW-8502 - [Release][APT][Yum] 忽略所有 arm64 验证
- ARROW-8504 - [C++] 添加 Run Length Reader
- ARROW-8506 - [c++] 缺少使用 RLE 中 bit_width > 8 验证 expected_buffer 的测试
- ARROW-8507 - [Release] 在 changelog.py 中自动检测 .git 目录
- ARROW-8509 - [GLib] 添加底层 record batch 读取/写入函数
- ARROW-8512 - [C++] 删除未使用的计算表达式原型代码
- ARROW-8513 - [Python] 在 Python 中公开使用 Table 输入的 Take
- ARROW-8515 - [C++] Bitmap ToString 应该有一个按字节分组的选项
- ARROW-8516 - [Rust] PrimitiveBuilder::append_slice 中的慢速 BufferBuilder<BooleanType> 插入
- ARROW-8517 - [Developer][Release] 更新 Crossbow RC 验证设置以适应自 0.16.0 以来的更改
- ARROW-8520 - [Developer] 使用 .asf.yaml 将 GitHub 通知定向到电子邮件列表和 JIRA
- ARROW-8521 - [Developer] 将 Sub-task, Task, Test 和 Wish issue 类型在 Changelog 中归为“改进”
- ARROW-8522 - [Developer] 添加环境变量选项来切换是否在发布验证脚本中安装临时 NodeJS
- ARROW-8524 - [CI] 释放 github actions 上的空间
- ARROW-8526 - [Python] 修复数据集测试中非确定性行顺序失败
- ARROW-8531 - [C++] 弃用 ARROW_USE_SIMD CMake 选项
- ARROW-8538 - [Packaging] 从 homebrew formula 中删除 boost
- ARROW-8540 - [C++] 创建内存分配基准
- ARROW-8541 - [Release] 不要自动删除之前的源代码发布
- ARROW-8542 - [Release] 修复网站发布后脚本中的校验和 URL
- ARROW-8543 - [C++] IO: 单程合并算法
- ARROW-8544 - [CI][Crossbow] 向 nightly 构建的 gh-pages 摘要添加 status.json 以绕过速率限制
- ARROW-8548 - [Website] 0.17 发布文章
- ARROW-8549 - [R] 各种 0.17 发布后的清理
- ARROW-8550 - [CI] 不要在 forks 上运行 cron GHA 作业
- ARROW-8551 - [CI][Gandiva] 使用 LLVM 8 构建 gandiva linux jar
- ARROW-8552 - [Rust] 支持 parquet 行的列迭代
- ARROW-8553 - [C++] 优化未对齐的 bitmap 操作
- ARROW-8555 - [FlightRPC][Java] 为 Java 实现 Flight DoExchange
- ARROW-8558 - [Rust] GitHub Actions 缺少 rustfmt
- ARROW-8559 - [Rust] 在主 arrow crate 中合并 Record Batch 读取器 traits
- ARROW-8560 - [Rust] MutableBuffer resize 的文档不正确
- ARROW-8561 - [C++][Gandiva] 停止使用已弃用的 google::protobuf::MessageLite::ByteSize()
- ARROW-8562 - [C++] IO: 使用 S3 存储指标参数化 I/O 合并
- ARROW-8563 - [Go] 稍微更改以使 newBuilder 公开
- ARROW-8564 - [Website] 将 Ubuntu 20.04 LTS 添加到支持的软件包列表
- ARROW-8569 - [CI] 升级 xcode 版本以测试 homebrew formulae
- ARROW-8571 - [C++] 将 AppVeyor 镜像切换到 VS 2017
- ARROW-8572 - [Python] 公开 UnionArray.array 和其他字段
- ARROW-8573 - [Rust] 升级到 Rust 1.44 nightly
- ARROW-8574 - [Rust] 为所有 plain 类型实现 Debug
- ARROW-8575 - [Developer] 添加 issue_comment workflow 以 rebase PR
- ARROW-8590 - [Rust] 在 DataFusion 中使用 Arrow 美观打印实用程序
- ARROW-8591 - [Rust] 字典数组中键的反向查找
- ARROW-8597 - [Rust] arrow crate lint 和可读性改进
- ARROW-8606 - [CI] 不要因为 ci/ 中任何文件的更改而触发所有构建
- ARROW-8607 - [R][CI] 修复在 R 4.0 发布后中断的构建
- ARROW-8611 - [R] 无法在 Ubuntu 18.04 R 3.6.3 上安装 arrow 0.17
- ARROW-8612 - [GLib] 添加 GArrowReadOptions 和 GArrowWriteOptions
- ARROW-8616 - [Rust] 默认情况下关闭显式 SIMD
- ARROW-8619 - [C++] 为 interval 类型使用不同的 Type::type 值
- ARROW-8622 - [Rust] Parquet crate 无法在 aarch64 上编译
- ARROW-8623 - [C++][Gandiva] 减少 Boost 的使用,从头文件中删除 Boost 头文件
- ARROW-8624 - [Website] 安装页面应提及 arrow-dataset 软件包
- ARROW-8628 - [CI][Dev] 使用 archery 包装 docker-compose 命令
- ARROW-8629 - [Rust] 消除 ZST 分配的间接寻址
- ARROW-8633 - [C++] 添加 ValidateAscii 函数
- ARROW-8634 - [Java] 创建一个例子
- ARROW-8639 - [C++][Plasma] 需要 gflags
- ARROW-8645 - [C++] plasma 缺少 gflags 依赖项
- ARROW-8647 - [C++][Dataset] 可选地将分区字段值编码为字典类型
- ARROW-8648 - [Rust] 优化 Rust CI 构建时间
- ARROW-8650 - [Rust] [Website] 向 Arrow 网站添加文档
- ARROW-8651 - [Python][Dataset] 支持对 Dataset 对象进行 pickle 操作
- ARROW-8655 - [C++][Dataset][Python][R] 为已发现的 Dataset 保留分区信息
- ARROW-8656 - [Python] 在 Windows wheel 构建中切换到 VS2017
- ARROW-8659 - [Rust] ListBuilder 和 FixedSizeListBuilder 容量
- ARROW-8660 - [C++][Gandiva] 减少对 Boost 的依赖
- ARROW-8662 - [CI] 合并 appveyor 脚本
- ARROW-8664 - [Java] 向所有 Vector 类型添加跳过空值检查
- ARROW-8668 - [Packaging][APT][Yum][ARM] 使用 Travis CI 的 ARM 机器构建包
- ARROW-8669 - [C++] 向 GetRecordBatchSize() 添加 IpcWriteOptions 参数
- ARROW-8671 - [C++] 使用 ARROW-300 中批准的 IPC 主体压缩元数据
- ARROW-8671 - [C++] 使用 ARROW-300 中批准的 IPC 主体压缩元数据
- ARROW-8682 - [Ruby][Parquet] 添加对列级别压缩的支持
- ARROW-8687 - [Java] 完成 io.netty.buffer.ArrowBuf 的移动
- ARROW-8690 - [Python] 清理 dataset+parquet 测试,现在顺序已确定
- ARROW-8692 - [C++] 从 S3 下载时避免内存复制
- ARROW-8695 - [Java] 移除内存模块中对 PlatformDependent 的引用
- ARROW-8696 - [Java] 将测试转换为集成测试
- ARROW-8699 - [R] 修复自动 r_to_py 转换
- ARROW-8702 - [Packaging][C#] 在发布过程中构建 NuGet 包
- ARROW-8703 - [R] schema$metadata 应该正确类型化
- ARROW-8707 - [CI] Docker 推送失败,因为 dockerhub 凭据错误
- ARROW-8708 - [CI] 利用 github actions cache 获取 docker-compose 卷
- ARROW-8711 - [Python] 在 read_csv 转换选项中公开 strptime 时间戳解析
- ARROW-8717 - [CI][Packaging] 向 homebrew 添加对 boost 的构建依赖
- ARROW-8720 - [C++] 修复 checked_pointer_cast
- ARROW-8721 - [CI] 修复 R 构建矩阵
- ARROW-8723 - [Rust] 移除 SIMD 特定基准测试代码
- ARROW-8724 - [Packaging][deb][RPM] 使用主机中的目录作为构建目录
- ARROW-8725 - [Rust] rust parquet 数据源代码中存在多余的目录遍历
- ARROW-8727 - [C++] 不要求 StringConverter<T> 进行结构体初始化以将字符串解析为其他类型
- ARROW-8730 - [Rust] 为函数参数使用 slice 而不是 &Vec
- ARROW-8733 - [C++][Dataset][Python] ParquetFileFragment 应该提供对 parquet FileMetadata 的访问
- ARROW-8736 - [Rust] [DataFusion] Table API 应该提供一个 schema() 方法
- ARROW-8740 - [CI] 修复 pandas master cron 测试中的 archery 选项
- ARROW-8742 - [C++][Python] 添加对 Mutual TLS 的 flight 客户端支持
- ARROW-8743 - [C++][CI] 在 s390x 上添加一个测试作业
- ARROW-8744 - [Rust] ParquetIterator 的 next 方法即使在到达迭代末尾后也应该可以安全调用
- ARROW-8745 - [C++] Bitmap.ToString 在大端平台上导致失败
- ARROW-8747 - [C++] 使用压缩的 Feather 测试在大端平台上导致失败
- ARROW-8751 - [Rust] ParquetFileArrowReader 应该能够读取空的 parquet 文件而不会出错
- ARROW-8752 - [Rust] 移除未使用的 hashmap
- ARROW-8753 - [C++][CI] 在 ARM 上添加一个测试作业
- ARROW-8754 - [C++][CI] 在大端平台上为其他组件启用测试
- ARROW-8756 - [C++] Bitmap word 测试在大端平台上导致失败
- ARROW-8757 - [C++] Plasma 标头以本机字节序写入
- ARROW-8758 - [R] 为与 dplyr 1.0 兼容进行更新
- ARROW-8759 - [C++] TestPlasmaSerialization.DeleteReply 测试在大端平台上失败
- ARROW-8762 - [C++][Gandiva] 将 Gandiva 的 BitmapAnd 替换为通用实现
- ARROW-8763 - [C++] 创建类似 RandomAccessFile::WillNeed 的 API
- ARROW-8764 - [C++] 在 ReadRangeCache 中使 ThreadPool 可配置
- ARROW-8766 - [Python] 基于 Python 回调的 FileSystem 实现
- ARROW-8769 - [C++] 添加便捷方法以在 StructScalar 中按名称访问字段
- ARROW-8770 - [C++][CI] 在 s390x 上启用 arrow-csv-test
- ARROW-8772 - [C++] 将 SumKernel 基准扩展到更多类型
- ARROW-8777 - [Rust] Parquet.rs 不支持读取固定大小的二进制字段。
- ARROW-8778 - [C++][Gandiva] SelectionVector 相关测试在大端平台上失败
- ARROW-8779 - [R] 实现到 List<Struct> 的转换
- ARROW-8781 - [CI][C++] 在 GHA MinGW 作业上启用 ccache
- ARROW-8782 - [Rust] [DataFusion] 添加基于 NYC Taxi 数据集的基准测试
- ARROW-8783 - [Rust] [DataFusion] 逻辑计划应具有 ParquetScan 和 CsvScan 条目
- ARROW-8784 - [Rust] [DataFusion] 从 LogicalPlan 中移除 Arc 的使用
- ARROW-8785 - [Python][Packaging] 使用启用 MIMALLOC 构建 Windows wheels
- ARROW-8786 - [Packaging][rpm] 在 CentOS 8 构建中使用捆绑的 zstd
- ARROW-8788 - [C#] 数组构建器使用位打包缓冲区构建器而不是布尔数组构建器来生成有效性映射
- ARROW-8789 - [Rust] 为集成测试二进制文件添加单独的 crate
- ARROW-8790 - [C++][CI] 在 s390x 上启用 arrow-flight-test
- ARROW-8791 - [Rust] 使用现有字典值创建 StringDictionaryBuilder
- ARROW-8792 - [C++] 改进的声明式计算函数/内核开发框架,规范化调用约定
- ARROW-8793 - [C++] BitUtil::SetBitsTo 可能不需要内联
- ARROW-8794 - [C++] 扩展从 parquet 读取 arrow 的基准测试覆盖率
- ARROW-8795 - [C++] 有限的 iOS 支持
- ARROW-8800 - [C++] 将 arrow::ChunkedArray 拆分为 arrow/chunked_array.h
- ARROW-8804 - [R][CI] Rtools40 升级的后续
- ARROW-8814 - [Dev][Release] 二进制上传脚本不断引发区域设置警告
- ARROW-8815 - [Dev][Release] 二进制上传脚本应在出现意外 bintray 请求错误时重试
- ARROW-8818 - [Rust] 由于 Flatbuffers/Union 问题导致无法在 master 上构建
- ARROW-8822 - [Rust] [DataFusion] 向 LogicalPlan 添加 MemoryScan 变体
- ARROW-8827 - [Integration Testing] Rust 集成测试的初始骨架
- ARROW-8830 - [GLib] 添加对不可查找 GIO 输出流再次告知的支持
- ARROW-8831 - [Rust] simd_compare_op 中不完整的 SIMD 实现
- ARROW-8833 - [Rust] 在集成测试二进制文件中实现 VALIDATE 模式
- ARROW-8834 - [Rust] 为集成测试实现 arrow-file-to-stream
- ARROW-8835 - [Rust] 为集成测试实现 arrow-stream-to-file
- ARROW-8836 - [Website] 自动更新版权结束年份
- ARROW-8837 - [Rust] 添加 Null 类型
- ARROW-8838 - [Rust] 文件读取器无法从有效文件中读取标头
- ARROW-8839 - [Rust] datafusion 逻辑计划应该支持在没有提供 schema 的情况下扫描 csv
- ARROW-8840 - [Rust] datafusion ExecutionError 应该实现 std::error:Error trait
- ARROW-8841 - [C++] 为 PLAIN spaced 添加基准测试和单元测试
- ARROW-8843 - [C++] 优化 BitmapEquals 未对齐情况
- ARROW-8844 - [C++] 优化 TransferBitmap 未对齐情况
- ARROW-8846 - [Dev][Python] 使用 Archery 自动格式化 Python 源代码
- ARROW-8847 - [C++] 在 Executor API 中传递任务大小/指标
- ARROW-8851 - [Python][Documentation] 修复 Python Plasma 文档中的 FutureWarnings
- ARROW-8852 - [R] 0.17.1 之后的调整
- ARROW-8854 - [Rust] [Integration Testing] 显示来自 arrow-json-integration-test 的输出
- ARROW-8855 - [Rust] [Integration Testing] 不支持 data type Date32(Day)
- ARROW-8856 - [Rust] [Integration Testing] 如果 MessageHeader 为 NONE,则返回空批次
- ARROW-8864 - [R] 为 Table/RecordBatch 添加与 data.frame 一致的方法
- ARROW-8866 - [C++] 将 Type::UNION 拆分为 Type::SPARSE_UNION 和 Type::DENSE_UNION
- ARROW-8867 - [R] 支持转换 POSIXlt 类型
- ARROW-8875 - [C++] 使用 AWS SDK SetResponseStreamFactory 以避免字节复制
- ARROW-8877 - [Rust] 添加 CSV 读取选项结构以简化 datafusion 接口
- ARROW-8880 - [R][Linux] 使 R 二进制安装更加友好
- ARROW-8881 - [Rust] 添加大型列表和二进制支持
- ARROW-8885 - [R] 不要到处包含所有内容
- ARROW-8886 - [C#] 决定并实现 Array 构建器调整为负尺寸时的适当行为
- ARROW-8887 - [Java] 在清除/写入循环的情况下,复杂向量的缓冲区大小迅速增加
- ARROW-8890 - [R] 修复 C++ lint 问题
- ARROW-8895 - [C++] 为时间类型输入(包括时间戳)的 filter 和 take 函数添加 C++ 单元测试
- ARROW-8896 - [C++] 使用 Take 重新实现 Cast 内核中的字典解包
- ARROW-8899 - [R] 添加 R 元数据(如 pandas 元数据)以实现往返保真度
- ARROW-8901 - [C++] 减少 take 内核的数量
- ARROW-8903 - [C++] 实现优化的“unsafe take”,用于内核执行的选择向量
- ARROW-8904 - [Python] 修复与子/字段相关的已弃用的 C++ API 的用法
- ARROW-8906 - [Rust] 支持读取多个 CSV 文件以进行模式推断
- ARROW-8907 - [Rust] 实现标量比较操作
- ARROW-8912 - [Ruby] 保留 Arrow::Buffer 数据的引用以进行 GC
- ARROW-8913 - [Ruby] 使用“field”代替“child”
- ARROW-8914 - [C++][Gandiva] Decimal128 相关测试在大端平台上失败
- ARROW-8915 - [Dev][Archery] 需要 Click 7
- ARROW-8917 - [C++][Compute] 正式化“metafunction”概念
- ARROW-8918 - [C++] 将 cast “metafunction” 添加到 FunctionRegistry,该函数处理调度到适当的类型特定的 CastFunction
- ARROW-8922 - [C++] 实现示例字符串标量内核函数,以帮助按照 ARROW-555 构建字符串内核
- ARROW-8923 - [C++] 通过将 ExecContext* 参数移动到末尾并添加默认值,提高 arrow::compute::CallFunction 的可用性
- ARROW-8926 - [C++] 改进 arrow/compute 中新公共 API 中的文档字符串,并修复各种拼写错误
- ARROW-8927 - [C++] 使用 cuda IPC 读取/写入记录批次时支持字典 memos
- ARROW-8929 - [C++] 将 compute::Arity:VarArgs min_args 默认值更改为 0
- ARROW-8931 - [Rust] 支持 arrow compute kernel 中的词法排序
- ARROW-8933 - [C++] 减少 vector_hash.cc 中生成的代码
- ARROW-8934 - [C++] 添加别名为 int64 subtract 实现的时间戳 subtract 内核
- ARROW-8937 - [C++] 添加“parse_strptime”函数,用于使用内核框架将字符串转换为时间戳
- ARROW-8938 - [R] 为 arrow::compute::CallFunction 提供绑定
- ARROW-8940 - [Java] 修复集成测试的性能下降
- ARROW-8941 - [C++/Python] arrow-nightlies conda 存储库已满
- ARROW-8942 - [R] 检测读取 CSV/JSON 中的压缩
- ARROW-8943 - [C++][Dataset] 向 ParquetDatasetFactory 添加对 Partitioning 的支持
- ARROW-8950 - [C++] 使 s3fs 中的 head 可选
- ARROW-8958 - [FlightRPC][Python] 为 Python 实现 Flight DoExchange
- ARROW-8960 - [MINOR] [FORMAT] 修复注释中的拼写错误
- ARROW-8961 - [C++] 将 utf8proc 库添加到工具链
- ARROW-8963 - [C++][Parquet] Parquet cpp 优化分配内存
- ARROW-8965 - [Python][Documentation] Pyarrow 文档中有关 pip nightlies 的引用指向 404 的位置
- ARROW-8966 - [C++] 将 arrow::ArrayData 移动到单独的头文件中
- ARROW-8969 - [C++] 减少 compute/kernels/scalar_compare.cc 中生成的代码
- ARROW-8970 - [C++] 减少共享库/二进制代码大小(总括问题)
- ARROW-8972 - [Java] 支持大型 varchar/varbinary 向量的范围值比较
- ARROW-8973 - [Java] 支持大型 varchar/varbinary 向量的批处理值追加
- ARROW-8974 - [C++] 改进 TransferBitmap 模板参数
- ARROW-8976 - [C++] compute::CallFunction 无法对 ChunkedArray 进行 Filter/Take 操作
- ARROW-8979 - [C++] 实现位图字读取器和写入器
- ARROW-8984 - [R] 现在 Windows conda 包已存在,请修改安装指南
- ARROW-8985 - [Format] 向 Decimal Flatbuffers 类型添加默认值为 16 的“byte width”字段,以实现向前兼容
- ARROW-8989 - [C++] 记录 compute::FunctionRegistry 中可用的函数
- ARROW-8993 - [Rust] 支持在文本读取器中读取不可查找的源
- ARROW-8994 - [C++] 禁用 include-what-you-use cpplint lint 检查
- ARROW-8996 - [C++] Aggregate Sum/Mean 内核的运行时 SIMD 路径
- ARROW-8997 - [Archery] 基准测试格式化程序应该有友好的单位
- ARROW-9004 - [C++][Gandiva] 支持使用 LLVM 10 构建
- ARROW-9005 - [Rust] [DataFusion] 支持排序表达式
- ARROW-9007 - [Rust] 支持通过合并数组数据来追加数组
- ARROW-9014 - [Packaging] 增加 crossbow 中自动生成的版本的次要部分
- ARROW-9015 - [Java] 使 BaseAllocator 包私有
- ARROW-9016 - [Java] 删除对 Netty/Unsafe Allocators 的直接引用
- ARROW-9017 - [Python] 重构 Scalar 类
- ARROW-9018 - [C++] 删除在 0.17.x 及更早版本中已弃用的 API
- ARROW-9021 - [Python] parquet.read_table 中的 filesystem 关键字未记录
- ARROW-9022 - [C++] 具有溢出检查的 Add/Sub/Mul 算术内核
- ARROW-9029 - [C++] 实现 BitBlockCounter 接口,用于有效位图的按块 popcount
- ARROW-9030 - [Python] 清理一些 pyarrow.compat 的用法,将一些通用函数/符号移动到 lib.pyx
- ARROW-9031 - [R] 实现从 Type::UINT64 到 R 向量的转换
- ARROW-9032 - [C++] 将 arrow/util/bit_util.h 分割成多个头文件
- ARROW-9034 - [C++] 实现 BitBlockCounter 的二进制(两位图)版本
- ARROW-9042 - [C++] 添加具有环绕行为的 Subtract 和 Multiply 算术内核
- ARROW-9043 - [Go] 暂时将 LICENSE.txt 复制到 go/
- ARROW-9043 - [Go] 暂时将 LICENSE.txt 复制到 go/
- ARROW-9045 - [C++] 改进并扩展 Take/Filter 基准测试
- ARROW-9046 - [C++][R] 将更多内容放入 type_fwds
- ARROW-9047 - [Rust] 设置 0 长度位集的 0 位会导致段错误
- ARROW-9050 - [Release] 使用 1.0.0 作为下一个版本
- ARROW-9051 - [GLib] 从 Array 引用 Array 相关对象
- ARROW-9052 - [CI][MinGW] 启用 Gandiva
- ARROW-9055 - [C++] 为 Boolean 类型添加 sum/mean 内核
- ARROW-9058 - [Packaging][wheel] Boost 下载失败
- ARROW-9060 - [GLib] 添加对使用未安装的 Apache Arrow Datasets 构建 Apache Arrow Datasets GLib 的支持
- ARROW-9061 - [Packaging][APT][Yum][GLib] 添加 Apache Arrow Datasets GLib
- ARROW-9062 - [Rust] 支持将 JSON 读取到字典类型
- ARROW-9067 - [C++] 创建可重用的无分支/矢量化索引边界检查函数
- ARROW-9070 - [C++] StructScalar 需要字段访问器方法
- ARROW-9073 - [C++] RapidJSON 包含目录检测无法与 RapidJSONConfig.cmake 一起使用
- ARROW-9074 - [GLib] 添加缺少的 arrow-json 检查
- ARROW-9075 - [C++] 优化 Filter 实现
- ARROW-9079 - [C++] 编写算术内核的基准测试
- ARROW-9083 - [R] 如果未超出范围,则将 int64、uint32、uint64 收集为 R 整数类型
- ARROW-9086 - [CI][Homebrew] 启用 Gandiva
- ARROW-9088 - [Rust] 最近版本的 arrow crate 无法编译为 wasm 目标
- ARROW-9089 - [Python] 基于 fsspec 的文件系统的 PyFileSystem 处理程序
- ARROW-9090 - [C++] 提升捆绑库的版本
- ARROW-9091 - [C++] 当没有将选项传递给需要它们的函数时,使用函数的默认选项来调用 CallFunction
- ARROW-9093 - [FlightRPC][C++][Python] 允许设置 gRPC 客户端选项
- ARROW-9094 - [Python] 提高 manylinux wheels 中编译依赖项的版本
- ARROW-9095 - [Rust] 修复 NullArray 以符合规范
- ARROW-9099 - [C++][Gandiva] 添加字符串的 TRIM 函数
- ARROW-9100 - [C++] 添加 ascii_lower 内核
- ARROW-9101 - [Doc][C++][Python] 记录 CSV 和 JSON 读取器期望的编码
- ARROW-9102 - [Packaging] 上传构建的 manylinux docker 镜像
- ARROW-9106 - [C++] 添加 C++ 基础以简化文件转码
- ARROW-9108 - [C++][Dataset] 为时间戳列添加 Parquet 统计信息转换
- ARROW-9109 - [Python][Packaging] 在 manylinux wheels 中启用 S3 支持
- ARROW-9110 - [C++] 修复 macOS 上的 CPU 缓存大小检测
- ARROW-9112 - [R] 更新 autobrew 脚本位置
- ARROW-9115 - [C++] 在 ascii_lower / ascii_upper 内核中批量处理数据缓冲区,而不是使用 string_view 值迭代
- ARROW-9116 - [C++] 添加 BinaryArray::total_values_length()
- ARROW-9116 - [C++] 添加 BinaryArray::total_values_length()
- ARROW-9118 - [C++] 添加更通用的 BoundsCheck 函数,该函数还检查整数数组中的任意下限
- ARROW-9119 - [C++] 添加对使用系统静态 gRPC 进行构建的支持
- ARROW-9123 - [Python][wheel] 显式使用 libzstd.a
- ARROW-9124 - [Rust][Datafusion] DFParser 应该使用 sql 查询作为 &str 而不是 String
- ARROW-9125 - [C++] 为 Valgrind 添加缺少的 arrow::internal::ZeroMemory() include
- ARROW-9129 - [Python][JPype] 使用 JPype 0.7.5 时测试失败
- ARROW-9130 - [Python] 为 1.0.0 版本添加弃用的包装器函数到 pyarrow/compat.py 模块,这些函数将在以后删除
- ARROW-9131 - [C++] 更快的 ascii_lower 和 ascii_upper
- ARROW-9132 - [C++] 为具有常量字典的字典数据实现哈希内核
- ARROW-9133 - [C++] 添加 utf8_upper 和 utf8_lower
- ARROW-9137 - [GLib][Ruby] 允许以块(按 RowGroup)读取 Parquet 文件
- ARROW-9138 - [Docs][Format] 确保格式版本在文档中是硬编码的
- ARROW-9139 - [Python] parquet read_table 应该不使用 use_legacy_dataset
- ARROW-9144 - [CI] OSS-Fuzz 构建失败,因为 google 存储库中的最新更改
- ARROW-9145 - [C++] 将 true_count / false_count 方法添加到 BooleanArray
- ARROW-9152 - [C++] 为 varbinary 类型创建专门的过滤器实现
- ARROW-9153 - [Python] 为 StructScalar 添加绑定
- ARROW-9154 - [Developer] 更好地使用 GitHub issue 模板
- ARROW-9155 - [Archery] 对于“archery benchmark diff”,使用不太精确但更快的默认设置
- ARROW-9156 - [C++] 减小 tensor 模块的代码大小
- ARROW-9157 - [Rust][Datafusion] 执行上下文的 create_physical_plan 应该将 self 作为不可变引用
- ARROW-9158 - [Rust][Datafusion] Projection physical plan 编译应该保留可空性
- ARROW-9159 - [Python] 公开 isnull/isvalid 内核
- ARROW-9162 - [Python] 公开 Add/Subtract/Multiply 算术内核
- ARROW-9163 - [C++] 将方法添加到 StringArray、LargeStringArray,以验证其值是否全部为 UTF-8
- ARROW-9166 - [Website] 添加概述页面
- ARROW-9167 - [Doc][Website] /docs/c_glib/index.html 被覆盖
- ARROW-9168 - [C++][Flight] 允许 flight benchmark 使用分离的 TCP 连接
- ARROW-9173 - [C++] 文档说明如何从第三方 CMake 项目中使用 Arrow
- ARROW-9175 - [FlightRPC][C++][Python] 公开连接的 peer
- ARROW-9176 - [Rust] 修复 Arrow 分配器中的内存泄漏
- ARROW-9178 - [R] 改进有关 CSV 读取器的文档
- ARROW-9179 - [R] 替换测试中 iris 数据集的使用
- ARROW-9180 - [Developer] 删除 whitelist、blacklist、slave 等的使用
- ARROW-9181 - [C++] 在 Cast 内核实现中实例化更少的模板
- ARROW-9182 - [C++] 将“applicator”命名空间用于内核运算符到内核函子,简化参数拆箱
- ARROW-9185 - [C++] [Java][Gandiva] 使 llvm 构建优化可从 java 配置
- ARROW-9188 - [C++] 不要总是静态链接 Brotli 库
- ARROW-9189 - [Website] 改进贡献者指南
- ARROW-9190 - [Website][C++] 添加一篇关于使构建更轻便和更容易的努力的博客文章
- ARROW-9191 - [Rust] 当 int96 毫秒为负时,不要 panic
- ARROW-9192 - [CI][Rust] 添加对运行 clippy 的支持
- ARROW-9193 - [C++] 添加从 null 终止的字符串解析日期的方法
- ARROW-9197 - [C++] 改进数字类型转换:更快的性能和更小的二进制大小
- ARROW-9201 - [Archery] 在使用“archery benchmark diff”时渲染人类可读的表格
- ARROW-9202 - [GLib] 添加 GArrowDatum
- ARROW-9203 - [Packaging][deb] 添加缺少的 gir1.2-arrow-dataset-1.0.install
- ARROW-9204 - [C++][Flight] 在 flight benchmark 中将 records_per_stream 更改为 int64
- ARROW-9205 - [Documentation] 修复 Columnar.rst 中的拼写错误
- ARROW-9206 - [C++][Flight] 在 flight benchmark 中测量延迟
- ARROW-9207 - [Python][Dataset] 清理内部 FileSource 类
- ARROW-9210 - [C++] 在 ArrayDataInlineVisitor 中使用 OptionalBitBlockCounter
- ARROW-9214 - [C++] 在 arrow/visitor_inline.h 中避免使用 util::optional,而使用单独的可内联函数
- ARROW-9216 - [C++][Parquet] 使用 BitBlockCounter 进行纯间隔编码/解码
- ARROW-9217 - [C++][Parquet] 覆盖 0.01% null 以进行纯间隔编码/解码基准测试
- ARROW-9220 - [C++] 如果 ARROW_WITH_UTF8PROC=OFF,则禁用相关的 compute 内核
- ARROW-9222 - [Format][Proposal] 从 Union 类型中删除有效性位图
- ARROW-9224 - [Dev][Archery] 在克隆失败时复制本地 repo
- ARROW-9225 - [C++][Compute] 改进计数排序
- ARROW-9231 - [Format] 将 MetadataVersion 从 V4 增加到 V5
- ARROW-9234 - [GLib][CUDA] 添加对从缓冲区读取 record batch 时使用字典 memo 的支持
- ARROW-9241 - [C++] 为 Decimal::bitWidth 添加前向兼容性检查
- ARROW-9242 - [Java] 为 Decimal::bitWidth 添加前向兼容性检查
- ARROW-9247 - [Python] 在绑定中公开 BinaryArray::total_values_length
- ARROW-9248 - [C++] 添加“list_size”函数,该函数返回 Int32Array/Int64Array,给出列表单元格大小
- ARROW-9249 - [C++] 实现 “list_parent_indices” 向量函数
- ARROW-9250 - [C++] 使用与 vector_hash.cc 相同的方法,压缩 compute/kernels/scalar_set_lookup.cc 中生成的代码
- ARROW-9251 - [C++] 将 JSON 测试代码从集成测试移到 libarrow_testing
- ARROW-9254 - [C++] 提取一些整数转换内部结构,以便可以将其与时间类型转换一起重用
- ARROW-9255 - [C++] 使用 CMake 构建捆绑的 Protobuf,CMake >= 3.7
- ARROW-9256 - [C++] 变量名称 ARROW_CXX_FLAGS 不正确
- ARROW-9258 - [Format] 添加 V5 MetadataVersion
- ARROW-9259 - [Format] 允许 Columnar.rst 中使用无符号字典索引
- ARROW-9262 - [Packaging][Linux][CI] 使用 Ubuntu 18.04 在 Travis CI 上构建 ARM64 包
- ARROW-9263 - [C++] Benchmark: 将 RegressionSetArgs 大小提升到 L2
- ARROW-9264 - [C++] 清理 Parquet Arrow Schema 代码
- ARROW-9265 - [C++] 添加对写入 MetadataVersion::V4 兼容 IPC 消息的支持,以便与库版本 <= 0.17.1 兼容
- ARROW-9268 - [C++] 为字符串添加 is{alnum,alpha,…} 内核
- ARROW-9272 - [C++][Python] 降低 python 到 arrow 转换的复杂性
- ARROW-9276 - [Dev] 在生成 API 文档时启用 ARROW_CUDA
- ARROW-9277 - [C++] 修复读取 CSV 文件的文档
- ARROW-9278 - [C++] 实现来自 ARROW-9222 的 Union 有效性位图更改
- ARROW-9280 - [Rust] 将统计信息写入 Parquet 文件
- ARROW-9281 - [R] 在 R 构建中关闭 utf8proc
- ARROW-9283 - [Python] 公开 C++ 构建信息
- ARROW-9287 - [C++] 实现对无符号字典索引的支持
- ARROW-9289 - [R] 删除弃用的函数
- ARROW-9290 - [Rust] [Parquet] 添加功能以允许选择退出依赖项
- ARROW-9291 - [R] 支持固定大小的二进制/列表类型
- ARROW-9292 - [Rust] 使用通过测试更新特征矩阵
- ARROW-9294 - [GLib] 添加 GArrowFunction
- ARROW-9300 - [Java] 将 Netty Memory 分离到自己的模块
- ARROW-9306 - [Ruby] 添加对 Arrow::RecordBatch.new(raw_table) 的支持
- ARROW-9307 - [Ruby] 添加 Arrow::RecordBatchIterator#to_a
- ARROW-9308 - [Format] 将 Feature 枚举添加到 schema.fbs 以实现前向兼容
- ARROW-9316 - [C++] 使用 “Dataset” 而不是 “Datasets”
- ARROW-9321 - [C++][Dataset] 允许为 ParquetFragment 行组“收集”统计信息,如果不是从 _metadata 构建的
- ARROW-9322 - [R] Dataset 文档润色
- ARROW-9323 - [Ruby] 添加 Red Arrow Dataset
- ARROW-9327 - 修复 arrow crate 的所有 clippy 错误
- ARROW-9328 - [C++][Gandiva] 为字符串添加 LTRIM, RTRIM, BTRIM 函数
- ARROW-9329 - [C++][Gandiva] 实现 castTimestampToDate 函数
- ARROW-9331 - [C++] 提高 Tensor-to-SparseTensor 转换的性能
- ARROW-9333 - [Python] 在 Python 中公开更多 IPC 写入选项
- ARROW-9335 - [Website] 更新 1.0 版本的网站
- ARROW-9337 - [R] 在 C++ 库构建失败时,给出明确的消息
- ARROW-9339 - [Rust] Arrow README 中关于 SIMD 的注释不正确
- ARROW-9340 - [R] 使用 CRAN 版本的 decor 包
- ARROW-9341 - [GLib] 使用 arrow::Datum 版本的 Take()
- ARROW-9345 - [C++][Dataset] 字典类型表达式应与值类型的操作数一起使用
- ARROW-9346 - [C++][Python][Dataset] 向 RowGroupInfo 添加 total_byte_size 元数据
- ARROW-9362 - [Java] 添加对写入与库版本 <= 0.17.1 兼容的 MetadataVersion::V4 兼容 IPC 消息的支持
- ARROW-9365 - [Go] 在 NewBuilder 中实现剩余的类型化数组构建器
- ARROW-9370 - [Java] 升级 Netty 版本
- ARROW-9374 - [C++][Python] 公开 MakeArrayFromScalar
- ARROW-9379 - [Rust] 支持无符号字典索引
- ARROW-9383 - [Python] 通过 fs handler 在 Dataset API 中支持 fsspec 文件系统
- ARROW-9386 - [Rust] RecordBatch.schema() 不应返回 &Arc<Schema>
- ARROW-9390 - [C++] 审查计算函数名称
- ARROW-9390 - [C++] 审查计算函数名称
- ARROW-9390 - [C++] 审查计算函数名称
- ARROW-9391 - [Rust] 当 record batch 只有一行时,Float32 值被解释为零
- ARROW-9393 - [Doc] 更新 Java 支持的类型文档
- ARROW-9395 - [Python] 在 IPC API 中提供可配置的 MetadataVersion 和环境变量,以便在需要时将默认值设置为 V4
- ARROW-9399 - [C++] 为无法识别的未来 MetadataVersion 添加向前兼容性检查
- ARROW-9403 - [Python] 添加 .tolist 作为 .to_pylist 的别名
- ARROW-9407 - [Python] 接受 pd.NA 作为数组构造函数中的缺失值
- ARROW-9411 - [Rust] 更新依赖项
- ARROW-9424 - [C++][Parquet] 禁用使用 LZ4 编解码器写入文件
- ARROW-9425 - [Rust][DataFusion] 使 ExecutionContext 在线程之间可共享
- ARROW-9427 - [Rust][DataFusion] 添加 pub fn ExecutionContext.tables()
- ARROW-9437 - [Python][Packaging] Homebrew 无法在 macOS wheel 构建中安装构建依赖项
- ARROW-9442 - [Python] 不要强制在 pyarrow_wrap_table 中调用 Validate()
- ARROW-9445 - [Python] 恢复 Array.equals 更改 + 在 compute 中公开比较操作
- ARROW-9446 - [C++] 在 BuildInfo 中导出编译器信息
- ARROW-9447 - [Rust][DataFusion] 允许闭包作为 ScalarUDFs
- ARROW-9452 - [Rust] [DateFusion] 提高 parquet 扫描的性能
- ARROW-9470 - [CI][Java] 并行运行 Maven
- ARROW-9472 - [R] 在 IPC API 中提供可配置的 MetadataVersion 和环境变量,以便在需要时将默认值设置为 V4
- ARROW-9473 - [Doc] 为 1.0 润色
- ARROW-9478 - [C++] 改进不支持的强制转换类型上的错误消息
- ARROW-9484 - [Docs] 将 is* 函数更新为 compute 文档中的 is_*
- ARROW-9485 - [R] 更好的共享库剥离
- ARROW-9493 - [Python][Dataset] 默认情况下,字典编码字符串分区列
- ARROW-9508 - [Release][APT][Yum] 启用 arm64 二进制文件的验证
- ARROW-9509 - [Release] 不要在 windows wheel 验证脚本中测试 Gandiva
- ARROW-9511 - [Packaging][Release] 将 conda 包的构建编号设置为 0
- ARROW-9519 - [Rust] 改进从 schema 按名称获取字段时的错误消息
- ARROW-9529 - [Dev][Release] 改进发布验证脚本
- ARROW-9531 - [Packaging][Release] 更新 conda forge 依赖项固定
- ARROW-9534 - [Rust] [DataFusion] 实现用于为所有类型创建文字表达式的函数
- PARQUET-1820 - [C++] 使用列筛选器提示来通知 Arrow 读取中的读取预取
- PARQUET-1843 - [C++] DictDecoderImpl::Decode 中的不必要赋值
- PARQUET-1855 - [C++] 改进关于 MetaData 所有权的文档
- PARQUET-1861 - [Documentation][C++] 解释 ReaderProperters.buffer_stream*