Apache Arrow 1.0.0 (2020年7月24日)
这是一个涵盖超过3个月开发的大版本发布。
下载
贡献者
此版本包括来自100位不同贡献者的771次提交。
$ git shortlog -sn apache-arrow-0.17.0..apache-arrow-1.0.0
125 Wes McKinney
72 Neal Richardson
61 Antoine Pitrou
56 Sutou Kouhei
55 Krisztián Szűcs
30 Joris Van den Bossche
24 Benjamin Kietzman
23 David Li
21 Kazuaki Ishizaki
19 Qingping Hou
18 Andy Grove
18 François Saint-Jacques
17 Neville Dipale
16 Yibo Cai
16 liyafan82
15 Ryan Murray
14 Micah Kornfield
10 Uwe L. Korn
9 Paddy Horan
8 Jorge C. Leitao
8 Projjal Chanda
7 Frank Du
7 Romain Francois
6 Kenta Murata
6 Maarten A. Breddels
6 Max Burke
5 Mahmut Bulut
4 Mark Hildreth
4 Yuan Zhou
3 Adam Szmigin
3 Raphael Taylor-Davies
3 Zhuo Peng
3 rdettai
2 Bobby Wagner
2 Eric Erhardt
2 Prudhvi Porandla
2 R. Tyler Croy
2 Sagnik Chakraborty
2 Vamsi
2 Yordan Pavlov
2 c-jamie
2 dota17
2 mayuropensource
2 tianchen
2 tianchen92
1 Alex Baden
1 Ben Kimock
1 Bryan Cutler
1 Chad Dougherty
1 Christian Hudon
1 Cuong Nguyen
1 David Anthoff
1 Dmitry Kalinkin
1 Drazen Urch
1 Erin Ryan
1 Eyal Leshem
1 Frank Smith
1 German I Ramirez-Espinoza
1 Hongze Zhang
1 Ilija Puaca
1 Itamar Turner-Trauring
1 Jacek Pliszka
1 Jens Glaser
1 Ji Liu
1 Jörn Horstmann
1 Kyle Brandt
1 Kyle McCarthy
1 Laurent Goujon
1 Li, Jiajia
1 Maarten Breddels
1 Masaki Kozuki
1 Mohamed Zenadi
1 Nick Poorman
1 Pand9
1 Paul Dix
1 Paul Taylor
1 Praveen
1 Robert Borkowski
1 Rok
1 Sergey Fedoseev
1 Shuai Zhang
1 Simon Watts
1 Stéphane Campinas
1 Suvayu Ali
1 Sven Wagner-Boysen
1 TP Boudreau
1 Takuya Kato
1 Tobias Mayer
1 Wakahisa
1 Weston Steimel
1 Yuqi Gu
1 Zachary Gramana
1 Ze'ev Maor
1 alamb
1 alimcmaster1
1 amol
1 chenguoping
1 ritchie46
1 rvernica
1 xuyiming
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-0.17.0..apache-arrow-1.0.0
231 Wes McKinney
85 Antoine Pitrou
74 Krisztián Szűcs
68 Neal Richardson
67 Sutou Kouhei
44 François Saint-Jacques
35 Andy Grove
34 Neville Dipale
21 Benjamin Kietzman
17 GitHub
17 Micah Kornfield
12 Chao Sun
12 Paddy Horan
8 David Li
8 Praveen
7 Joris Van den Bossche
5 Bryan Cutler
5 Eric Erhardt
5 Uwe L. Korn
4 Yosuke Shiro
3 Jacques Nadeau
3 Pindikura Ravindra
3 Sebastien Binet
2 liyafan82
1 Kenta Murata
更新日志
Apache Arrow 1.0.0 (2020-07-24)
Bug 修复
- ARROW-1692 - [Python, Java] UnionArray 往返转换不工作
- ARROW-3329 - [Python] 将 decimal(38, 4) 转换为 int64 时出错
- ARROW-3861 - [Python] ParquetDataset().read 的 columns 参数总是返回分区列
- ARROW-4018 - [C++] RLE 解码器可能与大端字节序不兼容
- ARROW-4309 - [文档] 添加一个 docker-compose 条目,用于在启用 CUDA 的情况下构建文档
- ARROW-4600 - [Ruby] Arrow::DictionaryArray#[] 应该返回索引数组中的项
- ARROW-5158 - [打包][Wheel] 在 wheel 包中创建库的符号链接
- ARROW-5310 - [Python] 从空目录创建 ParquetDataset 时提供更好的错误信息
- ARROW-5359 - [Python] 在 pyarrow 中为 pa.Table.to_pandas 提供 timestamp_as_object 支持
- ARROW-5572 - [Python] 在 parquet 读取中传递无效过滤器时引发错误信息
- ARROW-5666 - [Python] 读取数据集时,分区(字符串)值中的下划线被丢弃
- ARROW-5744 - [C++] 对于超出 2GB 限制的 BinaryArray 类型,Table::CombineChunks 不应报错
- ARROW-5875 - [FlightRPC] 在集成测试中测试 RPC 功能
- ARROW-6235 - [R] 从 arrow::BinaryArray 到 R 字符向量的转换未实现
- ARROW-6523 - [C++][Dataset] arrow_dataset 目标不依赖于任何东西
- ARROW-6848 - [C++] 构建时指定 -std=c++11 而不是 -std=gnu++11
- ARROW-7018 - [R] Arrow <--> R 转换中的非 UTF-8 数据
- ARROW-7028 - [R] Date 类型的往返转换导致不同的 R 存储模式
- ARROW-7084 - [C++] ArrayRangeEquals 是否应该检查完全的类型相等性?
- ARROW-7173 - [集成] 添加测试以验证 Map 字段名称可以是任意的
- ARROW-7208 - [Python] 将目录传递给 ParquetFile 类时出现令人困惑的错误信息
- ARROW-7273 - [Python] 写入 parquet 时允许不可为空的空字段/导致崩溃
- ARROW-7480 - [Rust] [DataFusion] 当聚合和分组的列与所选列不匹配时,查询失败/不正确
- ARROW-7610 - [Java] 完成对 64 位整数分配的支持
- ARROW-7654 - [Python] 在 csv.ConvertOptions 中将 column_types 设置为 Schema 的能力未被文档化
- ARROW-7681 - [Rust] 显式寻址 BufReader 将丢弃内部缓冲区
- ARROW-7702 - [C++][Dataset] 提供(可选的)批处理的确定性顺序
- ARROW-7782 - [Python] 使用带有 partition_cols 的 write_to_dataset 时丢失索引信息
- ARROW-7840 - [Java] [集成] Java 可执行文件失败
- ARROW-7925 - [C++][文档] cpp/development.rst 中关于运行 IWYU 和其他任务的说明已过时
- ARROW-7939 - [Python] 读取使用 snappy 压缩的 parquet 文件时崩溃
- ARROW-7967 - [CI][Crossbow] 在 autobrew 作业中固定 macOS 版本以匹配 CRAN
- ARROW-8050 - [Python][打包] 不要在 wheel 包中包含生成的 Cython 源文件
- ARROW-8078 - [Python] 文档中缺少关于字段和模式 DataTypes 的链接
- ARROW-8115 - [Python] 混合 NaT 和 datetime 对象时的转换不工作
- ARROW-8251 - [Python] pandas.ExtensionDtype 在使用 write_to_dataset 进行往返转换后无法保留
- ARROW-8344 - [C#] StringArray.Builder.Clear() 损坏了后续构建的数组内容
- ARROW-8360 - [C++][Gandiva] 修复日期/时间函数的 date32 支持
- ARROW-8374 - [R] 当每个数组的字典不同时,将表转换为 DictonaryType 向量会出错
- ARROW-8392 - [Java] 修复向量值比较中与溢出相关的边界情况
- ARROW-8448 - [包] 无法使用 ubuntu-focal 构建 apt 包
- ARROW-8455 - [Rust] [Parquet] 在部分兼容的文件上读取 Arrow 列
- ARROW-8455 - [Rust] [Parquet] 在部分兼容的文件上读取 Arrow 列
- ARROW-8471 - [C++][集成] /u?int64/ 作为 JSON::number 的回归
- ARROW-8472 - [Go][集成] 将 64 位整数表示为 JSON::string
- ARROW-8473 - [Rust] rust/parquet readme 中的“统计支持”不正确
- ARROW-8480 - [Rust] 没有对分配失败进行检查
- ARROW-8503 - [打包][deb] 无法为 RC 构建 apache-arrow-archive-keyring
- ARROW-8505 - [发布][C#] "sourcelink test" 因 Apache.Arrow.AssemblyInfo.cs 失败
- ARROW-8508 - [Rust] ListBuilder of FixedSizeListBuilder 创建了错误的偏移量
- ARROW-8510 - [C++] arrow/dataset/file_base.cc 使用 "Visual Studio 15 2017 Win64" 生成器编译时出现内部编译器错误
- ARROW-8511 - [开发者][发布] 如果 C++ 编译失败,Windows 发布验证脚本不会停止
- ARROW-8514 - [开发者] Windows wheel 验证脚本不检查 Python 3.5
- ARROW-8529 - [C++] 修复 GetBatchWithDict[Spaced] 中 NextCounts() 的使用
- ARROW-8535 - [Rust] Arrow crate 没有指定 arrow-flight 版本
- ARROW-8536 - [Rust] 未能在任何父目录中找到 format/Flight.proto
- ARROW-8537 - [C++] 来自 ARROW-8523 的性能回归
- ARROW-8539 - [CI] "AMD64 MacOS 10.15 GLib & Ruby" 失败
- ARROW-8554 - [C++][基准测试] 修复构建错误 "cannot bind lvalue"
- ARROW-8556 - [R] 如果有多个 zstd 安装,则找不到 zstd 符号
- ARROW-8566 - [R] 将 POSIXct 写入 spark 时出错
- ARROW-8568 - [C++][Python] 在调试模式下进行 decimal 转换时崩溃
- ARROW-8577 - [Plasma] 在没有 CUDA 设备的机器上,启用 CUDA 的构建的 PlasmaClient::Connect() 总是失败
- ARROW-8583 - [C++][文档] Dataset 命名空间中未记录的参数
- ARROW-8584 - [打包][C++] deb 构建中的 Protobuf 链接错误
- ARROW-8585 - [打包][Python] 由于链接错误,Windows wheel 构建失败
- ARROW-8586 - [R] 在 CentOS 7 上安装失败
- ARROW-8587 - [C++] 链接 arrow-flight-perf-server 时编译错误
- ARROW-8592 - [C++] 文档仍然将 LLVM 7 列为使用的编译器
- ARROW-8593 - [C++] Parquet file_serialize_test.cc 在使用 musl libc 构建时失败
- ARROW-8598 - [Rust] 当项目数不是 T::lanes() 的倍数时,simd_compare_op 创建的缓冲区长度不正确
- ARROW-8602 - [CMake] 修复在 Linux 上交叉编译时的 ws2_32 链接问题
- ARROW-8603 - [文档] 修复 Sphinx doxygen 注释
- ARROW-8604 - [R][CI] 更新 CI 以使用 R 4.0
- ARROW-8608 - [C++] 将 vendored 的 mpark/variant.h 更新到最新版本以修复 NVCC 编译问题
- ARROW-8609 - [C++] ORC JNI 桥在空 arrow 缓冲区上崩溃
- ARROW-8610 - [Rust] 禁用 simd 功能时运行 arrow crate 时出现 DivideByZero 错误
- ARROW-8613 - [C++][Dataset] 对无法解析的分区值引发错误
- ARROW-8615 - [R] 在 read_feather 中更好地处理错误并坚持使用 RandomAccessFile
- ARROW-8617 - [Rust] aarch64 上不存在 simd_load_set_invalid
- ARROW-8632 - [C++] 修复 array_union_test.cc 中的转换错误警告
- ARROW-8641 - [Python] feather 回归:不再支持列选择中的排列
- ARROW-8643 - [Python] 由于 freq 断言,使用 pandas master 的测试失败
- ARROW-8644 - [Python] 由于不包含分区列的更改,Dask 集成测试失败
- ARROW-8646 - [Java] 允许 UnionListWriter 写入空值
- ARROW-8649 - [Java] [网站] 网站上的 Java 文档被隐藏
- ARROW-8657 - [Python][C++][Parquet] 使用 version='2.0' 时从 0.16 到 0.17 的前向兼容性问题
- ARROW-8663 - [文档] 对 building.rst 的小修正
- ARROW-8680 - [Rust] ComplexObjectArrayReader 不正确的空值洗牌
- ARROW-8684 - [Python] 在 macOS 上使用 pyarrow wheel 时,Python 3.7.7 中出现 "SystemError: Bad call flags in _PyMethodDef_RawFastCallDict"
- ARROW-8689 - [C++] S3 基准测试链接失败
- ARROW-8693 - [Python] Dataset.get_fragments 在过滤时缺少隐式转换
- ARROW-8694 - [Python][Parquet] 从 Pandas DataFrame 创建宽表时,parquet.read_schema() 失败
- ARROW-8701 - [Rust] 在 Raspberry Pi 上未解析的导入 `crate::compute::util::simd_load_set_invalid`
- ARROW-8704 - [C++] 修复 Parquet 在无效输入上的崩溃 (OSS-Fuzz)
- ARROW-8705 - [Java] ComplexCopier 正在跳过空值
- ARROW-8706 - [C++][Parquet] 跟踪 PARQUET-1857 的 JIRA(未加密的 INT16_MAX Parquet 行组限制)
- ARROW-8710 - [Rust] IPC 写入器中连续标记未正确写入,且流未刷新
- ARROW-8722 - [Dev] "archery docker run -e" 不工作
- ARROW-8726 - [C++][Dataset] 错误指定的 DirectoryPartitioning 错误地将文件名用作值
- ARROW-8728 - [C++] 位图操作可能导致缓冲区溢出
- ARROW-8729 - [C++][Dataset] 仅选择一个分区列会导致空表
- ARROW-8734 - [R] 改进夜间构建安装
- ARROW-8741 - [Python][打包] 为 windows wheel 保留 VS2015
- ARROW-8750 - [Python] 如果 lz4 压缩可用,pyarrow.feather.write_feather 不会默认使用它
- ARROW-8768 - [R][CI] 修复夜间 as-cran 虚假失败
- ARROW-8775 - [C++][FlightRPC] 集成客户端不运行集成测试
- ARROW-8776 - [FlightRPC][C++] Flight/C++ 中间件在对 Java 服务器的失败调用中未收到头信息
- ARROW-8798 - [C++] 修复 Parquet 在无效输入上的崩溃 (OSS-Fuzz)
- ARROW-8799 - [C++][Dataset] 将列表列读取为嵌套字典时出现段错误
- ARROW-8801 - [Python] 使用 pandas 从带有 UTC 时间戳的 parquet 文件读取时出现内存泄漏
- ARROW-8802 - [C++][Dataset] 读取列的子集时,模式元数据会丢失
- ARROW-8803 - [Java] 在 VectorLoader 中加载缓冲区之前应设置行数
- ARROW-8808 - [Rust] 在 arrays/builder.rs 中除以零
- ARROW-8809 - [Rust] 集成测试中模式不匹配
- ARROW-8811 - [Java] 修复 master 分支的构建
- ARROW-8820 - [C++][Gandiva] 修复 date_trunc 函数以返回日期类型
- ARROW-8821 - [Rust] 带有 Like、NotLike 和 Not 运算符的嵌套二进制表达式导致类型转换错误
- ARROW-8825 - [C++] 无法使用 Wunused-parameter 标志编译通过
- ARROW-8826 - [Crossbow] 远程 URL 应始终带有 .git
- ARROW-8832 - [Python] AttributeError: 模块 'pyarrow.fs' 没有属性 'S3FileSystem'
- ARROW-8848 - [CI][C/Glib] MinGW 构建错误
- ARROW-8848 - [CI][C/Glib] MinGW 构建错误
- ARROW-8858 - [FlightRPC] 确保头信息被统一公开
- ARROW-8860 - [C++] 嵌套数组的 IPC/Feather 解压缩已损坏
- ARROW-8862 - [C++] NumericBuilder 不使用传递给构造函数的 MemoryPool
- ARROW-8863 - [C++] 当没有有效性位图时,Array 子类构造函数必须将 ArrayData::null_count 设置为 0
- ARROW-8869 - [Rust] [DataFusion] 类型强制转换优化器规则不支持新的扫描节点
- ARROW-8871 - [C++] Gandiva 构建失败
- ARROW-8872 - [CI] Travis-CI 作业失败 (can't open file 'ci/detect-changes.py')
- ARROW-8874 - [C++][Dataset] 当 ScanTask 因错误提前退出时,Scanner::ToTable 出现竞争条件
- ARROW-8878 - [R] 当 download.file.method 不是默认值时,try_download 会混淆
- ARROW-8882 - [C#] 将 .editorconfig 添加到 C# 代码
- ARROW-8888 - [Python] dataframe_to_arrays 中决定多线程转换的启发式方法导致转换缓慢
- ARROW-8889 - [Python] 将 RecordBatch 与 None 比较时 Python 3.7 SIGSEGV
- ARROW-8892 - [C++][CI] MSVC 的 CI 构建不构建基准测试
- ARROW-8909 - [Java] 使用 setSafe 乱序写入
- ARROW-8911 - [C++] 对零块的 ChunkedArray 进行切片时出现段错误
- ARROW-8924 - [C++][Gandiva] castDATE_date32() 可能导致溢出
- ARROW-8925 - [Rust] [DataFusion] CsvExec::schema() 返回不正确的结果
- ARROW-8930 - [C++] libz.so 与 liborc.a 的链接错误
- ARROW-8932 - [C++] 与 liborc.a 的符号解析失败
- ARROW-8946 - [Python] 为 parquet.write_metadata metadata_collector 添加测试
- ARROW-8948 - [Java][集成] 启用重复字段名称集成测试
- ARROW-8951 - [C++] 修复 compute/kernels/scalar_cast_temporal.cc 中的编译器警告
- ARROW-8954 - [网站] 安装说明中应列出 ca-certificates
- ARROW-8957 - [FlightRPC][C++] 由于 IpcOptions 导致构建失败
- ARROW-8959 - [Rust] 由于新的基准测试 crate 使用旧 API 导致构建中断
- ARROW-8962 - [C++] 使用 clang-4.0 链接失败
- ARROW-8968 - [C++][Gandiva] 在 s390x 上显示链接警告信息
- ARROW-8975 - [FlightRPC][C++] 修复不稳定的 MacOS 测试
- ARROW-8977 - [R] 使用某些字典索引类型时,带模式的 Table$create 会崩溃
- ARROW-8978 - [C++][Compute] "Conditional jump or move depends on uninitialised value(s)" Valgrind 警告
- ARROW-8980 - [Python] 从磁盘使用模式时元数据呈指数级增长
- ARROW-8982 - [CI] 在 TravisCI 中移除 s390x 的 allow_failures
- ARROW-8986 - [Archery][ursabot] 修复 origin/master 的基准测试差异检出
- ARROW-9000 - [Java] 使用 JDK14 构建崩溃
- ARROW-9009 - [C++][Dataset] 读取 Parquet 文件时应从模式的元数据中删除 ARROW:schema
- ARROW-9013 - [C++] 验证枚举式 CMake 选项
- ARROW-9020 - [Python] read_json 不遵守 parse_options 中的 explicit_schema
- ARROW-9024 - [C++/Python] 在 conda-clean 作业中安装 anaconda-client
- ARROW-9026 - [C++/Python] 强制从 arrow-nightlies conda 仓库中移除包
- ARROW-9037 - [C++][C] 无法导入 null count == -1 的数组(该数组可以被导出)
- ARROW-9057 - [Rust] 在 InMemoryScan 上进行投影应该正常工作而不报错
- ARROW-9059 - [Rust] 关于切片数组数据的文档符号错误
- ARROW-9066 - [Python] 在 isnull() 中引发正确的错误
- ARROW-9071 - [C++] MakeArrayOfNull 创建了无效的 ListArray
- ARROW-9077 - [C++] 修复聚合/标量比较基准测试中的 null_percent 计算
- ARROW-9080 - [C++] arrow::AllocateBuffer 返回一个 Result<unique_ptr<Buffer>>
- ARROW-9082 - [Rust] - 当流未以(可选的)0xFFFFFFFF 0x00000000 结束时,流读取器失败
- ARROW-9084 - [C++] 当 ZSTD_SOURCE=SYSTEM 时,CMake 无法找到 zstd 目标
- ARROW-9085 - [C++][CI] Appveyor CI 测试失败
- ARROW-9087 - [C++] 缺少 HDFS 选项解析
- ARROW-9098 - RecordBatch::ToStructArray 无法处理 0 列的记录批次
- ARROW-9105 - [C++] ParquetFileFragment 扫描无法处理分区字段上的过滤器
- ARROW-9120 - [C++] 对文件名中包含 "codegen" 的 C++ 文件进行 Lint 和格式化
- ARROW-9121 - [C++] 当路径为空时不要擦除文件系统
- ARROW-9122 - [C++] 调整 ascii_lower/ascii_upper 批量转换以适用于切片数组
- ARROW-9126 - [C++] 修剪后的 Boost 包在 Windows 上构建失败
- ARROW-9127 - [Rust] 更新 thrift 库依赖项
- ARROW-9134 - [Python] Parquet 分区将 Int32 降级为 float64
- ARROW-9141 - [R] 更新跨包文档链接
- ARROW-9142 - [C++] random::RandomArrayGenerator::Boolean "probability" 文档错误/不正确
- ARROW-9143 - [C++] RecordBatch::Slice 错误地将不可为空字段的内部 null_count 设置为未知
- ARROW-9146 - [C++][Dataset] 使用过滤器和不匹配的模式扫描 Fragment 不应中止
- ARROW-9151 - [R][CI] 修复 Rtools 4.0 构建:pacman 同步
- ARROW-9160 - [C++] 实现字符串/二进制的精确匹配包含
- ARROW-9174 - [Go] 386 (x86) 构建的测试出现 panic
- ARROW-9183 - [C++] 使用 gcc 4.9.2 构建 arrow-cpp 失败
- ARROW-9184 - [Rust][Datafusion] 没有投影的表扫描应返回所有列
- ARROW-9194 - [C++] Array::GetScalar 未对 decimal 类型实现
- ARROW-9195 - [Java] ByteFunctionsHelper 类中从字节数组使用 Unsafe.get 的错误用法
- ARROW-9209 - [C++] 在 ARROW_IPC=OFF 和 ARROW_BUILD_TESTS=OFF 时基准测试构建失败
- ARROW-9219 - [R] Parquet 写入选项中的 coerce_timestamps 不工作
- ARROW-9221 - ArrowBuf#setBytes(int, ByteBuffer) 未检查字节缓冲区的字节序
- ARROW-9223 - [Python] 修复 to_pandas() 导出结构体中的时间戳
- ARROW-9230 - [FlightRPC][Python] flight.connect() 未传递所有参数
- ARROW-9233 - [C++] NullArray 上的 is_null 对于所有值都应为 true
- ARROW-9236 - [Rust] CSV WriterBuilder 从不写入表头
- ARROW-9237 - [R] 在 Arch Linux 上安装 0.17
- ARROW-9238 - [C++][CI] ipc 和 flight 中轮询的一些测试覆盖
- ARROW-9252 - [集成] GitHub Actions 集成测试作业未针对 apache/arrow-testing 中的“黄金”0.14.1 文件进行测试
- ARROW-9260 - [CI] "ARM64v8 Ubuntu 20.04 C++" 失败
- ARROW-9260 - [CI] "ARM64v8 Ubuntu 20.04 C++" 失败
- ARROW-9261 - [Python][打包] manylinux wheel 中的 S3FileSystem curl 错误
- ARROW-9274 - [Rust] [集成测试] 从 json 文件中将 i64 读取为字符串
- ARROW-9282 - [R] 删除 _EXTPTR_PTR 的使用
- ARROW-9284 - [Java] getMinorTypeForArrowType 为密集联合类型返回稀疏次要类型
- ARROW-9288 - [C++][Dataset] 使用 HivePartitioning 发现字典类型的分区字段时出现段错误
- ARROW-9297 - [C++][Dataset] 数据集扫描器无法处理大型二进制列(> 2 GB)
- ARROW-9298 - [C++] 修复无效输入上的崩溃 (OSS-Fuzz)
- ARROW-9303 - [R] Linux 静态构建应始终捆绑依赖项
- ARROW-9305 - [Python] Windows wheel 构建中的依赖项加载失败
- ARROW-9315 - [Java] 修复 testAllocationManagerType 的失败
- ARROW-9317 - [Java] arrow-memory 的一些测试用例
- ARROW-9326 - [Python] Setuptools 49.1.0 似乎破坏了我们的 Python 3.6 构建
- ARROW-9326 - [Python] Setuptools 49.1.0 似乎破坏了我们的 Python 3.6 构建
- ARROW-9326 - [Python] Setuptools 49.1.0 似乎破坏了我们的 Python 3.6 构建
- ARROW-9330 - [C++] 修复损坏的 IPC 输入上的崩溃 (OSS-Fuzz)
- ARROW-9334 - [Dev][Archery] 推送祖先 docker 镜像
- ARROW-9336 - [Ruby] 使用缺少键的结构体创建 RecordBatch 会导致表格式错误
- ARROW-9343 - [C++][Gandiva] 来自字符串的 CastINT/Float 函数应处理前导/尾随空格
- ARROW-9347 - [Python] 使用最新的 fsspec 测试失败
- ARROW-9350 - [C++][CI] 夜间 valgrind 作业失败
- ARROW-9351 - [C++][CI] 夜间 test-ubuntu-18.04-cpp-cmake32 失败
- ARROW-9353 - [Python][CI] 夜间 dask 集成作业失败
- ARROW-9354 - [C++] 最新的 Turbodbc 在集成测试中构建失败
- ARROW-9355 - [R] 修复 -Wimplicit-int-float-conversion
- ARROW-9360 - [CI][Crossbow] 夜间 homebrew-cpp 作业超时
- ARROW-9363 - [C++][Dataset] ParquetDatasetFactory 模式:pandas 元数据丢失
- ARROW-9368 - [Python] 在 split_by_row_group() 中将 predicate 参数重命名为 filter
- ARROW-9373 - [C++] 修复 Parquet 在无效输入上的崩溃 (OSS-Fuzz)
- ARROW-9380 - [C++] compute::CallFunction 中的段错误
- ARROW-9384 - [C++] 无效 IPC 输入导致内存不足 (OSS-Fuzz)
- ARROW-9385 - [Python] [CI] jpype 集成失败
- ARROW-9389 - [C++] 无法通过 CallFunction 调用 isin/match
- ARROW-9397 - [R] 在 Linux 构建中构建 libarrow 时将 CC/CXX 传递给 cmake
- ARROW-9408 - [集成] 由于 numpy 64 位错误,测试无法在 Windows 中运行
- ARROW-9409 - [CI][Crossbow] 夜间 conda-r 失败
- ARROW-9410 - [CI][Crossbow] 再次修复 homebrew-cpp
- ARROW-9413 - [Rust] 修复 master 上的 clippy lint
- ARROW-9415 - [C++] Arrow 在 Power9 上无法编译
- ARROW-9416 - [Go] 为某些数据类型添加测试用例
- ARROW-9417 - [C++][IPC] 以本机字节序写入消息中的大小
- ARROW-9418 - [R] Windows 上 nyc-taxi Parquet 文件未以二进制模式下载
- ARROW-9419 - [C++] 测试 "fill_null" 函数是否适用于切片输入,并扩展测试
- ARROW-9428 - [C++] 更新缓冲区分配函数的文档
- ARROW-9436 - [C++][CI] fill_null 内核测试中的 Valgrind 错误
- ARROW-9438 - [CI] Spark 集成测试失败
- ARROW-9439 - [C++] 修复无效 IPC 输入上的崩溃 (OSS-Fuzz)
- ARROW-9440 - [Python] 在 PyArrow 中公开 Fill Null 计算内核
- ARROW-9443 - [C++] 捆绑的 bz2 构建应仅构建 libbz2
- ARROW-9448 - [Java] ArrowBuf 和 BaseAllocator 之间的循环初始化导致空缓冲区的 HistoricalLog 为空
- ARROW-9449 - [R] Strip arrow.so
- ARROW-9450 - [Python] "pytest pyarrow" 收集测试并开始执行需要超过10秒
- ARROW-9456 - [Python] 未导入 pyarrow.parquet 时 Dataset 出现段错误
- ARROW-9458 - [Python] Dataset Scanner 仅为单线程
- ARROW-9460 - [C++] BinaryContainsExact 无法处理模式中的双字符
- ARROW-9461 - [Rust] 读取 Date32 和 Date64 时出错 - 它们被错误地转换为 RecordBatch
- ARROW-9476 - [C++][Dataset] 使用字典类型发现多个字段时 HivePartitioning 失败
- ARROW-9486 - [C++][Dataset] 支持 InExpression::set_ 到 dict 的隐式转换
- ARROW-9497 - [C++][Parquet] 修复由格式错误的重复/定义级别引起的失败
- ARROW-9499 - [C++] AdaptiveIntBuilder::AppendNull 不增加空计数
- ARROW-9500 - [C++] 修复在 gcc 7.5.0 的 -O3 构建中 std::to_string 的段错误
- ARROW-9501 - [C++][Gandiva] 在 timestampdiff() 中添加逻辑,当结束日期是某个月的最后一天时
- ARROW-9503 - [Rust] 切片数组的比较错误
- ARROW-9504 - [Python] ChunkedArray.take 上的段错误
- ARROW-9506 - [打包][Python] 修复 macOS wheel 构建失败
- ARROW-9512 - [C++] lambda 内部的可变参数模板解包在 gcc 上无法编译
- ARROW-9524 - [CI][Gandiva] C++ 单元测试 arrow-ipc-read-write 在 gandiva 夜间构建中失败
- ARROW-9527 - [Rust] 删除不需要的开发依赖项
- PARQUET-1839 - [C++] 在 ReadBatchSpaced 中未更新 values_read
- PARQUET-1857 - [C++][Parquet] ParquetFileReader 无法读取超过 32767 个行组的文件
- PARQUET-1865 - [C++] parquet/encoding_benchmark.cc 中使用的 C++17 功能导致失败
- PARQUET-1877 - [C++] 针对内存问题协调容器大小和字符串大小
- PARQUET-1882 - [C++] 写入一个全为空的列,然后用 buffered_stream 读取它会中止进程
新功能和改进
- ARROW-300 - [格式] 使用 LZ4 或 ZSTD 向 IPC 消息协议添加主体缓冲区压缩选项
- ARROW-842 - [Python] 处理更多来自 pandas 0.x 的空哨兵对象
- ARROW-971 - [C++/Python] 将 Array.isvalid/notnull/isnull 实现为标量函数
- ARROW-974 - [网站] 向网站添加用例部分
- ARROW-1277 - 完成主要已实现数据类型的集成测试
- ARROW-1567 - [C++] 实现“填充空值”内核,用某个标量替换值替换空值
- ARROW-1570 - [C++] 定义 API,从具有特定签名的标量输入和输出函数创建内核实例
- ARROW-1682 - [Python] 添加关于在 S3 上读取 Parquet 文件目录的文档/示例
- ARROW-1796 - [Python] 文件级别的行组过滤
- ARROW-2260 - [C++][Plasma] plasma_store 应显示用法
- ARROW-2444 - [Python][C++] 更好地处理读取空的 parquet 文件
- ARROW-2702 - [Python] 检查 numpy_to_arrow.cc 中 Invalid 和 TypeError 错误的使用情况,看我们在每个实例中是否使用了正确的错误类型
- ARROW-2714 - [C++/Python] 数组的可变步长切片
- ARROW-2912 - [网站] 构建一个更详细的社区登陆页面,类似于 Apache Spark
- ARROW-3089 - [Rust] 为不同的 Arrow 数组添加 ArrayBuilder
- ARROW-3134 - [C++] 为可能具有不同分块布局的分块数组集合实现 n 元迭代器
- ARROW-3154 - [Python][C++] 记录如何用 Parquet 数据集写入 _metadata, _common_metadata 文件
- ARROW-3244 - [Python] 无需扫描的多文件 parquet 加载
- ARROW-3275 - [Python] 添加关于检查 Parquet 文件元数据的文档
- ARROW-3308 - [R] 将数据超过 2GB 的 R 字符向量转换为 Large 类型
- ARROW-3317 - [R] 测试/支持从具有单个字符列超过 BinaryArray 2GB 容量的 data.frame 进行转换
- ARROW-3446 - [R] 记录 Arrow <-> R 类型的映射
- ARROW-3509 - [C++] 不一致的子访问器命名
- ARROW-3520 - [C++] 实现 List Flatten 内核
- ARROW-3688 - [Rust] 实现 PrimitiveArrayBuilder<T>.push_values
- ARROW-3827 - [Rust] 实现 UnionArray
- ARROW-4022 - [C++] 将 Datum 变体从 compute 命名空间提升出来
- ARROW-4221 - [格式] 在 COO 稀疏索引中添加规范标志
- ARROW-4390 - [R] 在 Feather 文件、IPC 消息中序列化 "labeled" 元数据
- ARROW-4412 - [文档] 向 arrow 规范文档添加明确的版本号
- ARROW-4427 - [文档] 将 Confluence Wiki 页面移动到 Sphinx 文档
- ARROW-4429 - [文档] 在开发者文档的“贡献”页面添加 git rebase 技巧
- ARROW-5035 - [C#] ArrowBuffer.Builder<bool> 已损坏
- ARROW-5082 - [Python][打包] 减小 macOS 和 manylinux1 wheel 的大小
- ARROW-5143 - [Flight] 启用对带有字典的批次的集成测试
- ARROW-5279 - [C++] 支持在 IPC 流中读取增量字典
- ARROW-5377 - [C++] 将 IpcPayload 公开并添加 GetPayloadSize
- ARROW-5489 - [C++] 规范化内核和 ChunkedArray 的行为
- ARROW-5548 - [文档] https://arrow.apache.org/docs/latest/ 不是最新的
- ARROW-5649 - [集成][C++] 为扩展类型创建往返集成测试
- ARROW-5708 - [C#] BooleanArray 的空值支持
- ARROW-5760 - [C++] 优化 Take 实现
- ARROW-5854 - [Python] 在 Array 类上公开比较内核
- ARROW-6052 - [C++] 将 arrow/array.h,cc 拆分为 arrow/array/ 中的文件,类似于构建器文件
- ARROW-6110 - [Java] 支持 LargeList 类型并添加与 C++ 的集成测试
- ARROW-6111 - [Java] 支持 LargeVarChar 和 LargeBinary 类型并添加与 C++ 的集成测试
- ARROW-6439 - [R] 在 R 中实现 S3 文件系统接口
- ARROW-6456 - [C++] 是否可以减少 compute/kernels/take.cc 中生成的目标代码?
- ARROW-6501 - [C++] 从 SparseIndex 中删除 non_zero_length 字段
- ARROW-6521 - [C++] 在 arrow:: 命名空间中添加返回当前 ABI 版本的函数
- ARROW-6543 - [R] 支持 LargeBinary 和 LargeString 类型
- ARROW-6602 - [文档] 添加功能/实现矩阵
- ARROW-6603 - [C#] ArrayBuilder API 以支持写入空值
- ARROW-6645 - [Python] 转换为 Categorical 时更快的字典索引边界检查
- ARROW-6689 - [Rust] [DataFusion] 1.0.0 版本的查询执行增强
- ARROW-6691 - [Rust] [DataFusion] 使用 tokio 和 Futures 而不是生成线程
- ARROW-6775 - [C++] [Python] 几个 Array 实用函数的提案
- ARROW-6776 - [Python] 需要一个轻量版的 pyarrow
- ARROW-6800 - [C++] 添加 CMake 选项以构建针对 C++14 或 C++17 工具链环境的库
- ARROW-6839 - [Java] 添加 API 以读写 IPC 文件页脚的 "custom_metadata" 字段
- ARROW-6856 - [C++] 使用 ArrayData 而不是 Array 作为 ArrayData::dictionary
- ARROW-6917 - ARROW-6917: [Archery][发布] 为维护版本添加对 JIRA 整理、变更日志生成和提交 cherry-pick 的支持
- ARROW-6945 - [Rust] 启用集成测试
- ARROW-6959 - [C++] 明确计算内核首选的签名
- ARROW-6978 - [R] 为 sum 和 mean 计算内核添加绑定
- ARROW-6979 - [R] 在 autobrew 公式中启用 jemalloc
- ARROW-6982 - [R] 为比较和布尔内核添加绑定
- ARROW-7009 - [C++] 重构 filter/take 内核以使用 Datum 而不是重载
- ARROW-7010 - [C++] 支持从 decimal128 到 float32 和 float64/double 的有损转换
- ARROW-7011 - [C++] 实现从 float/double 到 decimal128 的转换
- ARROW-7012 - [C++] 明确 ChunkedArray 分块策略和政策
- ARROW-7068 - [C++] 将 ListArray 的偏移量公开为 Int32Array
- ARROW-7075 - [C++] 布尔内核不应在 Call() 中分配
- ARROW-7175 - [网站] 添加一个安全页面以跟踪漏洞何时被修补
- ARROW-7229 - [C++] 统一 ConcatenateTables API
- ARROW-7230 - [C++] 在 Gandiva 中使用 vendored 的 std::optional 而不是 boost::optional
- ARROW-7237 - [C++] 将 Result<T> 添加到 arrow/json 的 API
- ARROW-7243 - [文档] 将通用的“实现状态”表添加到每个原生语言实现的 README 以及顶级 README
- ARROW-7285 - [C++] 确保 C++ 实现符合明确的字典规范
- ARROW-7300 - [C++][Gandiva] 实现从字符串转换为整数/浮点数的函数
- ARROW-7313 - [C++] 添加从数组槽中检索标量的函数
- ARROW-7371 - [GLib] 添加 Datasets 绑定
- ARROW-7375 - [Python] 公开 C++ MakeArrayOfNull
- ARROW-7391 - [Python] 从绑定层移除不必要的类
- ARROW-7495 - [Java] 从 ArrowBuf 中移除 "empty" 概念,替换为自定义的 referencemanager
- ARROW-7605 - [C++] 创建并安装包含由 Arrow 构建的所有依赖项的静态库
- ARROW-7607 - [C++] 在 cpp/examples 中添加将 Arrow 作为另一个 CMake 项目依赖项的最小示例
- ARROW-7673 - [C++][Dataset] 重新审视文件发现失败模式
- ARROW-7676 - [打包][Python] 确保静态库不在 wheel 脚本中构建
- ARROW-7699 - [Java] 支持批量连接密集联合向量
- ARROW-7705 - [Rust] 初始排序实现
- ARROW-7717 - [CI] 对 Spark 的最新版本进行夜间集成测试
- ARROW-7759 - [C++][Dataset] 添加 CsvFileFormat 以支持 CSV
- ARROW-7778 - [C++] 支持 JSON 集成格式中的嵌套字典
- ARROW-7784 - [C++] diff.cc 编译极其缓慢
- ARROW-7801 - [开发者] 添加 issue_comment 工作流以修复 lint/style/codegen
- ARROW-7803 - [R][CI] Autobrew/homebrew 测试不应总是从 master 安装
- ARROW-7831 - [Java] 在可变宽度向量上调用 splitAndTransferTo 时不必要的缓冲区分配
- ARROW-7831 - [Java] 在可变宽度向量上调用 splitAndTransferTo 时不必要的缓冲区分配
- ARROW-7902 - [集成] 取消跳过嵌套字典集成测试
- ARROW-7910 - [C++] 提供可移植地查询页面大小的函数
- ARROW-7924 - [Rust] 添加浮点类型的排序
- ARROW-7950 - [Python] 初始化 pandas API shim 时,如果用户安装的 pandas 版本太旧,则通知用户
- ARROW-7955 - [Java] 支持文件/流 IPC 的大缓冲区
- ARROW-8020 - [Java] 实现向量验证功能
- ARROW-8023 - [网站] 写一篇关于 C 数据接口的博客文章
- ARROW-8025 - [C++] 实现到 Binary 和 FixedSizeBinary 的转换
- ARROW-8025 - [C++] 实现到 Binary 和 FixedSizeBinary 的转换
- ARROW-8046 - [开发者][集成] Makefile.docker 的目标名称已损坏
- ARROW-8062 - [C++][Dataset] 从 _metadata/_common_metadata 文件创建 Parquet Dataset 工厂
- ARROW-8065 - [C++][Dataset] 解耦 Dataset、Fragment 和 ScanOptions
- ARROW-8074 - [C++][Dataset] FileSystemDataset 是否支持类文件对象(缓冲区)?
- ARROW-8108 - [Java] 为字典编码器提取一个通用接口
- ARROW-8111 - [C++][CSV] 支持 MM/DD/YYYY 日期格式
- ARROW-8114 - [Java][集成] 启用 custom_metadata 集成测试
- ARROW-8121 - [Java] 增强 Java 代码的代码风格检查(在逗号、分号和类型转换后添加空格)
- ARROW-8149 - [C++/Python] 在 conda recipes 中启用 CUDA 支持
- ARROW-8157 - [C++][Gandiva] 支持使用 LLVM 9 构建
- ARROW-8162 - [格式][Python] 添加 CSF 稀疏张量的序列化
- ARROW-8169 - [Java] 通过主动分配内存提高 JDBC 适配器的性能
- ARROW-8171 - 考虑在 Avro 适配器迭代器中为定宽向量预分配内存
- ARROW-8190 - [C++][Flight] 允许在 Flight IPC 消息读取器和写入器类中设置 IpcWriteOptions 和 IpcReadOptions
- ARROW-8229 - [Java] 将 ArrowBuf 移动到 Arrow 包中
- ARROW-8230 - [Java] 将 Netty 内存管理器移动到一个单独的模块中
- ARROW-8261 - [Rust] [DataFusion] LogicalPlanBuilder.limit() 应接受一个字面量参数
- ARROW-8263 - [Rust] [DataFusion] 添加支持的 SQL 函数的文档
- ARROW-8281 - [R] Windows conda 上 arrow.dll 的名称冲突
- ARROW-8283 - [Python][Dataset] 在 pa.dataset.FileSystemDataset 中,不存在的文件被静默丢弃
- ARROW-8287 - [Rust] Arrow 示例应使用实用程序打印结果
- ARROW-8293 - [Python] 也在 python/examples 上运行 flake8
- ARROW-8297 - [FlightRPC][C++] 为 C++ 实现 Flight DoExchange
- ARROW-8301 - [R] 在 C 数据接口中处理 ChunkedArray 和 Table
- ARROW-8312 - [Java][Gandiva] 改进 IN 表达式支持
- ARROW-8314 - [Python] 提供一种选择 Table 列子集的方法
- ARROW-8318 - [C++][Dataset] Dataset 应实例化 Fragment
- ARROW-8399 - [Rust] 扩展内存对齐以包括其他架构
- ARROW-8413 - [C++] 重构 DefLevelsToBitmap
- ARROW-8422 - [Rust] [Parquet] 实现将 Arrow 模式转换为 Parquet 模式的函数
- ARROW-8430 - [CI] 为 Github Actions 配置自托管运行器
- ARROW-8434 - [C++] Ipc RecordBatchFileReader 多次反序列化 Schema
- ARROW-8440 - [C++] 优化 simd 头文件
- ARROW-8443 - [Gandiva][C++] 修复 round/truncate 以对特殊情况无操作
- ARROW-8447 - [C++][Dataset] 确保 Scanner::ToTable 保持 ScanTasks 的顺序
- ARROW-8467 - [C++] 使用 ArrayFromJSON 的测试用例仅假设小端平台
- ARROW-8474 - [CI][Crossbow] 跳过一些我们不需要运行的夜间构建
- ARROW-8477 - [C++] 为 Windows 启用长文件名的读写
- ARROW-8481 - [Java] 提供一个基于 Unsafe API 的分配管理器
- ARROW-8483 - [Ruby] Arrow::Table 文档改进
- ARROW-8485 - [集成][Java] 实现扩展类型集成
- ARROW-8486 - [C++] arrow-utility-test 在大端平台上导致失败
- ARROW-8487 - [FlightRPC][C++] 使其可以针对特定的负载大小
- ARROW-8488 - [R] 将 VALUE_OR_STOP 替换为 ValueOrStop
- ARROW-8496 - [C++] 优化 ByteStreamSplitDecodeScalar
- ARROW-8497 - [Archery] 向构建中添加缺失的组件
- ARROW-8499 - [C++][Dataset] 在 ScannerBuilder 中,如果 projecter 不为空,batch_size 将不起作用
- ARROW-8500 - [C++] 在记录批次、表的 Filter 实现中使用选择向量
- ARROW-8501 - [打包][RPM] 将 CentOS 6 上的 devtoolset 升级到 8
- ARROW-8502 - [发布][APT][Yum] 忽略所有 arm64 验证
- ARROW-8504 - [C++] 添加游程长度读取器
- ARROW-8506 - [c++] 缺少验证 RLE 中 bit_width > 8 的 expected_buffer 的测试
- ARROW-8507 - [发布] 在 changelog.py 中自动检测 .git 目录
- ARROW-8509 - [GLib] 添加低级别记录批次读写函数
- ARROW-8512 - [C++] 删除未使用的 compute expr 原型代码
- ARROW-8513 - [Python] 在 Python 中公开带有 Table 输入的 Take
- ARROW-8515 - [C++] Bitmap ToString 应有一个按字节分组的选项
- ARROW-8516 - [Rust] PrimitiveBuilder::append_slice 中缓慢的 BufferBuilder<BooleanType> 插入
- ARROW-8517 - [开发者][发布] 更新 Crossbow RC 验证设置以适应 0.16.0 以来的变化
- ARROW-8520 - [开发者] 使用 .asf.yaml 将 GitHub 通知定向到电子邮件列表和 JIRA
- ARROW-8521 - [开发者] 在变更日志中将子任务、任务、测试和愿望问题类型分组为“改进”
- ARROW-8522 - [开发者] 在发布验证脚本中添加环境变量选项以切换是否安装临时的 NodeJS
- ARROW-8524 - [CI] 释放 github actions 上的空间
- ARROW-8526 - [Python] 修复数据集测试中非确定性行顺序失败的问题
- ARROW-8531 - [C++] 弃用 ARROW_USE_SIMD CMake 选项
- ARROW-8538 - [打包] 从 homebrew 公式中移除 boost
- ARROW-8540 - [C++] 创建内存分配基准测试
- ARROW-8541 - [发布] 不要自动删除以前的源代码版本
- ARROW-8542 - [发布] 修复网站发布后脚本中的校验和 url
- ARROW-8543 - [C++] IO: 单通道合并算法
- ARROW-8544 - [CI][Crossbow] 将 status.json 添加到 gh-pages 夜间构建摘要中以绕过速率限制
- ARROW-8548 - [网站] 0.17 发布帖子
- ARROW-8549 - [R] 0.17 发布后的各种清理工作
- ARROW-8550 - [CI] 不要在 forks 上运行 cron GHA 作业
- ARROW-8551 - [CI][Gandiva] 使用 LLVM 8 构建 gandiva linux jar
- ARROW-8552 - [Rust] 支持 parquet 行的列迭代
- ARROW-8553 - [C++] 优化未对齐的位图操作
- ARROW-8555 - [FlightRPC][Java] 为 Java 实现 Flight DoExchange
- ARROW-8558 - [Rust] GitHub Actions 缺少 rustfmt
- ARROW-8559 - [Rust] 在主 arrow crate 中整合 Record Batch 读取器 traits
- ARROW-8560 - [Rust] MutableBuffer resize 的文档不正确
- ARROW-8561 - [C++][Gandiva] 停止使用已弃用的 google::protobuf::MessageLite::ByteSize()
- ARROW-8562 - [C++] IO: 使用 S3 存储指标参数化 I/O 合并
- ARROW-8563 - [Go] 将 newBuilder 公开的小改动
- ARROW-8564 - [网站] 将 Ubuntu 20.04 LTS 添加到支持的软件包列表
- ARROW-8569 - [CI] 升级 xcode 版本以测试 homebrew 公式
- ARROW-8571 - [C++] 将 AppVeyor 镜像切换到 VS 2017
- ARROW-8572 - [Python] 公开 UnionArray.array 和其他字段
- ARROW-8573 - [Rust] 升级到 Rust 1.44 nightly
- ARROW-8574 - [Rust] 为所有普通类型实现 Debug
- ARROW-8575 - [开发者] 添加 issue_comment 工作流以 rebase 一个 PR
- ARROW-8590 - [Rust] 在 DataFusion 中使用 Arrow pretty print 实用程序
- ARROW-8591 - [Rust] 在 DictionaryArray 中反向查找键
- ARROW-8597 - [Rust] arrow crate lint 和可读性改进
- ARROW-8606 - [CI] 不要在 ci/ 中任何文件更改时触发所有构建
- ARROW-8607 - [R][CI] 在 R 4.0 发布后修复中断的构建
- ARROW-8611 - [R] 无法在 Ubuntu 18.04 R 3.6.3 上安装 arrow 0.17
- ARROW-8612 - [GLib] 添加 GArrowReadOptions 和 GArrowWriteOptions
- ARROW-8616 - [Rust] 默认关闭显式 SIMD
- ARROW-8619 - [C++] 为 interval 类型使用不同的 Type::type 值
- ARROW-8622 - [Rust] Parquet crate 在 aarch64 上无法编译
- ARROW-8623 - [C++][Gandiva] 减少 Boost 的使用,从头文件中移除 Boost 头文件
- ARROW-8624 - [网站] 安装页面应提及 arrow-dataset 包
- ARROW-8628 - [CI][Dev] 使用 archery 包装 docker-compose 命令
- ARROW-8629 - [Rust] 消除 ZST 分配的间接性
- ARROW-8633 - [C++] 添加 ValidateAscii 函数
- ARROW-8634 - [Java] 创建一个示例
- ARROW-8639 - [C++][Plasma] 需要 gflags
- ARROW-8645 - [C++] Plasma 缺少 gflags 依赖项
- ARROW-8647 - [C++][Dataset] 可选地将分区块字段值编码为字典类型
- ARROW-8648 - [Rust] 优化 Rust CI 构建时间
- ARROW-8650 - [Rust][Website] 将文档添加到 Arrow 网站
- ARROW-8651 - [Python][Dataset] 支持 Dataset 对象的序列化 (pickling)
- ARROW-8655 - [C++][Dataset][Python][R] 保留已发现 Dataset 的分区信息
- ARROW-8656 - [Python] 在 Windows wheel 构建中切换到 VS2017
- ARROW-8659 - [Rust] ListBuilder 和 FixedSizeListBuilder 的容量
- ARROW-8660 - [C++][Gandiva] 减少对 Boost 的依赖
- ARROW-8662 - [CI] 合并 appveyor 脚本
- ARROW-8664 - [Java] 为所有 Vector 类型添加跳过空值检查
- ARROW-8668 - [Packaging][APT][Yum][ARM] 使用 Travis CI 的 ARM 机器构建软件包
- ARROW-8669 - [C++] 为 GetRecordBatchSize() 添加 IpcWriteOptions 参数
- ARROW-8671 - [C++] 使用在 ARROW-300 中批准的 IPC 主体压缩元数据
- ARROW-8671 - [C++] 使用在 ARROW-300 中批准的 IPC 主体压缩元数据
- ARROW-8682 - [Ruby][Parquet] 添加对列级压缩的支持
- ARROW-8687 - [Java] 完成 io.netty.buffer.ArrowBuf 的移动
- ARROW-8690 - [Python] 清理 dataset+parquet 测试,现在顺序是确定性的
- ARROW-8692 - [C++] 从 S3 下载时避免内存复制
- ARROW-8695 - [Java] 移除 memory 模块中对 PlatformDependent 的引用
- ARROW-8696 - [Java] 将测试转换为集成测试
- ARROW-8699 - [R] 修复自动 r_to_py 转换
- ARROW-8702 - [Packaging][C#] 在发布流程中构建 NuGet 软件包
- ARROW-8703 - [R] schema$metadata 应该有正确的类型
- ARROW-8707 - [CI] 由于错误的 dockerhub 凭据导致 Docker 推送失败
- ARROW-8708 - [CI] 为 docker-compose 卷利用 github actions 缓存
- ARROW-8711 - [Python] 在 read_csv 转换选项中公开 strptime 时间戳解析
- ARROW-8717 - [CI][Packaging] 将 boost 添加到 homebrew 的构建依赖项中
- ARROW-8720 - [C++] 修复 checked_pointer_cast
- ARROW-8721 - [CI] 修复 R 构建矩阵
- ARROW-8723 - [Rust] 移除 SIMD 特定的基准测试代码
- ARROW-8724 - [Packaging][deb][RPM] 使用主机中的目录作为构建目录
- ARROW-8725 - [Rust] rust parquet 数据源代码中存在冗余的目录遍历
- ARROW-8727 - [C++] 将字符串解析为其他类型时,不要求对 StringConverter<T> 进行结构体初始化
- ARROW-8730 - [Rust] 在函数参数中使用 slice 而不是 &Vec
- ARROW-8733 - [C++][Dataset][Python] ParquetFileFragment 应提供对 parquet FileMetadata 的访问
- ARROW-8736 - [Rust][DataFusion] Table API 应提供 schema() 方法
- ARROW-8740 - [CI] 修复 pandas master 定时测试中的 archery 选项
- ARROW-8742 - [C++][Python] 为 flight 客户端添加相互 TLS 支持
- ARROW-8743 - [C++][CI] 在 s390x 上添加一个测试作业
- ARROW-8744 - [Rust] ParquetIterator 的 next 方法在迭代结束后也应该可以安全调用
- ARROW-8745 - [C++] Bitmap.ToString 在大端平台上导致失败
- ARROW-8747 - [C++] 使用压缩的 Feather 测试在大端平台上导致失败
- ARROW-8751 - [Rust] ParquetFileArrowReader 应该能够无误地读取空的 parquet 文件
- ARROW-8752 - [Rust] 移除未使用的 hashmap
- ARROW-8753 - [C++][CI] 在 ARM 上添加一个测试作业
- ARROW-8754 - [C++][CI] 在大端平台上为其他组件启用测试
- ARROW-8756 - [C++] Bitmap 字测试在大端平台上导致失败
- ARROW-8757 - [C++] Plasma 头部以原生字节序写入
- ARROW-8758 - [R] 为兼容 dplyr 1.0 进行更新
- ARROW-8759 - [C++] TestPlasmaSerialization.DeleteReply 测试在大端平台上失败
- ARROW-8762 - [C++][Gandiva] 将 Gandiva 的 BitmapAnd 替换为通用实现
- ARROW-8763 - [C++] 创建类似 RandomAccessFile::WillNeed 的 API
- ARROW-8764 - [C++] 使 ReadRangeCache 中的 ThreadPool 可配置
- ARROW-8766 - [Python] 一个基于 Python 回调的 FileSystem 实现
- ARROW-8769 - [C++] 在 StructScalar 中添加通过名称访问字段的便捷方法
- ARROW-8770 - [C++][CI] 在 s390x 上启用 arrow-csv-test
- ARROW-8772 - [C++] 将 SumKernel 基准测试扩展到更多类型
- ARROW-8777 - [Rust] Parquet.rs 不支持读取固定大小的二进制字段
- ARROW-8778 - [C++][Gandiva] 与 SelectionVector 相关的测试在大端平台上失败
- ARROW-8779 - [R] 实现到 List<Struct> 的转换
- ARROW-8781 - [CI][C++] 在 GHA MinGW 作业上启用 ccache
- ARROW-8782 - [Rust][DataFusion] 添加基于纽约出租车数据集的基准测试
- ARROW-8783 - [Rust][DataFusion] 逻辑计划应包含 ParquetScan 和 CsvScan 条目
- ARROW-8784 - [Rust][DataFusion] 从 LogicalPlan 中移除 Arc 的使用
- ARROW-8785 - [Python][Packaging] 构建启用 MIMALLOC 的 Windows wheel
- ARROW-8786 - [Packaging][rpm] 在 CentOS 8 构建中使用捆绑的 zstd
- ARROW-8788 - [C#] Array builder 使用位打包的 buffer builder 而不是布尔数组 builder 来处理有效性图
- ARROW-8789 - [Rust] 为集成测试二进制文件添加单独的 crate
- ARROW-8790 - [C++][CI] 在 s390x 上启用 arrow-flight-test
- ARROW-8791 - [Rust] 使用现有字典值创建 StringDictionaryBuilder
- ARROW-8792 - [C++] 改进的声明式计算函数/内核开发框架,规范化调用约定
- ARROW-8793 - [C++] BitUtil::SetBitsTo 可能不需要内联
- ARROW-8794 - [C++] 扩展从 parquet 读取 arrow 的基准测试覆盖范围
- ARROW-8795 - [C++] 有限的 iOS 支持
- ARROW-8800 - [C++] 将 arrow::ChunkedArray 拆分到 arrow/chunked_array.h
- ARROW-8804 - [R][CI] 跟进 Rtools40 升级
- ARROW-8814 - [Dev][Release] 二进制上传脚本持续引发区域设置警告
- ARROW-8815 - [Dev][Release] 二进制上传脚本在遇到意外的 bintray 请求错误时应重试
- ARROW-8818 - [Rust] 由于 Flatbuffers/Union 问题,在 master 分支上构建失败
- ARROW-8822 - [Rust][DataFusion] 将 MemoryScan 变体添加到 LogicalPlan
- ARROW-8827 - [Integration Testing] Rust 集成测试的初始骨架
- ARROW-8830 - [GLib] 添加对不可寻址的 GIO 输出流的 Tell 支持
- ARROW-8831 - [Rust] simd_compare_op 中不完整的 SIMD 实现
- ARROW-8833 - [Rust] 在集成测试二进制文件中实现 VALIDATE 模式
- ARROW-8834 - [Rust] 为集成测试实现 arrow-file-to-stream
- ARROW-8835 - [Rust] 为集成测试实现 arrow-stream-to-file
- ARROW-8836 - [Website] 自动更新版权结束年份
- ARROW-8837 - [Rust] 添加 Null 类型
- ARROW-8838 - [Rust] 文件读取器无法从有效文件中读取头部
- ARROW-8839 - [Rust] datafusion 逻辑计划应支持在未提供 schema 的情况下扫描 csv
- ARROW-8840 - [Rust] datafusion ExecutionError 应实现 std::error:Error trait
- ARROW-8841 - [C++] 为 PLAIN spaced 添加基准测试和单元测试
- ARROW-8843 - [C++] 优化 BitmapEquals 的未对齐情况
- ARROW-8844 - [C++] 优化 TransferBitmap 的未对齐情况
- ARROW-8846 - [Dev][Python] 使用 Archery 自动格式化 Python 源码
- ARROW-8847 - [C++] 在 Executor API 中传递任务大小/指标
- ARROW-8851 - [Python][Documentation] 修复 Python Plasma 文档中的 FutureWarnings
- ARROW-8852 - [R] 0.17.1 版本后的调整
- ARROW-8854 - [Rust][Integration Testing] 显示来自 arrow-json-integration-test 的输出
- ARROW-8855 - [Rust][Integration Testing] 不支持数据类型 Date32(Day)
- ARROW-8856 - [Rust][Integration Testing] 如果 MessageHeader 是 NONE,则返回空批次
- ARROW-8864 - [R] 为 Table/RecordBatch 添加方法以与 data.frame 保持一致
- ARROW-8866 - [C++] 将 Type::UNION 拆分为 Type::SPARSE_UNION 和 Type::DENSE_UNION
- ARROW-8867 - [R] 支持转换 POSIXlt 类型
- ARROW-8875 - [C++] 使用 AWS SDK SetResponseStreamFactory 避免字节复制
- ARROW-8877 - [Rust] 添加 CSV 读取选项结构体以简化 datafusion 接口
- ARROW-8880 - [R][Linux] 使 R 二进制安装更友好
- ARROW-8881 - [Rust] 添加大列表和二进制支持
- ARROW-8885 - [R] 不要到处都包含所有东西
- ARROW-8886 - [C#] 决定并实现 Array builder 调整大小为负数的适当行为
- ARROW-8887 - [Java] 在 clear/write 循环中,复杂向量的缓冲区大小会迅速增加
- ARROW-8890 - [R] 修复 C++ lint 问题
- ARROW-8895 - [C++] 为时间类型(包括时间戳)输入的 filter 和 take 函数添加 C++ 单元测试
- ARROW-8896 - [C++] 在 Cast 内核中使用 Take 重新实现字典解包
- ARROW-8899 - [R] 添加类似 pandas 元数据的 R 元数据以实现往返保真度
- ARROW-8901 - [C++] 减少 take 内核的数量
- ARROW-8903 - [C++] 实现优化的“不安全 take”以便与选择向量一起用于内核执行
- ARROW-8904 - [Python] 修复与 child/field 相关的已弃用 C++ API 的使用
- ARROW-8906 - [Rust] 支持读取多个 CSV 文件进行 schema 推断
- ARROW-8907 - [Rust] 实现标量比较操作
- ARROW-8912 - [Ruby] 为 GC 保留 Arrow::Buffer 数据的引用
- ARROW-8913 - [Ruby] 使用 "field" 代替 "child"
- ARROW-8914 - [C++][Gandiva] 与 Decimal128 相关的测试在大端平台上失败
- ARROW-8915 - [Dev][Archery] 要求 Click 7
- ARROW-8917 - [C++][Compute] 正式化“元函数”概念
- ARROW-8918 - [C++] 向 FunctionRegistry 添加 cast "元函数",以处理到特定类型 CastFunction 的分派
- ARROW-8922 - [C++] 实现示例字符串标量内核函数,以协助根据 ARROW-555 构建字符串内核
- ARROW-8923 - [C++] 通过将 ExecContext* 参数移到末尾并添加默认值,提高 arrow::compute::CallFunction 的可用性
- ARROW-8926 - [C++] 改进 arrow/compute 中新公共 API 的文档字符串并修复各种拼写错误
- ARROW-8927 - [C++] 使用 cuda IPC 读写记录批次时支持字典备忘录
- ARROW-8929 - [C++] 将 compute::Arity:VarArgs 的 min_args 默认值更改为 0
- ARROW-8931 - [Rust] 在 arrow 计算内核中支持字典排序
- ARROW-8933 - [C++] 减少 vector_hash.cc 中生成的代码
- ARROW-8934 - [C++] 添加别名为 int64 减法实现的时间戳减法内核
- ARROW-8937 - [C++] 添加 "parse_strptime" 函数,用于使用内核框架进行字符串到时间戳的转换
- ARROW-8938 - [R] 为 arrow::compute::CallFunction 提供绑定
- ARROW-8940 - [Java] 修复集成测试的性能下降问题
- ARROW-8941 - [C++/Python] arrow-nightlies conda 仓库已满
- ARROW-8942 - [R] 在读取 CSV/JSON 时检测压缩
- ARROW-8943 - [C++][Dataset] 为 ParquetDatasetFactory 添加对 Partitioning 的支持
- ARROW-8950 - [C++] 在 s3fs 中使 head 可选
- ARROW-8958 - [FlightRPC][Python] 为 Python 实现 Flight DoExchange
- ARROW-8960 - [小问题][格式] 修复注释中的拼写错误
- ARROW-8961 - [C++] 将 utf8proc 库添加到工具链
- ARROW-8963 - [C++][Parquet] Parquet cpp 优化内存分配
- ARROW-8965 - [Python][Documentation] Pyarrow 的 pip nightlies 文档引用了 404 位置
- ARROW-8966 - [C++] 将 arrow::ArrayData 移动到单独的头文件中
- ARROW-8969 - [C++] 减少 compute/kernels/scalar_compare.cc 中生成的代码
- ARROW-8970 - [C++] 减少共享库/二进制代码大小(总括问题)
- ARROW-8972 - [Java] 支持大 varchar/varbinary 向量的范围值比较
- ARROW-8973 - [Java] 支持大 varchar/varbinary 向量的批量值追加
- ARROW-8974 - [C++] 优化 TransferBitmap 模板参数
- ARROW-8976 - [C++] compute::CallFunction 无法对 ChunkedArray 使用 Filter/Take
- ARROW-8979 - [C++] 实现位图字读取器和写入器
- ARROW-8984 - [R] 鉴于现在已有 Windows conda 软件包,修订安装指南
- ARROW-8985 - [Format] 为 Decimal Flatbuffers 类型添加“字节宽度”字段,默认值为 16,以实现向前兼容
- ARROW-8989 - [C++] 在 compute::FunctionRegistry 中记录可用函数
- ARROW-8993 - [Rust] 支持在文本读取器中读取不可寻址的源
- ARROW-8994 - [C++] 禁用 include-what-you-use cpplint lint 检查
- ARROW-8996 - [C++] Aggregate Sum/Mean 内核的运行时 SIMD 路径
- ARROW-8997 - [Archery] 基准测试格式化程序应使用友好的单位
- ARROW-9004 - [C++][Gandiva] 支持使用 LLVM 10 构建
- ARROW-9005 - [Rust][DataFusion] 支持排序表达式
- ARROW-9007 - [Rust] 通过合并数组数据支持追加数组
- ARROW-9014 - [Packaging] 在 crossbow 中增加自动生成版本的次要部分
- ARROW-9015 - [Java] 将 BaseAllocator 设为包私有
- ARROW-9016 - [Java] 移除对 Netty/Unsafe Allocator 的直接引用
- ARROW-9017 - [Python] 重构 Scalar 类
- ARROW-9018 - [C++] 移除在 0.17.x 及更早版本中已弃用的 API
- ARROW-9021 - [Python] parquet.read_table 中的 filesystem 关键字未在文档中说明
- ARROW-9022 - [C++] 带溢出检查的加/减/乘算术内核
- ARROW-9029 - [C++] 实现 BitBlockCounter 接口,用于有效性位图的分块 population count
- ARROW-9030 - [Python] 清理 pyarrow.compat 的一些用法,将一些常用函数/符号移至 lib.pyx
- ARROW-9031 - [R] 实现从 Type::UINT64 到 R 向量的转换
- ARROW-9032 - [C++] 将 arrow/util/bit_util.h 拆分为多个头文件
- ARROW-9034 - [C++] 实现 BitBlockCounter 的二进制(两个位图)版本
- ARROW-9042 - [C++] 添加具有环绕行为的减法和乘法算术内核
- ARROW-9043 - [Go] 临时将 LICENSE.txt 复制到 go/
- ARROW-9043 - [Go] 临时将 LICENSE.txt 复制到 go/
- ARROW-9045 - [C++] 改进和扩展 Take/Filter 基准测试
- ARROW-9046 - [C++][R] 将更多内容放入 type_fwds
- ARROW-9047 - [Rust] 设置长度为 0 的位集的 0 位会导致段错误
- ARROW-9050 - [Release] 使用 1.0.0 作为下一个版本
- ARROW-9051 - [GLib] 从 Array 引用与 Array 相关的对象
- ARROW-9052 - [CI][MinGW] 启用 Gandiva
- ARROW-9055 - [C++] 为布尔类型添加 sum/mean 内核
- ARROW-9058 - [Packaging][wheel] Boost 下载失败
- ARROW-9060 - [GLib] 添加对使用未安装的 Apache Arrow Datasets 构建 Apache Arrow Datasets GLib 的支持
- ARROW-9061 - [Packaging][APT][Yum][GLib] 添加 Apache Arrow Datasets GLib
- ARROW-9062 - [Rust] 支持将 JSON 读取为字典类型
- ARROW-9067 - [C++] 创建可重用的无分支/向量化的索引边界检查函数
- ARROW-9070 - [C++] StructScalar 需要字段访问器方法
- ARROW-9073 - [C++] RapidJSON 包含目录检测在使用 RapidJSONConfig.cmake 时不起作用
- ARROW-9074 - [GLib] 添加缺失的 arrow-json 检查
- ARROW-9075 - [C++] 优化 Filter 实现
- ARROW-9079 - [C++] 为算术内核编写基准测试
- ARROW-9083 - [R] 如果未越界,将 int64、uint32、uint64 作为 R 整数类型收集
- ARROW-9086 - [CI][Homebrew] 启用 Gandiva
- ARROW-9088 - [Rust] 最近版本的 arrow crate 无法编译到 wasm 目标
- ARROW-9089 - [Python] 用于基于 fsspec 的文件系统的 PyFileSystem 处理程序
- ARROW-9090 - [C++] 提升捆绑库的版本
- ARROW-9091 - [C++] 在未向需要选项的 CallFunction 传递选项时,利用函数的默认选项
- ARROW-9093 - [FlightRPC][C++][Python] 允许设置 gRPC 客户端选项
- ARROW-9094 - [Python] 提升 manylinux wheel 中已编译依赖项的版本
- ARROW-9095 - [Rust] 修复 NullArray 以符合规范
- ARROW-9099 - [C++][Gandiva] 为字符串添加 TRIM 函数
- ARROW-9100 - [C++] 添加 ascii_lower 内核
- ARROW-9101 - [Doc][C++][Python] 记录 CSV 和 JSON 读取器期望的编码
- ARROW-9102 - [Packaging] 上传构建的 manylinux docker 镜像
- ARROW-9106 - [C++] 添加 C++ 基础以简化文件转码
- ARROW-9108 - [C++][Dataset] 为时间戳列添加 Parquet 统计信息转换
- ARROW-9109 - [Python][Packaging] 在 manylinux wheel 中启用 S3 支持
- ARROW-9110 - [C++] 修复 macOS 上的 CPU 缓存大小检测
- ARROW-9112 - [R] 更新 autobrew 脚本位置
- ARROW-9115 - [C++] 在 ascii_lower / ascii_upper 内核中批量处理数据缓冲区,而不是使用 string_view 值迭代
- ARROW-9116 - [C++] 添加 BinaryArray::total_values_length()
- ARROW-9116 - [C++] 添加 BinaryArray::total_values_length()
- ARROW-9118 - [C++] 添加更通用的 BoundsCheck 函数,该函数也检查整数数组中任意下限
- ARROW-9119 - [C++] 添加对使用系统静态 gRPC 进行构建的支持
- ARROW-9123 - [Python][wheel] 显式使用 libzstd.a
- ARROW-9124 - [Rust][Datafusion] DFParser 应将 sql 查询作为 &str 而不是 String 来使用
- ARROW-9125 - [C++] 为 Valgrind 添加 arrow::internal::ZeroMemory() 缺失的包含
- ARROW-9129 - [Python][JPype] 使用 JPype 0.7.5 时测试失败
- ARROW-9130 - [Python] 为 1.0.0 版本向 pyarrow/compat.py 模块添加已弃用的包装函数,这些函数将在以后移除
- ARROW-9131 - [C++] 更快的 ascii_lower 和 ascii_upper
- ARROW-9132 - [C++] 为具有常量字典的字典数据实现哈希内核
- ARROW-9133 - [C++] 添加 utf8_upper 和 utf8_lower
- ARROW-9137 - [GLib][Ruby] 允许按块(通过 RowGroup)读取 Parquet 文件
- ARROW-9138 - [Docs][Format] 确保在文档中硬编码格式版本
- ARROW-9139 - [Python] parquet read_table 不应使用 use_legacy_dataset
- ARROW-9144 - [CI] 由于 google 仓库的近期更改,OSS-Fuzz 构建失败
- ARROW-9145 - [C++] 向 BooleanArray 添加 true_count / false_count 方法
- ARROW-9152 - [C++] 为 varbinary 类型创建专门的 filter 实现
- ARROW-9153 - [Python] 添加 StructScalar 的绑定
- ARROW-9154 - [Developer] 更好地使用 GitHub 问题模板
- ARROW-9155 - [Archery] 为 "archery benchmark diff" 设置更宽松但更快的默认设置
- ARROW-9156 - [C++] 减少 tensor 模块的代码大小
- ARROW-9157 - [Rust][Datafusion] 执行上下文的 create_physical_plan 应将 self 作为不可变引用
- ARROW-9158 - [Rust][Datafusion] 投影物理计划编译应保留可空性
- ARROW-9159 - [Python] 公开 isnull/isvalid 内核
- ARROW-9162 - [Python] 公开加/减/乘算术内核
- ARROW-9163 - [C++] 向 StringArray, LargeStringArray 添加方法,以验证其值是否全部为 UTF-8
- ARROW-9166 - [Website] 添加概述页面
- ARROW-9167 - [Doc][Website] /docs/c_glib/index.html 被覆盖
- ARROW-9168 - [C++][Flight] 允许 flight 基准测试使用独立的 TCP 连接
- ARROW-9173 - [C++] 记录如何从第三方 CMake 项目中使用 Arrow
- ARROW-9175 - [FlightRPC][C++][Python] 公开已连接的对等方
- ARROW-9176 - [Rust] 修复 Arrow 分配器中的内存泄漏
- ARROW-9178 - [R] 改进关于 CSV 读取器的文档
- ARROW-9179 - [R] 在测试中替换 iris 数据集的使用
- ARROW-9180 - [Developer] 移除 whitelist、blacklist、slave 等的使用
- ARROW-9181 - [C++] 在 Cast 内核实现中实例化更少的模板
- ARROW-9182 - [C++] 使用 "applicator" 命名空间来表示内核操作符到内核的函子,简化参数拆箱
- ARROW-9185 - [C++][Java][Gandiva] 使 llvm 构建优化可从 java 配置
- ARROW-9188 - [C++] 不要总是静态链接 Brotli 库
- ARROW-9189 - [Website] 改进贡献者指南
- ARROW-9190 - [Website][C++] 添加关于使构建更轻量、更容易的博客文章
- ARROW-9191 - [Rust] 当 int96 毫秒为负数时不要 panic
- ARROW-9192 - [CI][Rust] 添加对运行 clippy 的支持
- ARROW-9193 - [C++] 添加从以 null 结尾的字符串解析日期的方法
- ARROW-9197 - [C++] 改进数值转换:更快的性能和更小的二进制大小
- ARROW-9201 - [Archery] 使用 "archery benchmark diff" 时渲染人类可读的表格
- ARROW-9202 - [GLib] 添加 GArrowDatum
- ARROW-9203 - [Packaging][deb] 添加缺失的 gir1.2-arrow-dataset-1.0.install
- ARROW-9204 - [C++][Flight] 在 flight 基准测试中将 records_per_stream 更改为 int64
- ARROW-9205 - [Documentation] 修复 Columnar.rst 中的拼写错误
- ARROW-9206 - [C++][Flight] 在 flight 基准测试中测量延迟
- ARROW-9207 - [Python][Dataset] 清理内部的 FileSource 类
- ARROW-9210 - [C++] 在 ArrayDataInlineVisitor 中使用 OptionalBitBlockCounter
- ARROW-9214 - [C++] 在 arrow/visitor_inline.h 中避免使用 util::optional,改为使用单独的可内联函数
- ARROW-9216 - [C++][Parquet] 使用 BitBlockCounter 进行 plain spaced 编码/解码
- ARROW-9217 - [C++][Parquet] 为 plain spaced 编码/解码基准测试覆盖 0.01% 的空值
- ARROW-9220 - [C++] 如果 ARROW_WITH_UTF8PROC=OFF,则禁用相关的计算内核
- ARROW-9222 - [Format][Proposal] 从 Union 类型中移除有效性位图
- ARROW-9224 - [Dev][Archery] 在克隆失败时复制本地仓库
- ARROW-9225 - [C++][Compute] 改进计数排序
- ARROW-9231 - [Format] 将 MetadataVersion 从 V4 递增到 V5
- ARROW-9234 - [GLib][CUDA] 在从缓冲区读取记录批次时添加对字典备忘录的支持
- ARROW-9241 - [C++] 为 Decimal::bitWidth 添加向前兼容性检查
- ARROW-9242 - [Java] 为 Decimal::bitWidth 添加向前兼容性检查
- ARROW-9247 - [Python] 在绑定中公开 BinaryArray::total_values_length
- ARROW-9248 - [C++] 添加 "list_size" 函数,返回给出列表单元大小的 Int32Array/Int64Array
- ARROW-9249 - [C++] 实现 "list_parent_indices" 向量函数
- ARROW-9250 - [C++] 使用与 vector_hash.cc 相同的方法,压缩 compute/kernels/scalar_set_lookup.cc 中生成的代码
- ARROW-9251 - [C++] 将用于集成测试的 JSON 测试代码移至 libarrow_testing
- ARROW-9254 - [C++] 分离出一些整数转换的内部实现,以便与时间转换重用
- ARROW-9255 - [C++] 当 CMake >= 3.7 时,使用 CMake 构建捆绑的 Protobuf
- ARROW-9256 - [C++] 变量名 ARROW_CXX_FLAGS 不正确
- ARROW-9258 - [Format] 添加 V5 MetadataVersion
- ARROW-9259 - [Format] 在 Columnar.rst 中允许无符号字典索引
- ARROW-9262 - [Packaging][Linux][CI] 在 Travis CI 上使用 Ubuntu 18.04 构建 ARM64 软件包
- ARROW-9263 - [C++] 基准测试:将 RegressionSetArgs 大小提升到 L2
- ARROW-9264 - [C++] 清理 Parquet Arrow Schema 代码
- ARROW-9265 - [C++] 添加对写入与 MetadataVersion::V4 兼容的 IPC 消息的支持,以兼容 <= 0.17.1 的库版本
- ARROW-9268 - [C++] 为字符串添加 is{alnum,alpha,...} 内核
- ARROW-9272 - [C++][Python] 降低 python 到 arrow 转换的复杂性
- ARROW-9276 - [Dev] 生成 API 文档时启用 ARROW_CUDA
- ARROW-9277 - [C++] 修复读取 CSV 文件的文档
- ARROW-9278 - [C++] 实现来自 ARROW-9222 的 Union 有效性位图更改
- ARROW-9280 - [Rust] 将统计信息写入 Parquet 文件
- ARROW-9281 - [R] 在 R 构建中关闭 utf8proc
- ARROW-9283 - [Python] 公开 C++ 构建信息
- ARROW-9287 - [C++] 实现对无符号字典索引的支持
- ARROW-9289 - [R] 移除已弃用的函数
- ARROW-9290 - [Rust][Parquet] 添加功能以允许选择性地退出依赖项
- ARROW-9291 - [R] 支持固定大小的二进制/列表类型
- ARROW-9292 - [Rust] 使用通过的测试更新功能矩阵
- ARROW-9294 - [GLib] 添加 GArrowFunction
- ARROW-9300 - [Java] 将 Netty Memory 分离到自己的模块
- ARROW-9306 - [Ruby] 添加对 Arrow::RecordBatch.new(raw_table) 的支持
- ARROW-9307 - [Ruby] 添加 Arrow::RecordBatchIterator#to_a
- ARROW-9308 - [Format] 向 schema.fbs 添加 Feature 枚举以实现向前兼容
- ARROW-9316 - [C++] 使用 "Dataset" 而不是 "Datasets"
- ARROW-9321 - [C++][Dataset] 如果 ParquetFragment 行组不是从 _metadata 构建的,则允许“收集”其统计信息
- ARROW-9322 - [R] Dataset 文档润色
- ARROW-9323 - [Ruby] 添加 Red Arrow Dataset
- ARROW-9327 - 修复 arrow crate 的所有 clippy 错误
- ARROW-9328 - [C++][Gandiva] 为字符串添加 LTRIM、RTRIM、BTRIM 函数
- ARROW-9329 - [C++][Gandiva] 实现 castTimestampToDate 函数
- ARROW-9331 - [C++] 提高 Tensor 到 SparseTensor 转换的性能
- ARROW-9333 - [Python] 在 Python 中公开更多 IPC 写入选项
- ARROW-9335 - [Website] 为 1.0 版本更新网站
- ARROW-9337 - [R] 当 C++ 库构建失败时,给出明确的消息
- ARROW-9339 - [Rust] Arrow README 中关于 SIMD 的注释不正确
- ARROW-9340 - [R] 使用 CRAN 版本的 decor 包
- ARROW-9341 - [GLib] 使用 arrow::Datum 版本的 Take()
- ARROW-9345 - [C++][Dataset] 带有字典类型的表达式应该能与值类型的操作数一起工作
- ARROW-9346 - [C++][Python][Dataset] 向 RowGroupInfo 添加 total_byte_size 元数据
- ARROW-9362 - [Java] 添加对写入与 MetadataVersion::V4 兼容的 IPC 消息的支持,以兼容 <= 0.17.1 的库版本
- ARROW-9365 - [Go] 在 NewBuilder 中实现剩余的类型化数组 builder
- ARROW-9370 - [Java] 提升 Netty 版本
- ARROW-9374 - [C++][Python] 公开 MakeArrayFromScalar
- ARROW-9379 - [Rust] 支持无符号字典索引
- ARROW-9383 - [Python] 通过 fs 处理程序在 Dataset API 中支持 fsspec 文件系统
- ARROW-9386 - [Rust] RecordBatch.schema() 不应返回 &Arc<Schema>
- ARROW-9390 - [C++] 审查计算函数名称
- ARROW-9390 - [C++] 审查计算函数名称
- ARROW-9390 - [C++] 审查计算函数名称
- ARROW-9391 - [Rust] 当记录批次只有一行时,Float32 值被解释为零
- ARROW-9393 - [Doc] 更新 Java 支持的类型文档
- ARROW-9395 - [Python] 在 IPC API 中提供可配置的 MetadataVersion,并提供环境变量在需要时将默认值设置为 V4
- ARROW-9399 - [C++] 为无法识别的未来 MetadataVersion 添加向前兼容性检查
- ARROW-9403 - [Python] 添加 .tolist 作为 .to_pylist 的别名
- ARROW-9407 - [Python] 在数组构造函数中接受 pd.NA 作为缺失值
- ARROW-9411 - [Rust] 更新依赖项
- ARROW-9424 - [C++][Parquet] 禁用使用 LZ4 编解码器写入文件
- ARROW-9425 - [Rust][DataFusion] 使 ExecutionContext 可在线程间共享
- ARROW-9427 - [Rust][DataFusion] 添加 pub fn ExecutionContext.tables()
- ARROW-9437 - [Python][Packaging] Homebrew 在 macOS wheel 构建中安装构建依赖项失败
- ARROW-9442 - [Python] 不强制在 pyarrow_wrap_table 中调用 Validate()
- ARROW-9445 - [Python] 还原 Array.equals 的更改 + 在 compute 中公开比较操作
- ARROW-9446 - [C++] 在 BuildInfo 中导出编译器信息
- ARROW-9447 - [Rust][DataFusion] 允许闭包作为 ScalarUDF
- ARROW-9452 - [Rust][DataFusion] 提高 parquet 扫描的性能
- ARROW-9470 - [CI][Java] 并行运行 Maven
- ARROW-9472 - [R] 在 IPC API 中提供可配置的 MetadataVersion,并提供环境变量在需要时将默认值设置为 V4
- ARROW-9473 - [Doc] 为 1.0 版本润色文档
- ARROW-9478 - [C++] 改进不支持的转换类型的错误消息
- ARROW-9484 - [Docs] 在计算文档中将 is* 函数更新为 is_*
- ARROW-9485 - [R] 更好的共享库剥离
- ARROW-9493 - [Python][Dataset] 默认对字符串分区列进行字典编码
- ARROW-9508 - [Release][APT][Yum] 启用对 arm64 二进制文件的验证
- ARROW-9509 - [Release] 不在 Windows wheel 验证脚本中测试 Gandiva
- ARROW-9511 - [Packaging][Release] 将 conda 软件包的构建号设置为 0
- ARROW-9519 - [Rust] 改进从 schema 中按名称获取字段时的错误消息
- ARROW-9529 - [Dev][Release] 改进发布验证脚本
- ARROW-9531 - [Packaging][Release] 更新 conda forge 依赖项固定
- ARROW-9534 - [Rust][DataFusion] 实现为所有类型创建字面量表达式的函数
- PARQUET-1820 - [C++] 使用列过滤器提示来通知 Arrow 读取中的预取操作
- PARQUET-1843 - [C++] DictDecoderImpl::Decode 中不必要的赋值
- PARQUET-1855 - [C++] 改进关于 MetaData 所有权的文档
- PARQUET-1861 - [Documentation][C++] 解释 ReaderProperties.buffer_stream*