Apache Arrow 0.15.0 (2019年10月5日)
这是一个涵盖超过3个月开发的大版本发布。
下载
贡献者
此版本包括来自80位不同贡献者的672次提交。
$ git shortlog -sn apache-arrow-0.14.0..apache-arrow-0.15.0
96 Wes McKinney
63 Antoine Pitrou
59 tianchen
55 Sutou Kouhei
46 liyafan82
38 Neal Richardson
34 Joris Van den Bossche
29 Krisztián Szűcs
24 Andy Grove
20 Benjamin Kietzman
18 Prudhvi Porandla
17 Micah Kornfield
15 François Saint-Jacques
13 David Li
12 Yosuke Shiro
9 Pindikura Ravindra
8 Romain Francois
7 Omer Ozarslan
7 Praveen
6 Renjie Liu
5 ptaylor
5 Kenta Murata
5 Hatem Helal
5 Bryan Cutler
4 Marco Neumann
4 Uwe L. Korn
4 Eric Erhardt
3 ARF1
3 Chao Sun
3 Paddy Horan
2 James Lamb
2 andyscho
2 Ryan Murray
2 Martin Radev
2 Sebastien Binet
1 Zhuo Peng
1 b-rms
1 czxrrr
1 emkornfield
1 lihalite
1 mmaclach
1 psuman
1 roshie548
1 shengjun.li
1 tianchen92
1 Ádám Lippai
1 Aaron Opfer
1 Adam Lippai
1 Artem Alekseev
1 Chen Li
1 Eric Liang
1 Galuh Sahid
1 Hengruo Zhang
1 Ingo Mueller
1 Ingvar-Y
1 Itamar Turner-Trauring
1 Jeka Pats
1 Johan Peltenburg
1 Kenneth Jung
1 Liya Fan
1 Marcin Juszkiewicz
1 Marius Seritan
1 Mark Harris
1 Mark Mikofski
1 Neville Dipale
1 Paul Taylor
1 Philipp Moritz
1 Richard Liaw
1 Rok
1 Ruslan Kuprieiev
1 TP Boudreau
1 Takuya Kato
1 Tao He
1 Thomas Elvey
1 Tobias Mayer
1 Ulzii Otgonbaatar
1 Yuan Zhou
1 Yuqi Gu
1 Zeyuan Shang
1 Zherui Cao
补丁提交者
以下 Apache 提交者将贡献的补丁合并到仓库中。
$ git shortlog -csn apache-arrow-0.14.0..apache-arrow-0.15.0
214 Wes McKinney
85 Sutou Kouhei
82 Micah Kornfield
70 Antoine Pitrou
44 Pindikura Ravindra
32 Krisztián Szűcs
29 François Saint-Jacques
25 Neal Richardson
19 Andy Grove
12 Yosuke Shiro
10 Benjamin Kietzman
10 Bryan Cutler
10 Paddy Horan
9 Praveen
6 Neville Dipale
4 Uwe L. Korn
3 Philipp Moritz
3 GitHub
1 Romain Francois
1 ptaylor
1 Chao Sun
1 emkornfield
1 Kenta Murata
更新日志
新功能和改进
- ARROW-1324 - [C++] 在 Windows / MSVC 上支持 ARROW_BOOST_VENDORED
- ARROW-1561 - [C++] “isin”(集合包含)的内核实现
- ARROW-1566 - [C++] 实现非物化排序内核
- ARROW-1741 - [C++] 用于确定索引是否“兼容”的 DictionaryArray 比较函数
- ARROW-1789 - [格式] 整合规范文档,为新实现作者提高清晰度
- ARROW-1875 - [Java] 在集成测试 JSON 文件中将64位整数写为字符串
- ARROW-2769 - [C++][Python] 弃用并重命名 add_metadata 方法
- ARROW-2931 - [Crossbow] Windows 构建尝试运行 linux 和 osx 打包任务
- ARROW-3032 - [Python] 清理与 NumPy 相关的 C++ 头文件
- ARROW-3204 - [R] 使软件包在 CRAN 上可用
- ARROW-3243 - [C++] 将 jemalloc 升级到版本 5
- ARROW-3246 - [Python][Parquet] 在 parquet 中直接读/写 pandas 分类数据
- ARROW-3325 - [Python] 支持将 Parquet 二进制/字符串列直接读作 DictionaryArray
- ARROW-3531 - [Python] 弃用 Schema.field_by_name,推荐使用 __getitem__
- ARROW-3538 - [Python] 写入数据集时能够覆盖自动分配的文件名 uuid
- ARROW-3579 - [Crossbow] 当远程分支未推送时出现不直观的错误消息
-
ARROW-3643 - [Rust] 优化 `BufferBuilder` 的 `push_slice`
` - ARROW-3710 - [Crossbow][Python] 针对 pandas master 运行夜间测试
- ARROW-3772 - [C++] 将 Parquet 字典编码的 ColumnChunks 直接读入 Arrow DictionaryArray
- ARROW-3777 - [C++] 实现一个模拟的“高延迟”文件系统
- ARROW-3817 - [R] RecordBatch 的 $ 方法
- ARROW-3829 - [Python] 支持从第三方类中提取 Arrow 对象的协议
- ARROW-3943 - [R] 为 R 软件包编写小品文
- ARROW-4036 - [C++] 使状态码可插拔
- ARROW-4095 - [C++] 为字典是统一字典前缀的情况实现字典统一优化
- ARROW-4111 - [Python] 从 Python 整数序列创建时间类型
- ARROW-4218 - [Rust] [Parquet] 实现 ColumnReader
- ARROW-4220 - [Python] 添加模拟高延迟 IO 的缓冲输入和输出流 ASV 基准测试
- ARROW-4365 - [Rust] [Parquet] 实现 RecordReader
- ARROW-4398 - [Python] 为 Arrow<>Parquet BYTE_ARRAY 序列化(读写)添加基准测试
- ARROW-4473 - [网站] 添加测试部署 Arrow 网站的说明并修复错误
- ARROW-4507 - [格式] 为新文档创建大纲和引言。
- ARROW-4508 - [格式] 将 Layout.rst 的内容复制到新文档中。
- ARROW-4509 - [格式] 将 Metadata.rst 的内容复制到新文档中。
- ARROW-4510 - [格式] 将 IPC.rst 的内容复制到新文档中。
- ARROW-4511 - [格式] 一旦所有内容移动完毕,删除单个文档,使用新文档
- ARROW-453 - [C++] 为 Amazon S3 添加文件系统实现
- ARROW-4648 - [C++/问题] cpp 代码库中的命名/组织不一致
- ARROW-4649 - [C++/CI/R] 添加(夜间)任务,构建 `brew install apache-arrow --HEAD`
- ARROW-4752 - [Rust] 为除法内核添加显式 SIMD 矢量化
- ARROW-4810 - [格式][C++] 添加具有 64 位偏移量的 “LargeList” 类型
- ARROW-4841 - [C++] 在生成的 CMake 配置中持久化 CMake 选项
- ARROW-5134 - [R][CI] 针对多个 R 版本运行夜间测试
- ARROW-517 - [C++] 详细的 Array::Equals
- ARROW-5211 - [格式] MetaData 页面 `Dictionary encoding` 部分下缺少文档
- ARROW-5216 - [CI] 在 README 中添加 Appveyor 徽章
- ARROW-5307 - [CI][GLib] 启用 GTK-Doc
- ARROW-5343 - [C++] 考虑在 DictionaryType::Unify 中使用 Buffer 代替 std::vector 用于转置映射
- ARROW-5344 - [C++] 在 compute/kernels/cast.cc 的字典解包实现中使用 ArrayDataVisitor
- ARROW-5351 - [Rust] 添加对 take 内核函数的支持
- ARROW-5358 - [Rust] 实现 ArrayData 和 Array 的相等性检查
- ARROW-5380 - [C++] 修复并启用 UBSan 以检测未对齐访问。
- ARROW-5439 - [Java] 在文件格式中利用流的 EOS
- ARROW-5444 - [发布][网站] 0.14 版本发布后,更新“官方”发布的定义
- ARROW-5458 - [C++] ARMv8 并行 CRC32c 计算优化
- ARROW-5480 - [Python] Pandas 分类类型在经过 parquet 往返后无法保留
- ARROW-5483 - [Java] 添加接受 Field 对象的 ValueVector 构造函数
- ARROW-5494 - [Python] 创建 FileSystem 绑定
- ARROW-5505 - [R] 停止屏蔽基础 R 函数/重新考虑命名空间
- ARROW-5527 - [C++] HashTable/MemoTable 应使用 Buffer(s)/Builder(s) 处理堆数据
- ARROW-5558 - [C++] 支持在具有非零偏移量的数组上使用 Array::View
- ARROW-5559 - [C++] 引入 IpcOptions 结构体对象,以便在添加新选项时获得更好的 API 稳定性
- ARROW-5564 - [C++] 将 uriparser 添加到 conda-forge
- ARROW-5579 - [Java] 对 flatbuffer 依赖进行 shade 处理
- ARROW-5580 - [C++][Gandiva] 修正 Gandiva 中时间戳函数的定义
- ARROW-5588 - [C++] 更好地支持构建 UnionArrays
- ARROW-5594 - [C++] 为 Take 和 Filter 添加对 UnionArrays 的支持
- ARROW-5610 - [Python] 在 Python 中定义扩展类型 API 以“接收”或“发送”外部扩展类型
- ARROW-5646 - [Crossbow][文档] 将用户指南移动到 Sphinx 文档中
- ARROW-5681 - [FlightRPC] 包装 gRPC 异常/状态
- ARROW-5686 - [R] 审查 R Windows CI 构建
- ARROW-5716 - [开发者] 改进合并 PR 脚本以确认共同作者
- ARROW-5717 - [Python] 在将可变字典转换为 pandas 时支持字典统一
- ARROW-5719 - [Java] 支持向量原地排序
- ARROW-5722 - [Rust] 为 ListArray、BinaryArray 和 StructArray 实现 std::fmt::Debug
- ARROW-5734 - [Python] 从 pyarrow.table 工厂函数分派到 Table.from_arrays
- ARROW-5736 - [格式][C++] 支持稀疏张量中的小位宽索引
- ARROW-5741 - [JS] 使从函数创建的数值向量与 TypedArray.from 保持一致
- ARROW-5743 - [C++] 添加 CMake 选项以启用“大内存”单元测试
- ARROW-5746 - [网站] 将网站源码移出 apache/arrow
- ARROW-5747 - [C++] 在 CSV 读取器中更好地支持列名和标题
- ARROW-5758 - [C++][Gandiva] 支持将 decimal 转换为 varchar,反之亦然
- ARROW-5762 - [集成][JS] Map 类型的集成测试
- ARROW-5777 - [C++] BasicDecimal128 是一个小对象,并不总是适合通过 const ref 传递
- ARROW-5778 - [Java] 将向量数据复制的逻辑提取到超类中
- ARROW-5784 - [发布][GLib] 在 dev/release/02-source.sh 中运行 c_glib/autogen.sh 后替换 c_glib/
- ARROW-5786 - [发布] 在 dev/release/01-prepare.sh 中使用 arrow-jni profile
- ARROW-5788 - [Rust] 为 arrow 和 parquet 依赖使用 { version = "...", path = "../..." }
- ARROW-5789 - [C++] 小的警告/链接清理
- ARROW-5792 - [Rust] [Parquet] parquet 类型的访问者 trait
- ARROW-5798 - [打包][deb] 更新文档架构
- ARROW-5800 - [R] 将 R Travis CI 测试 Docker 化,以便可以通过 docker-compose 在任何地方运行
- ARROW-5803 - [C++] 使用 clang 7 Docker 化 C++ Travis CI 单元测试逻辑
- ARROW-5812 - [Java] 重构 BaseIntVector 中的方法名和参数类型
- ARROW-5813 - [C++] 支持检查不同连续张量的相等性
- ARROW-5814 - [Java] 为 DictionaryEncoder 实现一个
- ARROW-5827 - [C++] 需要 c-ares CMake 配置
- ARROW-5828 - [C++] 添加 Protocol Buffers 版本检查
- ARROW-5830 - [C++] 在 TensorEquals 中停止使用 memcmp
- ARROW-5832 - [Java] 支持向量数据的搜索操作
- ARROW-5833 - [C++] 从 cast.cc 中分解出状态复制代码
- ARROW-5834 - [Java] 在 DictionaryEncoder 中应用新的哈希映射
- ARROW-5835 - [Java] 支持二进制类型的字典编码
- ARROW-5841 - [网站] 添加 0.14.0 发布说明
- ARROW-5842 - [Java] 修改 ListVector 中 lastSet 的语义
- ARROW-5843 - [Java] 提高 BitVectorHelper#getNullCount 的可读性和性能
- ARROW-5844 - [Java] 支持更多数值类型的比较和排序
- ARROW-5846 - [Java] 创建 Avro 适配器模块并添加依赖项
- ARROW-5853 - [Python] 在 Array 上公开布尔过滤器内核
- ARROW-5861 - [Java] 初步实现转换带有原始类型的 Avro 记录
- ARROW-5862 - [Java] 提供字典构建器
- ARROW-5864 - [Python] 简化 Result 的 cython 包装
- ARROW-5865 - [发布] 用于在 master 上 rebase 开放的 pull request 的辅助脚本
- ARROW-5866 - [C++] 移除 cpp/Brewfile 中重复的库
- ARROW-5867 - [C++][Gandiva] 添加支持将 int 转换为 decimal
- ARROW-5872 - 在 Gandiva 中支持 mod(double, double) 方法
- ARROW-5876 - [FlightRPC] 在所有语言中实现基本认证
- ARROW-5877 - [FlightRPC] 修复 Python/Java 之间的认证不兼容问题
- ARROW-5880 - [C++] 更新 arrow parquet 写入器以使用 TypedBufferBuilder
- ARROW-5881 - [Java] 提供有效确定有效性缓冲区是否完全为 1 位/0 位的功能
- ARROW-5883 - [Java] 支持 List 和 Struct 类型的字典编码
- ARROW-5888 - [Python][C++] 添加元数据以在 Parquet 文件元数据中存储 Arrow 时区
- ARROW-5891 - [C++][Gandiva] 移除函数注册表中的重复项
- ARROW-5892 - [C++][Gandiva] 支持函数别名
- ARROW-5893 - [C++] 从 C++ 库中移除 arrow::Column 类
- ARROW-5897 - [Java] 移除 MapVector 中的重复逻辑
- ARROW-5898 - [Java] 提供有效计算任意内存段哈希码的功能
- ARROW-5900 - [Gandiva] [Java] Decimal 精度、范围边界检查
- ARROW-5901 - [Rust] 实现 PartialEq 以比较数组和 json 值
- ARROW-5902 - [Java] 为字典编码实现哈希表和 equals & hashCode API
- ARROW-5903 - [Java] DecimalVector 中的 set 方法很慢
- ARROW-5904 - [Java] [Plasma] 修复 Plasma Java 客户端的编译问题
- ARROW-5906 - [CI] 在 Travis CI 运行的构建中设置 -DARROW_VERBOSE_THIRDPARTY_BUILD=OFF,可能默认用于所有 docker-compose 构建
- ARROW-5908 - [C#] ArrowStreamWriter 不会将缓冲区对齐到 8 字节
- ARROW-5909 - [Java] 优化 ByteFunctionHelpers 的 equals 和 compare 逻辑
- ARROW-5911 - [Java] 使 ListVector 和 MapVector 延迟创建读取器
- ARROW-5917 - [Java] 重新设计字典编码器
- ARROW-5918 - [Java] 向 BaseIntVector 接口添加 get 方法
- ARROW-5919 - [R] 添加夜间测试,用于使用 conda-forge 的依赖构建 r-arrow
- ARROW-5920 - [Java] 支持所有变宽向量的排序和比较
- ARROW-5924 - [C++][Plasma] 释放 GPU 对象不方便
- ARROW-5934 - [Python] 将 arrow 的 LICENSE 文件与 wheel 包捆绑
- ARROW-5937 - [发布] 停止并行二进制上传
- ARROW-5938 - [发布] 创建分支以自动添加发布说明
- ARROW-5939 - [发布] 添加对单独生成投票邮件模板的支持
- ARROW-5940 - [发布] 添加对重新上传二进制构件的签名/校验和的支持
- ARROW-5941 - [发布] 避免重新上传已上传的二进制构件
- ARROW-5943 - [GLib][Gandiva] 添加对函数别名的支持
- ARROW-5944 - [C++][Gandiva] 移除'divide'的别名'div'
- ARROW-5945 - [Rust] [DataFusion] Table trait 应支持构建完整查询
- ARROW-5947 - [Rust] [DataFusion] 移除 serde_json 依赖
- ARROW-5948 - [Rust] [DataFusion] create_logical_plan 不应调用优化器
- ARROW-5955 - [Plasma] 支持为每个 plasma 客户端设置内存配额以实现更好的隔离
- ARROW-5957 - [C++][Gandiva] 在 Gandiva 中实现 div 函数
- ARROW-5958 - [Python] 在 wheel 包中静态链接 zlib
- ARROW-5961 - [R] 即使没有 C++ 库也能运行仅限 R 的测试
- ARROW-5962 - [CI][Python] 不在 Travis CI 中测试 manylinux1 wheel 包
- ARROW-5967 - [Java] DateUtility#timeZoneList 不正确
- ARROW-5970 - [Java] 提供指向 Arrow 缓冲区的指针
- ARROW-5974 - [Python][C++] 使 CSV 读取器能够从连接的 gzip 流中读取
- ARROW-5975 - [C++][Gandiva] 添加将 Date(以毫秒为单位)转换为时间戳的方法
- ARROW-5976 - [C++] RETURN_IF_ERROR(ctx) 应该有命名空间
- ARROW-5977 - [C++] [Python] read_csv 方法限制读取哪些列?
- ARROW-5979 - [FlightRPC] 公开协议类型的(反)序列化
- ARROW-5985 - [开发者] dev/merge_arrow_pr.py 中不要建议为点发布设置 Fix Version
- ARROW-5986 - [Java] 字典编码的代码清理
- ARROW-5988 - [Java] Avro 适配器实现简单的 Record 类型
- ARROW-5997 - [Java] 支持 Union 类型的字典编码
- ARROW-5998 - [Java] 开一个文档来跟踪 API 的变化
- ARROW-6000 - [Python] 公开 LargeBinaryType 和 LargeStringType
- ARROW-6008 - [发布] 不要并行化 bintray 上传脚本
- ARROW-6009 - [发布][JS] 在 javascript 发布脚本中忽略 NPM 错误
- ARROW-6013 - [Java] 支持范围搜索器
- ARROW-6017 - [FlightRPC] 允许创建具有未知方案的 Locations
- ARROW-6020 - [Java] 使用新添加的 ArrowBufHasher 重构 ByteFunctionHelper#hash
- ARROW-6021 - [Java] 将 copyFrom 和 copyFromSafe 方法提取到 ValueVector 接口
- ARROW-6022 - [Java] 在 ValueVector 中支持 equals API 以比较两个向量是否相等
- ARROW-6023 - [C++][Gandiva] 在 Gandiva 中添加函数
- ARROW-6024 - [Java] 提供更多哈希算法
- ARROW-6026 - [文档] 添加 CONTRIBUTING.md
- ARROW-6030 - [Java] 高效计算 ArrowBufPointer 的哈希码
- ARROW-6031 - [Java] 支持通过 ArrowBufPointer 迭代向量
- ARROW-6034 - [C++][Gandiva] 在 Gandiva 中添加字符串函数
- ARROW-6035 - [Java] Avro 适配器支持转换可空值
- ARROW-6036 - [GLib] 添加对跳过行和 column_names 的 CSV 读取选项的支持
- ARROW-6037 - [GLib] 添加一个缺失的版本宏
- ARROW-6039 - [GLib] 添加 garrow_array_filter()
- ARROW-6041 - [网站] 宣布 R 软件包发布的博文
- ARROW-6042 - [C++] 实现一个总是产生 int32 索引的替代 DictionaryBuilder
- ARROW-6045 - [C++] Parquet 浮点数和 NaN 编码/解码的基准测试
- ARROW-6048 - [C++] 添加调用 Array::View 的 ChunkedArray::View
- ARROW-6049 - [C++] 支持从兼容的字典类型到另一个字典类型使用 Array::View
- ARROW-6053 - [Python] RecordBatchStreamReader::Open2 cdef 类型签名与 C++ 不匹配
- ARROW-6063 - [FlightRPC] 为 DoPut 实现“半关闭”语义
- ARROW-6065 - [C++] 重组 parquet/arrow/reader.cc,移除代码重复,提高可读性
- ARROW-6069 - [Rust] [Parquet] 实现 Converter 以将记录读取器转换为 arrow 原始数组。
- ARROW-6070 - [Java] 在 IPC 发送前避免创建新的 schema
- ARROW-6077 - [C++][Parquet] 构建将 Arrow 字段映射到 Parquet 模式级别的逻辑模式树
- ARROW-6078 - [Java] 实现 List 类型的字典编码子字段
- ARROW-6079 - [Java] 为 FixedSizeListVector 实现/测试 UnionFixedSizeListWriter
- ARROW-6080 - [Java] 支持 BaseRepeatedValueVector 的比较和搜索操作
- ARROW-6083 - [Java] 重构 Jdbc 适配器消费逻辑
- ARROW-6084 - [Python] 支持 LargeList
- ARROW-6085 - [Rust] [DataFusion] 为物理查询计划创建 trait
- ARROW-6086 - [Rust] [DataFusion] 实现 parquet 扫描的并行执行
- ARROW-6087 - [Rust] [DataFusion] 实现 CSV 扫描的并行执行
- ARROW-6088 - [Rust] [DataFusion] 实现投影的并行执行
- ARROW-6089 - [Rust] [DataFusion] 实现选择的并行执行
- ARROW-6090 - [Rust] [DataFusion] 实现哈希聚合的并行执行
- ARROW-6093 - [Java] 减少 VectorRangeSearcher 中首次匹配算法的分支
- ARROW-6094 - [格式][Flight] 将 GetFlightSchema 添加到 Flight RPC
- ARROW-6096 - [C++] 有条件地依赖 boost regex 库
- ARROW-6097 - [Java] Avro 适配器实现 unions 类型
- ARROW-6100 - [Rust] 固定到特定的 Rust nightly 版本
- ARROW-6101 - [Rust] [DataFusion] 从逻辑计划创建物理计划
- ARROW-6104 - [Rust] [DataFusion] 不允许 bare_trait_objects
- ARROW-6105 - [C++][Parquet][Python] 添加测试用例,显示嵌套类型中字典编码的子字段
- ARROW-6113 - [Java] 支持向量去重函数
- ARROW-6115 - [Python] 在转换为 pandas 时支持 LargeList, LargeString, LargeBinary
- ARROW-6118 - [Java] 用 Arrow Preconditions 替换 google Preconditions
- ARROW-6121 - [工具] 改进合并工具的 cli 人机工程学
- ARROW-6125 - [Python] 移除 0.14.x 之前弃用的所有 API
- ARROW-6127 - [网站] 添加网站图标和元标签
- ARROW-6128 - [C++] 无法用 g++ 8.3.0 构建,因为有 class-memaccess 警告
- ARROW-6130 - [发布] 使用 0.15.0 作为下一个版本
- ARROW-6134 - [C++][Gandiva] 在 Gandiva 中添加 concat 函数
- ARROW-6137 - [C++][Gandiva] 更改 Gandiva 中 castVARCHAR(timestamp) 的输出格式
- ARROW-6138 - [C++] 添加 Dataset 的基本(单个 RecordBatch)实现
- ARROW-6139 - [文档][R] 构建 R 文档(pkgdown)网站并添加到 arrow-site
- ARROW-6141 - [C++] 允许内存映射偏离文件开头的文件区域
- ARROW-6142 - [R] linux 上的安装说明可以更清晰
- ARROW-6143 - [Java] 统一所有向量的 copyFrom 和 copyFromSafe 方法
- ARROW-6144 - [C++][Gandiva] 在 Gandiva 中实现 random 函数
- ARROW-6155 - [Java] 为元素位于连续内存段的向量提取一个超接口
- ARROW-6156 - [Java] 支持 ArrowBufPointer 的比较语义
- ARROW-6161 - [C++] 实现 dataset::ParquetFile 及相关的 Scan 结构
- ARROW-6162 - [C++][Gandiva] 当 out_len 参数为零时,不要在 castVARCHAR_varchar 中截断字符串
- ARROW-6172 - [Java] 提供使用不同方法设置 IntVector 的基准测试
- ARROW-6177 - [C++] 添加 Array::Validate()
- ARROW-6180 - [C++] 创建一个 InputStream,作为 RandomAccessFile 段的独立读取器
- ARROW-6181 - [R] 仅允许在 linux 上安装不带 libarrow 的 R 软件包
- ARROW-6183 - [R] 文档说明如果你不想用 tidyselect,可以不用
- ARROW-6185 - [Java] 提供基于哈希表的字典构建器
- ARROW-6187 - [C++] 将 ExtensionType 写入 Parquet 时回退到存储类型
- ARROW-6188 - [GLib] 添加 garrow_array_is_in()
- ARROW-6192 - [GLib] 使用与 C++ 相同的 SO 版本
- ARROW-6194 - [Java] 在 DictionaryEncoder 中添加非静态方法,使其易于扩展和重用
- ARROW-6196 - [Ruby] 添加通过 .new 构建 Arrow::TimeNNArray 的支持
- ARROW-6197 - [GLib] 添加 garrow_decimal128_rescale()
- ARROW-6199 - [Java] Avro 适配器避免潜在的资源泄漏。
- ARROW-6203 - [GLib] 添加 garrow_array_sort_to_indices()
- ARROW-6204 - [GLib] 添加 garrow_array_is_in_chunked_array()
- ARROW-6206 - [Java][文档] 文档化环境变量/java 属性
- ARROW-6209 - [Java] 将 set null 方法提取到固定宽度向量的基类中
- ARROW-6212 - [Java] 支持向量排序操作
- ARROW-6216 - [C++] 允许用户选择压缩级别
- ARROW-6217 - [网站] 移除不必要的 _site/ 目录
- ARROW-6219 - [Java] 为 JDBC 适配器添加 API,一次可以转换少于完整结果集的部分。
- ARROW-6220 - [Java] 为 avro 适配器添加 API,一次限制返回的行数。
- ARROW-6225 - [网站] 更新 arrow-site/README 和任何其他地方,为网站贡献者指明正确方向
- ARROW-6229 - [C++] 添加一个扫描目录的 DataSource 实现
- ARROW-6230 - [R] 在 R 中读取 Parquet 文件的速度比读取 fst 文件慢 20 倍
- ARROW-6231 - [C++][Python] 考虑在读取 CSV 文件且 header_rows=0 时分配默认列名
- ARROW-6232 - [C++] 将 Argsort 内核重命名为 SortToIndices
- ARROW-6237 - [R] 添加选项,在用 $ARROW_R_CXXFLAGS 编译 R 包时设置 CXXFLAGS
- ARROW-6238 - [C++] 实现 SimpleDataSource/SimpleDataFragment
- ARROW-6240 - [Ruby] Arrow::Decimal128Array 返回 BigDecimal
- ARROW-6242 - [C++] 实现基本的 Dataset/Scanner/ScannerBuilder
- ARROW-6243 - [C++] 实现基本的 Filter 表达式类
- ARROW-6244 - [C++] 实现 Partition DataSource
- ARROW-6246 - [网站] 添加到 R 文档网站的链接
- ARROW-6247 - [Java] 为 float4 和 float8 向量提供一个通用接口
- ARROW-6249 - [Java] 移除无用的类 ByteArrayWrapper
- ARROW-6250 - [Java] 实现 ApproxEqualsVisitor,比较浮点数的近似值
- ARROW-6252 - [Python] 添加暴露 arrow::Diff 的 pyarrow.Array.diff 方法
- ARROW-6253 - [Python] 在 pyarrow.parquet.read_table 中公开来自 parquet::ReaderProperties 的“enable_buffered_stream”选项
- ARROW-6258 - [R] 添加 macOS 构建脚本
- ARROW-6260 - [网站] 在 Travis 上使用部署密钥来构建并推送到 asf-site
- ARROW-6262 - [开发者] 合并前显示 JIRA 问题
- ARROW-6264 - [Java] 在 ArrowBufHasher 中无需考虑字节顺序
- ARROW-6265 - [Java] Avro 适配器实现 Array/Map/Fixed 类型
- ARROW-6267 - [Ruby] 为 Arrow::Time{32,64}DataType 值添加 Arrow::Time
- ARROW-6271 - [Rust] [DataFusion] 添加针对 Parquet 运行 SQL 的示例
- ARROW-6272 - [Rust] [DataFusion] 向 ExecutionContext 添加 register_parquet 便捷方法
- ARROW-6278 - [R] 从原始向量读取 parquet 文件
- ARROW-6279 - [Python] 添加 Table.slice 方法或在 __getitem__ 中允许切片
- ARROW-6284 - [C++] 将 std::tuple 转换为 arrow 数组时允许在 std::tuple 中使用引用
- ARROW-6287 - [Rust] [DataFusion] 重构 TableProvider 以返回线程安全的 BatchIterator
- ARROW-6288 - [Java] 实现 TypeEqualsVisitor,比较向量类型是否相等,考虑名称和元数据
- ARROW-6289 - [Java] 在 UnionVector 中添加 empty() 来创建实例
- ARROW-6292 - [C++] 添加一个使用 mimalloc 构建的选项
- ARROW-6294 - [C++] 为 plasma-store-server 可执行文件使用连字符
- ARROW-6296 - [Java] 清理 JDBC 接口并消除二进制/varchar 字段的一次内存复制
- ARROW-6297 - [Java] 使用无符号整数比较 ArrowBufPointers
- ARROW-6300 - [C++] 添加 io::OutputStream::Abort()
- ARROW-6303 - [Rust] 添加一个禁用 SIMD 的功能
- ARROW-6304 - [Java] 为每个 maven 构件添加描述
- ARROW-6306 - [Java] 通过稳定比较器支持稳定排序
- ARROW-6310 - [C++] 在 JSON 集成测试文件中将64位整数写为字符串
- ARROW-6311 - [Java] 让 ApproxEqualsVisitor 接受 DiffFunction 使其更灵活
- ARROW-6313 - [格式] 跟踪以确保 flatbuffer 序列化的值在流/文件中对齐。
- ARROW-6314 - [C++] 实施更改以确保 flatbuffer 对齐。
- ARROW-6315 - [Java] 进行更改以确保 flatbuffer 读取对齐
- ARROW-6316 - [Go] 进行更改以确保 flatbuffer 读取对齐
- ARROW-6317 - [JS] 实施更改以确保 flatbuffer 对齐
- ARROW-6318 - [集成] 更新集成测试以使用生成的二进制文件,以确保向后兼容性
-
ARROW-6319 - [C++] 提取 NumericTensor 的核心
::Value as Tensor::Value - ARROW-6326 - [C++] 将 std::tuple 转换为 Table 时的可空字段
- ARROW-6328 - Click.option-s 应有帮助文本
- ARROW-6329 - [格式] 向 IPC 消息格式添加4字节的“流继续符”以对齐 Flatbuffers
- ARROW-6331 - [Java] 将 ErrorProne 集成到 java 构建中
- ARROW-6334 - [Java] 改进字典构建器 API,以返回字典中值的位置
- ARROW-6335 - [Java] 提高 DictionaryHashTable 的性能
- ARROW-6336 - [Python] 澄清 pyarrow.serialize/deserialize 文档字符串中与 Arrow IPC 协议的关系
- ARROW-6337 - [R] R API 中的 as_tibble 是一个用词不当的名称
- ARROW-6338 - [R] 类型函数名称与类型名称不匹配
- ARROW-6342 - [Python] 添加 pyarrow.record_batch 工厂函数,具有与 pyarrow.table 相同的基本 API / 语义
- ARROW-6346 - [GLib] 添加 garrow_array_view()
- ARROW-6347 - [GLib] 添加 garrow_array_diff_unified()
- ARROW-6350 - [Ruby] 移除 Arrow::Struct,改用 Hash
- ARROW-6351 - [Ruby] 提高 Arrow#values 性能
- ARROW-6353 - [Python] 允许用户在 pyarrow.parquet.write_table 中选择压缩级别
- ARROW-6355 - [Java] 使范围相等访问器可重用
- ARROW-6356 - [Java] Avro 适配器实现 Enum 类型和嵌套 Record 类型
- ARROW-6357 - [C++] S3: 允许后台写入
- ARROW-6358 - [C++] FileSystem::DeleteDir 应该将删除目录本身设为可选
- ARROW-6360 - [R] 更新对压缩的支持
- ARROW-6362 - [C++] S3: 更灵活的凭证选项
- ARROW-6365 - [R] 应该能够使用 schema 将 numeric 强制转换为 integer
- ARROW-6366 - [Java] 明确地使字段向量成为 final
- ARROW-6368 - [C++] 添加 RecordBatch 投影功能
- ARROW-6373 - [C++] 使 FixedWidthBinaryBuilder 与其他原始固定宽度构建器保持一致
- ARROW-6375 - [C++] 扩展 ConversionTraits 以允许在 STL API 中高效地追加列表值
- ARROW-6379 - [C++] 为 IPC 序列化 NullType 时不追加任何缓冲区
- ARROW-6381 - [C++] BufferOutputStream::Write 对于许多小写入很慢
- ARROW-6383 - [Java] 在父分配器关闭时报告未完成的子分配器
- ARROW-6384 - [C++] 提升依赖项版本
- ARROW-6385 - [C++] 研究 xxh3
- ARROW-6391 - [Python][Flight] 在 FlightServerBase 上添加内置方法以启动服务器并等待其可用
- ARROW-6397 - [C++][CI] 修复 S3 minio 失败
- ARROW-6401 - [Java] 实现 Struct 类型的字典编码子字段
- ARROW-6402 - [C++] 使用 g++ 9.2.1 抑制 sign-compare 警告
- ARROW-6403 - [Python] 向 Python 公开 FileReader::ReadRowGroups()
- ARROW-6408 - [Rust] 在 SIMD 内核实现中使用 "if cfg!" 模式
- ARROW-6413 - [R] 支持自动生成列名
- ARROW-6415 - [R] 移除对 R CMD config CXXCPP 的使用
- ARROW-6416 - [Python] 关于块大小的 API 和文档令人困惑
- ARROW-6419 - [网站] 关于 0.15.x 版本中 Parquet 字典性能工作的博文
- ARROW-6422 - [Gandiva] 修复 double-conversion 链接器问题
- ARROW-6426 - [FlightRPC] 在 Flight 中公开 gRPC 配置旋钮
- ARROW-6427 - [GLib] 添加对列名自动生成 CSV 读取选项的支持
- ARROW-6438 - [R] 添加文件系统 API 的绑定
- ARROW-6447 - [C++] 使用 ARROW_JEMALLOC=ON 的构建在构建任何 libarrow .cc 文件之前会等待 jemalloc_ep 完成
- ARROW-6450 - [C++] 在 arrow::BufferBuilder 中使用 2x 重分配策略而不是 1.5x
- ARROW-6451 - [格式] 在 Columnar.rst 中添加关于 Varbinary 或 List 数组中“null”槽内容的澄清
- ARROW-6453 - [C++] 来自 S3 的更具信息性的错误消息
- ARROW-6454 - [开发者] 由于包中的二进制再分发,将 LLVM 许可证添加到 LICENSE.txt
- ARROW-6458 - [Java] 移除 ApproxEqualsVisitor 的值装箱/拆箱
- ARROW-6460 - [Java] 为 avro 适配器添加基准测试和大型假数据 UT
- ARROW-6462 - [C++] 无法在 CentOS 6 x86_64 上使用捆绑的 double-conversion 构建
- ARROW-6465 - [Python] 改进 Windows 构建说明
- ARROW-6474 - [Python] 提供 python 写出旧格式的机制
- ARROW-6475 - [C++] 不要尝试对字典数组进行字典编码
- ARROW-6477 - [打包][Crossbow] 使用 Azure Pipelines 构建 linux 包
- ARROW-6480 - [开发者] 添加命令以生成并发送 Crossbow 运行的电子邮件报告
- ARROW-6484 - [Java] 根据字典值计数启用为 DictionaryEncoding 创建 indexType
- ARROW-6487 - [Rust] [DataFusion] 创建测试工具模块
- ARROW-6489 - [开发者][文档] 修复合并脚本和 readme
- ARROW-6490 - [Java] 在分配器关闭时记录泄漏错误
- ARROW-6491 - [Java] 修复由 ErrorProne 导致的主构建失败
- ARROW-6494 - [C++][Dataset] 实现基本的 PartitionScheme
- ARROW-6504 - [Python][打包] 将 mimalloc 添加到 conda 包以获得更好的性能
- ARROW-6505 - [网站] 添加新的提交者
- ARROW-6518 - [打包][Python] 在 OSX Python wheel 构建中 Flight 失败
- ARROW-6519 - [Java] 使用 IPC 继续标记来标记 EOS
- ARROW-6524 - [开发者][打包] 夜间构建报告的主题应包含 Arrow
- ARROW-6525 - [C++] CloseFromDestructor() 或许不应该崩溃
- ARROW-6526 - [C++] 在 PoolBuffer 析构函数中毒化数据
- ARROW-6527 - [C++] 添加接受自有缓冲区的 OutputStream::Write() 变体
- ARROW-6531 - [Python] 向缓冲流添加 detach() 方法
- ARROW-6532 - [R] 使用压缩写入 parquet 文件
- ARROW-6533 - [R] 压缩编解码器应该接受一个“level”参数
- ARROW-6534 - [Java] 修复错别字和拼写错误
- ARROW-6539 - [R] 提供写出旧格式的机制
- ARROW-6540 - [R] 添加 Validate() 方法
- ARROW-6541 - [格式][C++] 使用两部分 EOS 并修订格式文档
- ARROW-6542 - [R] 向数组类型添加 View() 方法
- ARROW-6544 - [R] 0.15 发布的文档/润色
- ARROW-6545 - [Go] 根据邮件列表讨论更新 Go IPC 写入器以使用两部分 EOS
- ARROW-6546 - [C++] 添加缺失的 FlatBuffers 源依赖
- ARROW-6549 - [C++] 切换回最新的 jemalloc 5.x
- ARROW-6556 - [Python] 为没有 SparseDataFrame 的 pandas 发布做准备
- ARROW-6557 - [Python] Array/ChunkedArray.to_pandas 总是返回 pandas.Series,将字段名从 RecordBatch, Table 传播到 Series
- ARROW-6558 - [C++] 将 Iterator 重构为类型擦除句柄
- ARROW-6559 - [开发者][C++] 添加 "archery" 选项以指定 C++ 构建的系统工具链
- ARROW-6563 - [Rust] [DataFusion] 创建 "merge" 执行计划
- ARROW-6569 - [网站] 添加对 GitHub Actions 自动部署的支持
- ARROW-6570 - [Python] 使用 MemoryPool 在 to_pandas 调用中为 NumPy 数组分配内存
- ARROW-6580 - [Java] 支持无符号整数的比较
- ARROW-6584 - [Python][Wheel] 再次将 zlib 与 windows wheel 包捆绑
- ARROW-6588 - [C++] 使用 g++ 9.2.1 抑制 class-memaccess 警告
- ARROW-6589 - [C++] 在 MakeArrayOfNull 中支持 BinaryType
- ARROW-6590 - [C++] 当 ARROW_IPC=ON 时,不要求 ARROW_JSON=ON
- ARROW-6591 - [R] 在源代码控制中忽略 .Rhistory 文件
- ARROW-6599 - [Rust] [DataFusion] 实现 SUM 聚合表达式
- ARROW-6601 - [Java] 提高 JDBC 适配器性能并添加基准测试
- ARROW-6605 - [C++] 向 fs::Selector 添加递归深度控制
- ARROW-6606 - [C++] 从 std::vectorfs::FileStats 构建树结构
- ARROW-6609 - [C++] 添加最小化构建 Dockerfile 示例
- ARROW-6610 - [C++] 添加 ARROW_FILESYSTEM=ON/OFF CMake 配置标志
- ARROW-6613 - [C++] 移除对 boost::filesystem 的依赖
- ARROW-6614 - [C++][Dataset] 实现 FileSystemDataSourceDiscovery
- ARROW-6621 - [Rust][DataFusion] DataFusion 的示例未在 CI 中执行
- ARROW-6629 - [文档][C++] 文档化 FileSystem API
- ARROW-6630 - [文档][C++] 文档化文件读取器(CSV、JSON、Parquet 等)
- ARROW-6644 - [JS] 修订 NullType IPC 协议以不附加缓冲区
- ARROW-6647 - [C++] 在 CentOS 7 上无法使用 g++ 4.8.5 构建,因为 shared_ptr 的成员初始化器问题
- ARROW-6648 - [Go] 开放 bitutil 包
- ARROW-6649 - [R] 为 Table、RecordBatch 等添加 print() 方法
- ARROW-6653 - [Developer] 在拉取请求中增加对 JIRA 链接的自动支持
- ARROW-6655 - [Python] 为 S3 提供文件系统绑定
- ARROW-6664 - [C++] 增加无 SSE4.2 的构建选项
- ARROW-6665 - [Rust] [DataFusion] 实现数字字面量表达式
- ARROW-6667 - [Python] 避免在 pyarrow.parquet 中出现引用循环
- ARROW-6668 - [Rust] [DataFusion] 实现 CAST 表达式
- ARROW-6669 - [Rust] [DataFusion] 实现二元表达式的物理表达式
- ARROW-6675 - [JS] 向 dataFrame 和 filteredDataframe 添加 scanReverse 函数
- ARROW-6683 - [Python] 添加单元测试,以验证在安装 fastparquet 时与 pyarrow.parquet 的交叉兼容性
- ARROW-6725 - [CI] 禁用第三方 fuzzit 夜间构建
- ARROW-6735 - [C++] 在 g++ 9.2.1 中抑制符号比较警告
- ARROW-6752 - [Go] 为 Null 数组实现 Stringer 接口
- ARROW-6755 - [Release] 改进 Windows 发布验证脚本
- ARROW-6771 - [Packaging][Python] conda 和 wheel 构建中缺少 pytest 依赖
- ARROW-750 - [Format] 添加 LargeBinary 和 LargeString 类型
Bug 修复
- ARROW-1184 - [Java] Dictionary.equals 工作不正常
- ARROW-2317 - [Python] 修复 C 链接警告
- ARROW-2490 - [C++] 输入流锁定不一致
- ARROW-3176 - [Python] Date32 列转换为 pandas 时发生溢出
- ARROW-3203 - [C++] 在 Debian Buster 上的构建错误
- ARROW-3651 - [Python] 来自非 DateTimeIndex 的日期时间无法反序列化
- ARROW-3652 - [Python] CategoricalIndex 在回读后丢失
- ARROW-3762 - [C++] 当 BinaryArray 容量溢出时,Parquet arrow::Table 读取出错
- ARROW-3933 - [Python] 从 GNOMAD 读取 Parquet 文件时出现段错误
- ARROW-4187 - [C++] file-benchmark 使用 <poll.h>
- ARROW-4746 - [C++/Python] PyDataTime_Date 被错误地转换为 PyDataTime_DateTime
- ARROW-4836 - [Python] 使用 RecordBatchStreamWriter 时出现 "Cannot tell() a compressed stream" 错误
- ARROW-4848 - [C++] 在 Windows 上编译静态库 libparquet 时未使用 -DARROW_STATIC
- ARROW-4880 - [Python] CMake 重构后 python/asv-build.sh 可能已损坏
- ARROW-4883 - [Python] 如果在文本模式下给定文件对象,read_csv() 返回垃圾数据
-
ARROW-5028 - [Python][C++] 创建列表
使用 pyarrow.array 可能会导致子构建器溢出 - ARROW-5085 - [Python/C++] 在使用 RowGroups 写入 parquet 时,字典编码的空列转换失败
- ARROW-5086 - [Python] ParquetFile.read_row_group() 中存在内存泄漏
- ARROW-5089 - [C++/Python] 使用分块大小时,将字典编码的列写入 parquet 的速度极慢
- ARROW-5125 - [Python] 无法通过 pyarrow 往返处理极端日期
- ARROW-5220 - [Python] 在 Table.from_pandas 的指定 schema 中存在索引/未知列
- ARROW-5292 - [C++] 静态库在 AppVeyor 上构建
- ARROW-5300 - [C++] 0.13 版本使用 -DARROW_NO_DEFAULT_MEMORY_POOL 选项构建失败
- ARROW-5374 - [Python] 在完整的 IPC 流上调用 pyarrow.read_record_batch 时出现误导性错误消息
- ARROW-5414 - [C++] 在 Windows 上使用 "Ninja" 构建系统生成器会覆盖默认的 Release 构建类型
- ARROW-5450 - [Python] TimestampArray.to_pylist() 失败并显示 OverflowError: Python int too large to convert to C long
- ARROW-5471 - [C++][Gandiva] 数组偏移量在 Gandiva projector 中被忽略
- ARROW-5522 - [Packaging][Documentation] python/manylinux1/build_arrow.sh 中的注释已过时
- ARROW-5525 - [C++][CI] 启用持续模糊测试
- ARROW-5560 - [C++][Plasma] OutOfMemory 错误后无法创建 Plasma 对象
- ARROW-5562 - [C++][Parquet] parquet 写入器不能正确处理负零
- ARROW-5630 - [Python][Parquet] 嵌套数组的表无法往返处理
- ARROW-5638 - [C++] 启用 Gandiva JNI 绑定时,cmake 无法生成 Xcode 项目
- ARROW-5651 - [Python] 在指定其他类型时,从跨步 Numpy 数组转换不正确
- ARROW-5682 - [Python] from_pandas 转换将值转换为字符串的方式不一致
- ARROW-5731 - [CI] Turbodbc 集成测试失败
- ARROW-5753 - [Rust] 修复 CI 代码覆盖率中的测试失败问题
- ARROW-5772 - [GLib][Plasma][CUDA] Plasma::Client#refer_object 测试失败
- ARROW-5775 - [C++] StructArray:缓存的盒装字段不是线程安全的
- ARROW-5776 - [Gandiva][Crossbow] 还原模板以包含提交ID
- ARROW-5790 - [Python] 将零维 numpy 数组传递给 pa.array 会导致段错误
- ARROW-5817 - [Python] 对 Flight 测试使用 pytest 标记,以避免因导入失败而静默跳过单元测试
- ARROW-5823 - [Rust] CI 脚本缺少 --all-targets cargo 参数
- ARROW-5824 - [Gandiva] [C++] 修复十进制空值
- ARROW-5836 - [Java][OSX] Flight 测试失败:地址已被使用
- ARROW-5838 - [C++][Flight][OSX] 构建第三方 grpc 无法找到 OpenSSL
- ARROW-5848 - [C++] 1.0.0 版本发布后的 SO 版本控制方案
- ARROW-5849 - [C++] mingw-w64 上的编译器警告
- ARROW-5851 - [C++] 参考基准测试编译失败
- ARROW-5856 - [Python] 自 0.14.0 版本以来,将第三方 cython 模块链接到 pyarrow 失败
- ARROW-5860 - [Java] [Vector] 修复十进制字节设置器
- ARROW-5863 - [Python] 通过 pytest-runner 发生段错误
- ARROW-5868 - [Python] manylinux2010 wheels 对 liblz4 有共享库依赖
- ARROW-5870 - [C++] 开发编译说明需要包含 "make"
- ARROW-5873 - [Python] 将 schema 与 None 比较时出现段错误
- ARROW-5874 - [Python] pyarrow 0.14.0 macOS wheels 依赖于 /usr/local/opt 下的共享库
- ARROW-5878 - [Python][C++] Parquet 读取器对无时区的时间戳不向前兼容
- ARROW-5884 - [Java] 修复 StructVector 的 get 方法
- ARROW-5886 - [Python][Packaging] 与 libz 相关的 manylinux1/2010 兼容性问题
- ARROW-5887 - [C#] ArrowStreamWriter 以错误的顺序写入 FieldNodes
- ARROW-5889 - [Python][C++] Parquet 对无时区时间戳的向后兼容性被破坏
- ARROW-5894 - [C++] libgandiva.so.14 正在导出 libstdc++ 符号
- ARROW-5899 - [Python][Packaging] 在 windows wheels 中捆绑 uriparser.dll
- ARROW-5910 - [Python] read_tensor() 在不可寻址的流上失败
- ARROW-5921 - [C++][Fuzzing] IPC 中缺少空指针检查
- ARROW-5923 - [C++] 修复 int96 注释
- ARROW-5925 - [Gandiva][C++] 将十进制转换为整数时应向上取整
- ARROW-5930 - [FlightRPC] [Python] Flight CI 测试失败
- ARROW-5935 - [C++] 带有可变类型的 ArrayBuilders 不被稳健支持
- ARROW-5946 - [Rust] [DataFusion] 使用聚合的投影下推产生不正确的结果
- ARROW-5952 - [Python] 以 category 作为 pandas dataframe 读取空表时出现段错误
- ARROW-5959 - [C++][CI] Fuzzit 不知道分支 + 提交哈希
- ARROW-5960 - [C++] Boost 依赖项的指定顺序错误
- ARROW-5963 - [R] R Appveyor 作业不测试 C++ 库中的更改
- ARROW-5964 - [C++][Gandiva] 将 double 转换为带舍入的十进制返回 0
- ARROW-5966 - [Python] 将大型 UTF32 numpy 数组转换为 arrow 数组时出现容量错误
- ARROW-5968 - [Java] 在 JDBC 适配器中移除重复的 Preconditions 检查
- ARROW-5969 - [CI] [R] Lint 失败
- ARROW-5973 - [Java] 当底层数据为 null 时,可变宽度向量的 get 方法应返回 null
- ARROW-5978 - [FlightRPC] [Java] 集成测试客户端未关闭缓冲区
- ARROW-5989 - [C++][Python] 使用 openjdk-8 时出现 pyarrow.lib.ArrowIOError: Unable to load libjvm
- ARROW-5990 - [Python] RowGroupMetaData.column 缺少边界检查
- ARROW-5992 - [C++] 将 string/utf8 作为 binary 时 Array::View 失败
- ARROW-5996 - [Java] 避免 flight 服务中的资源泄漏
- ARROW-5999 - [C++] 使用 -DARROW_DATASET=OFF 构建时缺少必需的头文件
- ARROW-6002 - [C++][Gandiva] TestCastFunctions 未测试 int64 转换
- ARROW-6004 - [C++] CSV 读取器的 ignore_empty_lines 选项无法处理空行
- ARROW-6005 - [C++] 自 ARROW-1012 以来,parquet::arrow::FileReader::GetRecordBatchReader() 的行为与文档不符
- ARROW-6006 - [C++] 包含字典的空 IPC 流已损坏
- ARROW-6012 - [C++] 回退到已知的 Apache 镜像进行 Thrift 下载
- ARROW-6016 - [Python] pyarrow get_library_dirs断言错误
- ARROW-6029 - [R] 改进 R 文档中关于如何修复库版本不匹配的说明
- ARROW-6032 - [C++] CountSetBits 无法确保 64 位对齐访问
- ARROW-6038 - [Python] 如果任何批次为空,pyarrow.Table.from_batches 会生成损坏的表
- ARROW-6040 - [Java] 即使为空,IPC 流中也需要字典条目
- ARROW-6046 - [C++] 对偏移量为 0 的 String 数组的 RecordBatch 进行切片会返回整个批次
- ARROW-6047 - [Rust] Rust nightly 1.38.0 构建失败
- ARROW-6050 - [Java] 更新过时的 java/flight/README.md
- ARROW-6054 - pyarrow.serialize 应该尊重 numpy 结构化 dtype 的值
- ARROW-6058 - [Python][Parquet] 使用 s3fs 从 S3 读取 Parquet 文件时失败
- ARROW-6060 - [Python] 使用 pyarrow.parquet.read_table 且 use_threads=True 时内存成本过高
- ARROW-6061 - [C++] 没有 rapidjson 无法构建 libarrow
- ARROW-6066 - [Website] 修复博客文章作者标题
- ARROW-6067 - [Python] 大内存测试失败
- ARROW-6068 - [Python] Hypothesis 测试失败,添加接受字段向量的 StructType::Make
- ARROW-6073 - [C++] Decimal128Builder 在 Finish() 中未重置
- ARROW-6082 - [Python] 使用非整型索引类型创建 pa.dictionary() 类型时崩溃
- ARROW-6092 - [C++] Python 2.7: arrow_python_test 失败
- ARROW-6095 - [C++] Python 子项目忽略 ARROW_TEST_LINKAGE
- ARROW-6108 - [C++] Appveyor Build_Debug 配置在 C++ 单元测试中挂起
- ARROW-6116 - [C++][Gandiva] 修复 TimedTestFilterAdd2 中的错误
- ARROW-6117 - [Java] 修复 FixedSizeBinaryVector 的 set 方法
- ARROW-6120 - [C++][Gandiva] 包含某些头文件导致 decimal_test 失败
- ARROW-6126 - [C++] IPC 流读取器对空流的处理可能不够稳健
- ARROW-6132 - [Python] ListArray.from_arrays 不检查输入数组的有效性
- ARROW-6135 - [C++] KeyValueMetadata::Equals 不应区分顺序
- ARROW-6136 - [FlightRPC][Java] 不要重复关闭响应流
- ARROW-6145 - [Java] 由 MinorType#getNewVector 创建的 UnionVector 无法正确保留字段类型信息
- ARROW-6148 - [C++][Packaging] 改进对 aarch64 的支持
-
ARROW-6152 - [C++][Parquet] 直接将 arrow::Array 写入 parquet::TypedColumnWriter
- ARROW-6153 - [R] 解决 parquet 弃用警告
- ARROW-6158 - [Python] 可能创建与子数组类型冲突的 StructArray
- ARROW-6159 - [C++] arrow::Schema 的 PrettyPrint 第一行缺少缩进
- ARROW-6160 - [Java] AbstractStructVector#getPrimitiveVectors 无法与复杂的子向量一起工作
- ARROW-6166 - [Go] 切片的切片导致索引越界恐慌
- ARROW-6167 - [R] CRAN 上的 macOS 二进制 R 包没有 arrow_available
- ARROW-6170 - [R] "docker-compose build r" 速度慢
- ARROW-6171 - [R] "docker-compose run r" 失败
- ARROW-6174 - [C++] 在 ChunkedArray::Validate 中验证块
- ARROW-6175 - [Java] 修复 MapVector#getMinorType 并扩展 AbstractContainerVector 的 addOrGet 复杂向量 API
- ARROW-6178 - [Developer] 在多作者 PR 中,合并脚本不应因主要作者输入错误而失败
- ARROW-6182 - [R] 在 README 中添加关于 r-arrow conda 安装的说明
- ARROW-6186 - [Packaging][C++] ubuntu-xenial libplasma-dev debian 包未包含 Plasma 头文件
- ARROW-6190 - [C++] 无论 NDEBUG 如何,都定义和声明函数
- ARROW-6193 - [GLib] 在测试中添加缺失的 require
- ARROW-6200 - [Java] BaseRepeatedValueVector/ListVector 中的 getBufferSizeFor 方法不正确
- ARROW-6202 - [Java] 主线程异常 org.apache.arrow.memory.OutOfMemoryException: 由于内存限制,无法分配大小为 4 的缓冲区。当前分配:2147483646
- ARROW-6205 - [C++] 从 CUDA (.cu) 源文件包含 io/interfaces.h 时出现 ARROW_DEPRECATED 警告
- ARROW-6208 - [Java] 在 ByteFunctionHelpers 中比较前校正字节顺序
- ARROW-6210 - [Java] 从 ValueVector 中移除 equals API
- ARROW-6211 - [Java] 从 ValueVector 接口中移除对 RangeEqualsVisitor 的依赖
- ARROW-6214 - [R] 通过 R 绑定触发的消毒器错误
- ARROW-6215 - [Java] RangeEqualVisitor 未正确比较 ZeroVector
- ARROW-6218 - [Java] 在集成测试中添加 UINT 类型测试以避免潜在的溢出
- ARROW-6223 - [C++] Anaconda Python 3.7.4 的配置错误
- ARROW-6224 - [Python] 'data' 属性(来自先前的 Column)的剩余用法导致警告
- ARROW-6227 - [Python] pyarrow.array() 不应将 np.nan 强制转换为字符串
- ARROW-6234 - [Java] ListVector hashCode() 不正确
- ARROW-6241 - [Java] master 分支上的失败
- ARROW-6259 - [C++][CI] CI 在 macOS 上与 Flatbuffers 相关的失败
- ARROW-6263 - [Python] RecordBatch.from_arrays 不会根据传递的 schema 检查数组类型
- ARROW-6266 - [Java] 解决 RangeEqualsVisitor 中模棱两可的方法重载
- ARROW-6268 - 空缓冲区应该有一个有效的地址
- ARROW-6269 - [C++][Fuzzing] IPC 读取不检查十进制精度
- ARROW-6270 - [C++][Fuzzing] IPC 读取不检查缓冲区索引
- ARROW-6290 - [Rust] [DataFusion] sql_csv 示例在运行时出错
- ARROW-6291 - [C++] CMake 忽略 ARROW_PARQUET
- ARROW-6301 - [Python] atexit: pyarrow.lib.ArrowKeyError: '未找到名为 arrow.py_extension_type 的类型扩展'
- ARROW-6302 - [Python][Parquet] 使用序列化的 Arrow schema 读取字典类型时未恢复 "ordered" 类型属性
- ARROW-6309 - [C++] Parquet 测试和可执行文件是静态链接的
- ARROW-6323 - [R] 传递给读取器时扩展文件路径
- ARROW-6325 - [Python] 对带有布尔值的 DataFrame 转换错误
- ARROW-6330 - [C++] 在 api.h 中包含缺失的头文件
- ARROW-6332 - [Java][C++][Gandiva] 正确处理 varchar 向量的大小
- ARROW-6339 - [Python][C++] pd.NaT 数组的行组统计信息定义不明确
- ARROW-6343 - [Java] [Vector] 修复分配辅助函数
- ARROW-6344 - [C++][Gandiva] substring 不处理多字节字符
- ARROW-6345 - [C++][Python] 在比较 DictionaryType 值是否相等时,似乎未考虑 "ordered" 标志
- ARROW-6348 - [R] 未加载包时出现 arrow::read_csv_arrow 命名空间错误
- ARROW-6354 - [C++] 无 Parquet 的构建失败
- ARROW-6363 - [R] 在 Table__from_dots 中使用意外的 schema 导致段错误
- ARROW-6364 - [R] 处理对 time64() 等的意外输入
- ARROW-6369 - [Python] 在 Array.to_pandas 转换中支持布尔列表
- ARROW-6371 - [Doc] 行到列转换示例在注释中提到了 arrow::Column
- ARROW-6372 - [Rust][Datafusion] 不支持从无符号整数到有符号整数的转换
- ARROW-6376 - [Developer] PR 合并脚本硬编码了 "master" 目标引用
- ARROW-6387 - [Archery] 使用 make 时出错
- ARROW-6392 - [Python][Flight] list_actions 服务器 RPC 在 test_flight.py 中未测试,返回值也未验证
- ARROW-6406 - [C++] jemalloc_ep 在离线构建时失败
-
ARROW-6411 - [C++][Parquet] DictEncoderImpl
::PutIndicesTyped 在某些系统上性能不佳 - ARROW-6412 - [C++] arrow-flight-test 可能因端口分配而崩溃
- ARROW-6418 - [C++] Plasma cmake 目标未导出
- ARROW-6423 - [Python] pyarrow.CompressedOutputStream() 使用 compression='snappy' 时永不完成
- ARROW-6424 - [C++][Fuzzing] Fuzzit 夜间构建已损坏
- ARROW-6428 - [CI][Crossbow] 夜间 turbodbc 作业失败
- ARROW-6431 - [Python] 未安装 pandas 时测试套件失败
- ARROW-6432 - [CI][Crossbow] 移除 alpine crossbow 作业
- ARROW-6433 - [CI][Crossbow] 夜间 java docker 作业失败
- ARROW-6434 - [CI][Crossbow] 夜间 HDFS 集成作业失败
- ARROW-6435 - [CI][Crossbow] 夜间 dask 集成作业失败
- ARROW-6440 - [CI][Crossbow] 夜间 ubuntu、debian 和 centos 包构建失败
- ARROW-6441 - [CI][Crossbow] 夜间 Centos 6 作业失败
- ARROW-6443 - [CI][Crossbow] 夜间 conda osx 构建失败
- ARROW-6445 - [CI][Crossbow] 夜间 Gandiva jar trusty 作业失败
- ARROW-6446 - [OSX][Python][Wheel] 在 wheel 构建脚本中关闭 ORC 功能
- ARROW-6449 - [R] io "tell()" 方法命名不一致且未经测试
- ARROW-6457 - [C++] 使用 MSVC 2015 构建生成器时,CMake 本地构建失败
- ARROW-6461 - [Java] EchoServer 可能在客户端完成读取前关闭套接字
- ARROW-6472 - [Java] ValueVector#accept 可能存在潜在的转换异常
- ARROW-6476 - [Java][CI] Travis java all-jdks 作业已损坏
- ARROW-6478 - [C++] 回滚到 jemalloc stable-4 分支,直到 5.2.x 中的性能问题得到解决
- ARROW-6481 - [Python][C++] 使用 column_types 的 read_csv() 性能不佳
- ARROW-6488 - [Python] pyarrow.NULL 等于其自身
- ARROW-6492 - [Python] 使用最新 fastparquet 写入的文件无法用最新 pyarrow 读取
- ARROW-6502 - [GLib][CI] CI 中的 MinGW 失败
- ARROW-6506 - [C++] 对带有嵌套类型的 ExtensionType 的验证失败
- ARROW-6509 - [C++][Gandiva] 重新启用 Gandiva JNI 测试并修复 Travis CI 失败
- ARROW-6520 - [Python] 写入带有固定大小二进制字段的表时出现段错误
- ARROW-6522 - [Python] 使用 pandas 0.23.4, pytest 3.8.1 时测试套件失败
- ARROW-6530 - [CI][Crossbow][R] 夜间 R 作业未安装所有依赖项
- ARROW-6550 - [C++] 过滤表达式 PR 导致 manylinux 包构建失败
- ARROW-6552 - [C++] STL 测试中的 boost::optional 在 gcc 4.8.2 中编译失败
- ARROW-6560 - [Python] *-nopandas 集成测试失败
- ARROW-6561 - [Python] pandas-master 集成测试失败
- ARROW-6562 - [GLib] 修复 GArrowBuffer 切片数据错误的问题
- ARROW-6564 - [Python] 调用 Array.__array__ 时不要求安装 pandas
- ARROW-6565 - [Rust] [DataFusion] 由于临时目录已存在而导致的间歇性测试失败
- ARROW-6568 - [C++][Python][Parquet] 写入零块字典类型列时 pyarrow.parquet 崩溃
- ARROW-6572 - [C++] 读取某些 Parquet 数据可能返回未初始化的内存
- ARROW-6573 - [Python] 写入 parquet 时出现段错误
- ARROW-6576 - [R] 修复 sparklyr 集成测试
- ARROW-6597 - [Python] 在 Python 2.7 的 test_pandas 中出现段错误
- ARROW-6618 - [Python] 读取零大小的缓冲区可能导致段错误
- ARROW-6622 - [C++][R] Windows 上的 SubTreeFileSystem 路径错误
- ARROW-6623 - [CI][Python] Dask docker 集成测试可能因与统计相关的更改而中断
- ARROW-6639 - [Packaging][RPM] 增加对 aarch64 上的 CentOS 7 的支持
- ARROW-6640 - [C++] 当 BufferedInputStream Peek 的字节数超过缓冲区的字节数时出错
- ARROW-6642 - [Python] 对 ParquetDataset 元数据的链式访问导致段错误
- ARROW-6651 - [R] 修复 R conda 作业
- ARROW-6652 - [Python] to_pandas 转换从类型中移除时区
- ARROW-6660 - [Rust] [DataFusion] 0.15.0 版本发布的次要文档更新
- ARROW-6670 - [CI][R] 修复 R 夜间作业的修复
- ARROW-6674 - [Python] 修复或忽略测试警告
- ARROW-6677 - [FlightRPC][C++] 记录在 C++ 中使用 Flight
- ARROW-6678 - [C++] 由 ARROW-3246 引入的 Parquet 文件兼容性回归
- ARROW-6679 - [RELEASE] LICENSE.txt 中的 autobrew 许可证不可接受
- ARROW-6682 - [C#] Arrow R/C++ 在读取由 C# 生成的二进制文件时挂起
- ARROW-6687 - [Rust] [DataFusion] 查询返回不正确的行数
- ARROW-6701 - [C++][R] R cpp 代码的 Lint 失败
- ARROW-6703 - [Packaging][Linux] 恢复 ARROW_VERSION 环境变量
- ARROW-6705 - [Rust] [DataFusion] README 中的 github URL 无效
- ARROW-6709 - [JAVA] 当值为 null 时,Jdbc 适配器的 currentIndex 应该递增
- ARROW-6714 - [R] 修复未经测试的 RecordBatchWriter 案例
- ARROW-6716 - [CI] [Rust] 新的 1.40.0 nightly 版本导致构建失败
- ARROW-6751 - [CI] ccache 在 Travis-CI 上不缓存
- ARROW-6760 - [C++] JSON: 改进列类型更改时的错误消息
- ARROW-6762 - [C++] JSON 读取器在换行符处出现段错误
- ARROW-6773 - [C++] 当使用 Array 切片进行过滤时,过滤内核返回无效数据